天眼查企业信息获取哪里有


这是一个在未登录的情况下根據企业名称搜索,爬取企业页面数据的采集程序

注意: 这是一个比较简单的爬虫基本上只用到了代理,没有用到其他的反反爬技术不过甴于爬取的数据比较多,适合刷解析技能的熟练度所以高手勿进

代码已经上传到上,有用还请给个星

  1. 先获取需要采集信息的公司:

  2. 将获取的数据存储的状态表中
  3. 从状态表中获取数据并更新状态表
    1. 将etname和初始url进行拼接,获得初始网址
    2. 将初始url放到一个列表中获取HTML的时候如何絀错,将出错的url放到另一个列表中进行循环获取
  • 请求解析初始一级页面:

    1. 验证查询的公司是否正确(?)
  • 将二级url放到一个列表中,获取HTML的时候如何出错将出错的url放到另一个列表中,进行循环获取
  • 将公司的信息存储到数据库中:




我要回帖

 

随机推荐