可以用网络爬虫爬取京东商品爬取的销售数据吗?


今天一起学起使用selenium和pyquery爬取京东的商品列表本文的所有代码是在pycharm IDE中完成的,操作系统window 10

dirver的版本要一致。我的chrome版本是70对应chrome driver是,分析查询输入框和查询按钮的css代码:
通过分析发现搜索框的css代码是id=“key”,查询按钮的css代码是class=“button”下面是使用selenium调用chrome浏览器在搜索框输入关键词“计算机书籍”并点击查询按钮出发查询请求的代码:

#通过css选择器的id属性获得输入框 #通过css选择器的id属性获得输入框 # 通过css选择器的id属性获得输入框。until方法表示浏览器完全加载到對应的节点才返回相应的对象。presence_of_all_elements_located是通过css选择器加载节点 # 在输入框中写入要查询的信息 # 查询按钮完全加载完毕返回查询按钮对象 # 模拟下滑到底部操作 #滑动到页面底部,用于加载数据 # 判断翻页成功当底部的分页界面上显示第几页时,就显示翻页成功

(2)在通过page_source获取网页源码時,如果有xmlns命名空间则要将该命名空间空其他的字段代替,否则使用pyquery解析网页时会解析不出数据。pyquery解析xmlns命名空间时会自动隐藏掉某些属性。导致无法征程解析网页原因不详,如果有人知道原因请告知

我要回帖

更多关于 京东商品爬取 的文章

 

随机推荐