今天一起学起使用selenium和pyquery爬取京东的商品列表本文的所有代码是在pycharm IDE中完成的,操作系统window 10
dirver的版本要一致。我的chrome版本是70对应chrome driver是,分析查询输入框和查询按钮的css代码:
通过分析发现搜索框的css代码是id=“key”,查询按钮的css代码是class=“button”下面是使用selenium调用chrome浏览器在搜索框输入关键词“计算机书籍”并点击查询按钮出发查询请求的代码:
(2)在通过page_source获取网页源码時,如果有xmlns命名空间则要将该命名空间空其他的字段代替,否则使用pyquery解析网页时会解析不出数据。pyquery解析xmlns命名空间时会自动隐藏掉某些属性。导致无法征程解析网页原因不详,如果有人知道原因请告知