可选中1个或多个下面的关键词搜索相关资料。也可直接点“搜索资料”搜索整个问题
可选中1个或多个下面的关键词搜索相关资料。也可直接点“搜索资料”搜索整个问题
网络不行,我有过这样的
你对这个回答的评价是
接着上篇博客《用Scrapy抓取豆瓣豆瓣尛组网页版数据(一)》
start_urls预定义了豆瓣有所豆瓣小组网页版分类页面蜘蛛会从这些页面出發去找豆瓣小组网页版。
rules定义是CrawlSpider中最重要的一环可以理解为:当蜘蛛看到某种类型的网页,如何去进行处理
又如,如下规则会抓取网頁内容并自动抓取网页中链接供下一步抓取,但不会处理网页的其他内容
一般网站在client端都用cookie来保存用户的session信息,添加cookie信息就可以模拟登陆用户来抓取数据
首先可以尝试添加登陆用户的cookie去抓取网页,即使你抓取的是公开网页添加cookie有可能会防止蜘蛛在应用程序层被禁。这个我没有实际验证过但肯定没有坏处。
其次即使你是授权用户,如果你的访问过于频繁你的IP会可能被ban,所鉯一般你需要让蜘蛛在访问网址中间休息1~2秒
还有就是配置User Agent,尽量轮换使用不同的UserAgent去抓取网页