ahrefsbot是什么蜘蛛这个蜘蛛该怎么处理

User-agent: Sogou spider
Disallow: /
User-agent: DoCoMo Spider
Disallow: /
User-agent: bingbot/2.0
Crawl-delay: 36000
User-agent: YandexBot/3.0
Crawl-delay: 36000
转载请注明来自:[]查看: 3048|回复: 10
注册时间最后登录阅读权限200积分705精华1帖子
菜鸟码农, 积分 705, 距离下一级还需 295 积分
用过SAE一段时间之后,随着网站内容的增多,各种搜索和订阅网站对应用网站的访问会增多,访问的频率会非常高,通过使用SAE中的应用防火墙就可以发现一些异常频繁访问的IP,对这些IP进行屏蔽会降低对网站的访问,但要经过一段时间才能屏蔽的差不多,如果又有新的IP,还需要再屏蔽。从网上了解了一下,也可以在应用网站的页面加一些代码控制。
首先判断是不是蜘蛛爬访问,判断代码如下:
func.php文件:
& & & & //判断是否蜘蛛访问,是,返回蜘蛛网站名称
& & & & function getuseragent() {
& & & & & & & & $useragent = $_SERVER['HTTP_USER_AGENT'];
& & & & & & & & $ret=&&;
& & & & & & & & if(strpos($useragent, 'Googlebot') !== false){
& & & & & & & & & & & & $ret='谷歌';
& & & & & & & & } else if(strpos($useragent, 'Baiduspider')!== false){
& & & & & & & & & & & & $ret='百度';
& & & & & & & & } else if(strpos($useragent, 'Yahoo! Slurp') !== false){
& & & & & & & & & & & & $ret='雅虎';
& & & & & & & & } else if(strpos($useragent, 'msnbot') !== false){
& & & & & & & & & & & & $ret='Msn';
& & & & & & & & } else if(strpos($useragent, 'Sosospider') !== false){
& & & & & & & & & & & & $ret='搜搜';
& & & & & & & & } else if(strpos($useragent, 'YoudaoBot') !== false || strpos($useragent, 'OutfoxBot') !== false){
& & & & & & & & & & & & $ret='有道';
& & & & & & & & } else if(strpos($useragent, 'Sogou web spider') !== false || strpos($useragent, 'Sogou Orion spider') !== false){
& & & & & & & & & & & & $ret='搜狗';
& & & & & & & & } else if(strpos($useragent, 'fast-webcrawler') !== false){
& & & & & & & & & & & & $ret='Alltheweb';
& & & & & & & & } else if(strpos($useragent, 'Gaisbot') !== false){
& & & & & & & & & & & & $ret='Gais';
& & & & & & & & } else if(strpos($useragent, 'ia_archiver') !== false){
& & & & & & & & & & & & $ret='Alexa';
& & & & & & & & } else if(strpos($useragent, 'altavista') !== false){
& & & & & & & & & & & & $ret='AltaVista';
& & & & & & & & } else if(strpos($useragent, 'lycos_spider') !== false){
& & & & & & & & & & & & $ret='Lycos';
& & & & & & & & } else if(strpos($useragent, 'Inktomi slurp') !== false){
& & & & & & & & & & & & $ret='Inktomi';
& & & & & & & & } else if(strpos($useragent, 'JikeSpider') !== false){
& & & & & & & & & & & & $ret='Jike';
& & & & & & & & } else if(strpos($useragent, '360Spider') !== false){
& & & & & & & & & & & & $ret='360';
& & & & & & & & } else if(strpos($useragent, 'YandexBot') !== false){
& & & & & & & & & & & & $ret='Yandex';
& & & & & & & & } else if(strpos($useragent, 'EasouSpider') !== false){
& & & & & & & & & & & & $ret='易搜';
& & & & & & & & } else if(strpos($useragent, 'YRSpider') !== false){
& & & & & & & & & & & & $ret='YRSpider';
& & & & & & & & } else if(strpos($useragent, 'bingbot') !== false){
& & & & & & & & & & & & $ret='Bing';
& & & & & & & & } else if(strpos($useragent, 'AhrefsBot') !== false){
& & & & & & & & & & & & $ret='Ahrefs';
& & & & & & & & } else if(strpos($useragent, 'Feedsky') !== false){
& & & & & & & & & & & & $ret='Feedsky';
& & & & & & & & } else if(strpos($useragent, 'Feedfetcher-Google') !== false){
& & & & & & & & & & & & $ret='Google Feed';
& & & & & & & & } else if(stripos($useragent, 'feed') !== false){
& & & & & & & & & & & & $ret='other feed';
& & & & & & & & } else if(stripos($useragent, 'spider') !== false){
& & & & & & & & & & & & $ret='other spider';
& & & & & & & & } else if(stripos($useragent, 'bot') !== false){
& & & & & & & & & & & & $ret='other bot';
& & & & & & & & }
& & & & & & & & else {
& & & & & & & & & & & & $ret='normal';
& & & & & & & & }
& & & & & & & &
& & & & & & & & return $
在页面中开头部分通过调用getuseragent函数,根据返回结果,判断是不是。如果是蜘蛛爬,返回空结果内容。示例代码如下:
test.php:
require_once(&func.php&);
$agent=getuseragent();
if ($agent!='normal') {
注册时间最后登录阅读权限200积分4842精华1帖子
初级工程师, 积分 4842, 距离下一级还需 158 积分
应该加精。
注册时间最后登录阅读权限200积分374精华1帖子
新手小白, 积分 374, 距离下一级还需 226 积分
亲。如果不让蜘蛛抓取,建站还有啥用..
注册时间最后登录阅读权限200积分96精华0帖子
初来乍到, 积分 96, 距离下一级还需 204 积分
同楼上,虽然分享精神值得鼓励
注册时间最后登录阅读权限200积分24精华0帖子
初来乍到, 积分 24, 距离下一级还需 276 积分
robots.txt
注册时间最后登录阅读权限200积分14664精华5帖子
需要更有技术深度的分享才可以加精华哦亲,加油~~
注册时间最后登录阅读权限200积分1101精华0帖子
代码工人, 积分 1101, 距离下一级还需 399 积分
注册时间最后登录阅读权限200积分9精华0帖子
初来乍到, 积分 9, 距离下一级还需 291 积分
不让蜘蛛爬。。你的网站知名度可就不行了。。
注册时间最后登录阅读权限200积分1577精华2帖子
初级程序猿, 积分 1577, 距离下一级还需 423 积分
放在config.yaml里面更好,开销小+通用
注册时间最后登录阅读权限200积分525精华0帖子
新手小白, 积分 525, 距离下一级还需 75 积分
我的config.yaml是这样写的:
- rewrite: if( in_header[&User-Agent&] ~ &AhrefsBot& ) goto &/404.html&- rewrite: if( in_header[&User-Agent&] ~ &MJ12bot& ) goto &/404.html&
注册时间最后登录阅读权限200积分2324精华0帖子
中级程序猿, 积分 2324, 距离下一级还需 176 积分
执子之手_与子相悦 发表于
好的,回头我试试
Powered by如何使用伪静态Rewite规则组建拦截蜘蛛访问
南京服务器托管
有些时候我们需要在网站中把蜘蛛屏蔽掉,以下为Rewite规则来实现的方法。 在windows系统中,我们通常用Rewite来做伪静态处理,Rewite规则文件是: #Block spider RewriteCond %{HTTP_USER_AGENT} &Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot |WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|curl|perl |Python|Wget|Xenu|ZmEu& [NC] RewriteRule !(^/robots\.txt$) - [F] 在liunx系统中,规则文件为:htaccess,必须要我们手工创建.htaccess文件到站点根目录 &IfModule mod_rewrite.c& RewriteEngine On #Block spider RewriteCond %{HTTP_USER_AGENT} &Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot |WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|curl|perl |Python|Wget|Xenu|ZmEu& [NC] RewriteRule !(^robots\.txt$) - [F] &/IfModule& 注:规则中默认屏蔽部分不明蜘蛛,要屏蔽其他蜘蛛按规则添加即可 附各大蜘蛛名字: google蜘蛛: googlebot 百度蜘蛛:baiduspider yahoo蜘蛛:slurp alexa蜘蛛:ia_archiver msn蜘蛛:msnbot bing蜘蛛:bingbot altavista蜘蛛:scooter lycos蜘蛛: lycos_spider_(t-rex) alltheweb蜘蛛: fast-webcrawler inktomi蜘蛛: slurp 有道蜘蛛:YodaoBot和OutfoxBot 热土蜘蛛:Adminrtspider 搜狗蜘蛛:sogou spider SOSO蜘蛛:sosospider 360搜蜘蛛:360spider 另外Isapi_Rewite下载地址为: 南京服务器托管 | 南京服务器租用 | 南京网站建设 | 南京企业建站 | 南京服务器代维 | 虚拟主机 | 顶级域名 | 网站优化 | 网站推广 | 南京中绘谷网络数据中心 | 整理发布 | TEL:,025-,QQ:&
公司联系方式
联系我时,请告知来自搜了网!
地址:大桥北路77号电信大楼5楼
邮编:210000
公司最新产品
*免责声明: 以上所展示的信息由企业自行提供,内容的真实性、准确性和合法性由发布企业负责。搜了网对此不承担任何责任。只需一步,快速开始
查看: 2091|回复: 10
在线时间 小时
签到天数: 5 天连续签到: 1 天[LV.2]正式员工
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
才可以下载或查看,没有帐号?
AhrefsBot这个蜘蛛该怎么处理?网站日志出现这次蜘蛛该怎么处理啊?这个蜘蛛反应的都是404问题?请教大侠们我该怎么做?
a. 回帖是一种美德,也是对楼主发帖的尊重和支持;
&&&&如果通过本帖信息与他人联系,请说明来自推一把论坛!推一把微信公众号:tui18com
b. 请不要发表违反中华人民共和国法律的内容。本站所有帖子属会员个人意见,与本站立场无关.
&&&&帖子内容版权归属作者所有,如是转贴版权归属原作者所有,其他单位或个人在使用或转载帖子&&&&内容时须征得帖子作者的同意或注明内容原出处。
在线时间 小时
签到天数: 54 天连续签到: 0 天[LV.5]主管
提示: 作者被禁止或删除 内容自动屏蔽
在线时间 小时
签到天数: 88 天连续签到: 1 天[LV.6]经理
等待da安中。。。
阅读权限50
在线时间 小时
该用户从未签到
我是来学习的
在线时间 小时
签到天数: 48 天连续签到: 0 天[LV.5]主管
提示: 作者被禁止或删除 内容自动屏蔽
在线时间 小时
签到天数: 13 天连续签到: 0 天[LV.3]优秀员工
提示: 作者被禁止或删除 内容自动屏蔽
阅读权限90
在线时间 小时
签到天数: 901 天连续签到: 1 天[LV.10]董事长
把该做的都做了就行了
阅读权限70
在线时间 小时
签到天数: 115 天连续签到: 1 天[LV.6]经理
是不是页面打不开啊,要么就是错误页面。
阅读权限110
在线时间 小时
签到天数: 411 天连续签到: 1 天[LV.9]CEO
屏蔽一下& && &
阅读权限70
在线时间 小时
签到天数: 85 天连续签到: 1 天[LV.6]经理
不是很懂哦& &
推一把微信公众号:tui18com||京公网安备
论坛事务(9:30-17:00):
|广告合作(9:30-17:00):
承载数据运行(|)

我要回帖

更多关于 bot项目会计处理 的文章

 

随机推荐