广告广告
  加入我的最爱 设为首页 风格修改
首页 首尾
 手机版   订阅   地图  繁体 
您是第 4981 个阅读者
 
发表文章 发表投票 回覆文章
  可列印版   加为IE收藏   收藏主题   上一主题 | 下一主题   
月光 手机
个人头像
个人文章 个人相簿 个人日记 个人地图
社区建设奖
头衔:看我代替月亮惩罚你!看我代替月亮惩罚你!
版主
级别: 版主 该用户目前不上站
版区: Unix-like, 网站架设
推文 x42 鲜花 x565
分享: 转寄此文章 Facebook Plurk Twitter 复制连结到剪贴簿 转换为繁体 转换为简体 载入图片
推文 x0
[教学] 用 Apache 拒绝网路流氓的骚扰
User-agent: abc
Disallow: /not_for_abc/
User-agent: *
Disallow: /secret/

意思是禁止 abc 这个 robot 捉 /not_for_abc/ 目录,及禁止所有的 robots 捉 /secret/ 目录. 网站管理者理论上可以将不喜欢的 robot,或是禁止 robot 捉取的目录或档案,写在这个档案中.

但是这个只防君子不防小人,碰到网路流氓就没辙了,有些搜寻引擎的 robot 根本不看网站的 robots.txt,就一路抓下去,实在另人发指. 网路流氓是什么,就是这些不遵守游戏规则,到处乱捉别人网站的内容的坏蛋,这样会造成网站的流量增加,也就是费用的增加,或是不想被搜寻的资料也被捉走了,侵犯网站的隐私. 很可恶是吧. 下面是几个例子:
iaskspider 是「爱问」属于中国新浪网的 robot,完全不管 robots.txt

60.28.164.87 - - [06/Jan/2007:06:28:47 +0800] "GET /wp/archives/2005/08/13/12/46/48/ HTTP/1.0" 200 20969 "-" "Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)"
60.28.164.87 - - [06/Jan/2007:06:29:34 +0800] "GET /wp/archives/2005/08/13/21/28/00/ HTTP/1.0" 200 19601 "-" "Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)"
60.28.164.87 - - [06/Jan/2007:06:31:45 +0800] "GET /wp/archives/2005/07/06/22/47/17/ HTTP/1.0" 200 39200 "-" "Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)"

QihooBot,也是来自中国的「奇虎网」,也是垃圾一个,浪费一堆频宽,来源 IP 有很多个:

220.181.34.162 - - [03/Jan/2007:11:36:27 +0800] "GET /wp/feed/ HTTP/1.1" 200 21947 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0)"
220.181.34.170 - - [03/Jan/2007:11:38:14 +0800] "GET /wp/archives/2006/12/ HTTP/1.1" 200 5373 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0)"
220.181.34.177 - - [03/Jan/2007:11:38:30 +0800] "GET /wp/archives/category/childtalking/ HTTP/1.1" 200 6554 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0)"

另有 larbin,iearthworm,yodaoice,lanshanbot,Outfoxbot 等等一堆,到网路上征信一下,这些通通不是什么好东西,还有一个 WebClipping.com 不知是好人坏人…

碰到这种网路流氓,说实在的也没什么积极的办法,不能叫网路警察把它捉起来...不过消极的办法还是有的,把网站门户看好 — Apache 可以挡住特定 IP,但因为 robots 大多有多重 IP,过滤坏蛋的姓名比较有效,可以用 BrowserMatchNoCase 来过滤,用法像是:

复制程式
<directory "/wwwroot">
Order allow,deny
Allow from all
BrowserMatchNoCase "iaskspider" badguy
BrowserMatchNoCase "QihooBot" badguy
BrowserMatchNoCase "larbin" badguy
deny from env=badguy
</directory>

如此,它们就会收到 Apache 丢回 403 码:Forbidden

但是,有些更没品的还会隐姓埋名,不敢用真面目见人的…



月光论坛
http://bbs.dj...com/


===================================
赞助本站 -- 刊登广告 -- 物超所值虚拟主机租用
献花 x0 回到顶端 [楼 主] From:台湾中华电信HINET | Posted:2008-03-25 06:07 |
kolong
个人头像
个人文章 个人相簿 个人日记 个人地图
小人物
级别: 小人物 该用户目前不上站
推文 x2 鲜花 x14
分享: 转寄此文章 Facebook Plurk Twitter 复制连结到剪贴簿 转换为繁体 转换为简体 载入图片

我只能说..
道高一尺,魔高一丈.. 表情


成功者找方法,失败者找理由。
献花 x0 回到顶端 [1 楼] From:台湾新世纪资通股份有限公司 | Posted:2008-03-25 13:21 |
lapklaman
个人文章 个人相簿 个人日记 个人地图
小有名气
级别: 小有名气 该用户目前不上站
推文 x3 鲜花 x427
分享: 转寄此文章 Facebook Plurk Twitter 复制连结到剪贴簿 转换为繁体 转换为简体 载入图片

感谢大大的教学


献花 x0 回到顶端 [2 楼] From:台湾中华电信 | Posted:2010-03-10 16:05 |

首页  发表文章 发表投票 回覆文章
Powered by PHPWind v1.3.6
Copyright © 2003-04 PHPWind
Processed in 0.056141 second(s),query:16 Gzip disabled
本站由 瀛睿律师事务所 担任常年法律顾问 | 免责声明 | 本网站已依台湾网站内容分级规定处理 | 连络我们 | 访客留言