发新话题
打印

[方法技巧] 网页防采集策略

网页防采集策略

目前防采集的方法有很多种,先介绍一下常见防采集策略方法和它的弊端及采集对策:
0 Q" L# N- R, U$ F, g9 E$ a6 U, o
6 x4 a4 [; x. L& z! W一、判断一个IP在一定时间内对本站页面的访问次数,如果明显超过了正常人浏览速度,就拒绝此IP访问。
$ K3 I9 M6 I0 G5 j" S  g3 n! r& W! k- u5 i/ d
弊端: , m+ H' z5 C- [. O) }% v
1、此方法只适用于动态页面,如:asp\jsp\php等...静态页面无法判断某个IP一定时间访问本站页面的次数。 1 N4 E% q3 G5 Z! n; ~& E  U; p
2、此方法会严重影响搜索引擎蜘蛛对其收录,因为搜索引擎蜘蛛收录时,浏览速度都会比较快而且是多线程。此方法也会拒绝搜索引擎蜘蛛收录站内文件。
/ X/ N# N3 J5 C( o$ Q采集对策:只能放慢采集速度,或者不采。 . j( ?$ J7 n- c$ B6 S
建议:做个搜索引擎蜘蛛的IP库,只允许搜索引擎蜘蛛快速浏览站内内容。搜索引擎蜘蛛的IP库的收集,也不太容易,一个搜索引擎蜘蛛,也不一定只有一个固定的IP地址。
  E9 l2 ~& U" \评论:此方法对防采集比较有效,但却会影响搜索引擎对其收录。 3 {, p7 {0 m% i- A) `8 U" u$ w

  F5 A. \4 H& v9 _  L9 M二、用javascript加密内容页面
8 _5 d4 |0 l8 m2 n7 O! @
* Y) v+ e- @. e8 q0 ~% C9 R+ W弊端:此方法适用于静态页面,但会严重影响搜索引擎对其收录情况,搜索引擎收到到的内容,也都是加密后的内容。
$ v5 V8 w8 z& o" h$ {8 B8 m3 p: M采集对策:建议不采,如非要采,就把解密码的JS脚本也采下来。 0 w4 e. x- U) n& V( o
建议:目前没有好的改良建议。
! O( r6 f# O' q# Y6 H评论:建议指望搜索引擎带流量的站长不要使用此方法。
( z7 w$ p+ M, ?
2 h6 C0 h- m3 ~3 [' t& ~/ N三、把内容页面里的特定标记替换为”特定标记+隐藏版权文字“ ( D9 W) P' v" q+ T1 C% W
, I7 {  o3 @# x
弊端:此方法弊端不大,仅仅会增加一点点的页面文件大小,但容易反采集。 & ^+ |7 L' O* u8 L
采集对策:把采集来的含有隐藏版权文字内容的版权文字替掉,或替换成自己的版权。
7 _+ A8 Q0 v5 I9 ]- r6 T建议:目前没有好的改良建议。 ' U) z2 j% s$ E# g, i# H$ H
评论:自己感觉实用价值不大,就算是加上随机的隐藏文字,也等于画蛇添足。 - f% i/ i' G, w" Y6 L9 T" {7 H

* c" `8 l0 R8 C4 M四、只允许用户登陆后才可以浏览 , h& D( Z4 P  ~% i% a9 O
; k. s9 \8 y% R7 \. e
弊端:此方法会严重影响搜索引擎蜘蛛对其收录
* V: r% I. y/ g采集对策:目前落伍已经有人发了对策文章 ,具体对策就看这个吧《ASP小偷程序如何利用XMLHTTP实现表单的提交以及cookies或session的发送》。
$ M6 {0 \4 Q; q, d% f# N) L1 Y建议:目前没有好的改良建议。 9 `- r8 l% N  o
评论:建议指望搜索引擎带流量的站长不要使用此方法。不过此方法防一般的采集程序,还是有点效果的。 ' S" C0 K& t! y- l2 O* v
# ~8 [. f) }. y( q0 w) h
五、用javascript、vbscript脚本做分页 , o( v+ A$ g  x* _# N  s, m' X

8 z  s) Y2 y. r# K弊端:影响搜索引擎对其收录。
. s. d! |& S+ |& e2 p采集对策:分析javascript、vbscript脚本,找出其分页规则,自己做个对应此站的分页集合页即可。
1 @+ ]6 `9 ?3 i2 E% X/ F) b9 G1 x* [# ^建议:目前没有好的改良建议。
+ f: K# g. k2 `- S- f! G4 v3 b评论:感觉懂点脚本语言的人都能找出其分页规则。
& l; [& A! L/ f1 U
, o7 N# E6 F4 K, j六、只允许通过本站页面连接查看,如:Request.ServerVariables(“HTTP_REFERER“) / A# n. d" F# k

2 e  M+ x- e$ E9 P4 w. f  r5 U弊端:影响搜索引擎对其收录。 + F1 c! @" O2 Z. T0 q; u1 C
采集对策:不知道能不能模拟网页来源。。。。目前我没有对应此方法的采集对策。 $ y) O3 D( L& _, O
建议:目前没有好的改良建议。 0 k% ^# E" F/ w) B; k; ]. S* ]
评论:建议指望搜索引擎带流量的站长不要使用此方法。不过此方法防一般的采集程序,还是有点效果的。
发新话题