回复
美国VPS综合讨论
见鬼了 汽车之家这什么黑科技,怎么破他防采集
只看楼主
11
#
gaoji.me
2017-3-31 13:35:04
截图可破一切
12
#
yestop
2017-3-31 13:52:29
截图 ocr
13
#
lxvoip
2017-3-31 13:59:13
本帖最后由 lxvoip 于 2017-3-31 14:14 编辑
好像是将某些常用字进行了替换
如用 <span class='hs_kw0_mainMa'></span> 替换成“的”
自己先做一个替换就可以了
也就20多个字
<span class='hs_kw0_mainMa'></span>
<span class='hs_kw1_mainMa'></span>
<span class='hs_kw2_mainMa'></span>
<span class='hs_kw3_mainMa'></span>
<span class='hs_kw4_mainMa'></span>
<span class='hs_kw5_mainMa'></span>
<span class='hs_kw6_mainMa'></span>
<span class='hs_kw7_mainMa'></span>
<span class='hs_kw8_mainMa'></span>
<span class='hs_kw9_mainMa'></span>
<span class='hs_kw10_mainMa'></span>
<span class='hs_kw11_mainMa'></span>
<span class='hs_kw12_mainMa'></span>
<span class='hs_kw13_mainMa'></span>
<span class='hs_kw14_mainMa'></span>
<span class='hs_kw15_mainMa'></span>
<span class='hs_kw16_mainMa'></span>
<span class='hs_kw17_mainMa'></span>
<span class='hs_kw18_mainMa'></span>
<span class='hs_kw19_mainMa'></span>
<span class='hs_kw20_mainMa'></span>
<span class='hs_kw21_mainMa'></span>
<span class='hs_kw22_mainMa'></span>
<span class='hs_kw23_mainMa'></span>
<span class='hs_kw24_mainMa'></span>
<span class='hs_kw25_mainMa'></span>
<span class='hs_kw26_mainMa'></span>
<span class='hs_kw27_mainMa'></span>
<span class='hs_kw28_mainMa'></span>
<span class='hs_kw29_mainMa'></span>
<span class='hs_kw30_mainMa'></span>
<span class='hs_kw31_mainMa'></span>
14
#
poropro
2017-3-31 16:21:25
厉害了 我的哥
15
#
我的两三年
2017-3-31 16:36:34
标签;干掉span 和DIV就可以了
16
#
tsk
2017-3-31 16:47:26
看不懂大佬们在研究什么黑科技……
17
#
imyoy
2017-3-31 17:06:22
用什么采集? 正则过滤掉<span
18
#
Andycw
2017-3-31 17:41:34
正则是标准答案, 汽车之家这就想防采集也太天真了....
如果楼主实在不想用正则, 就先把span的class清空, 再一头一尾替换为"" 即可
19
#
googlebot2
2017-3-31 17:53:37
一般是换字体可以防采集,英文这样,
20
#
greensnow
2017-3-31 17:54:10
采集根本就不是这样防的
回复
上一页
1
2
3
4
.. 5
/ 5 页
下一页