见鬼了 汽车之家这什么黑科技,怎么破他防采集 只看楼主

13楼正解
本帖最后由 东方星雨 于 2017-3-31 20:14 编辑

代码都是自动的,自动的就有规律,整天替换<span class='hs_kw0_mainpl'></span>这一类代码为对应的字符应该就可以了
而hs_kw0_mainpl应该有一个对应的字符表,这个就需要你自己仔细看看研究出来了。
把他的class全部遍历一遍,然后写个判断,遇到XX就和相匹配class的结合就好了
  • 24# lsza
  • 2017-4-1 16:23:01
引用: lxvoip 发表于 2017-3-31 13:59
好像是将某些常用字进行了替换

如用  替换成“的”

这个文字是随机变的
  • 25# lsza
  • 2017-4-1 16:49:30
引用: 东方星雨 发表于 2017-3-31 20:12
代码都是自动的,自动的就有规律,整天替换这一类代码为对应的字符应该就可以了
而hs_kw0_mainpl应该有一个 ...

没有字符表 用的是data:image 随机图...
  • 26# lsza
  • 2017-4-1 16:52:33
引用: sora 发表于 2017-3-31 12:23
神经病的防采集, 正则没用, 他很多字词都是用dom的.
只能先了解他每个kw class所代表的字词, 然后替换, 或 ...

研究了下 是用background-image:url(data:image/png;base64 大佬 可有办法破译
  • 27# cdwyd
  • 2017-4-2 16:08:45
可提供付费解决方案,楼上的那些根本就没有仔细去看过加密,说正则和替换的想的太简单了
  • 28# mimixi
  • 2017-4-2 20:20:04
主要是用图片替换了 的 得 之类的助词,自己发个帖子包含3000个常用字的,然后把被替换的助词做个数组,放到采集替换规则里面去
引用: 查无此人 发表于 2017-3-31 13:23
这种规则,小事一桩

大佬啊,帮忙搞个WP的发布模块呗,给你两壶茶水钱
CSS :before 选择器
1234.. 5下一页