全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
楼主: lsza
打印 上一主题 下一主题

见鬼了 汽车之家这什么黑科技,怎么破他防采集

[复制链接]
22#
发表于 2017-3-31 20:12:40 | 只看该作者
本帖最后由 东方星雨 于 2017-3-31 20:14 编辑

代码都是自动的,自动的就有规律,整天替换<span class='hs_kw0_mainpl'></span>这一类代码为对应的字符应该就可以了
而hs_kw0_mainpl应该有一个对应的字符表,这个就需要你自己仔细看看研究出来了。
23#
发表于 2017-3-31 21:06:52 | 只看该作者
把他的class全部遍历一遍,然后写个判断,遇到XX就和相匹配class的结合就好了
24#
 楼主| 发表于 2017-4-1 16:23:01 | 只看该作者
lxvoip 发表于 2017-3-31 13:59
好像是将某些常用字进行了替换

如用  替换成“的”

这个文字是随机变的
25#
 楼主| 发表于 2017-4-1 16:49:30 | 只看该作者
东方星雨 发表于 2017-3-31 20:12
代码都是自动的,自动的就有规律,整天替换这一类代码为对应的字符应该就可以了
而hs_kw0_mainpl应该有一个 ...

没有字符表 用的是data:image 随机图...
26#
 楼主| 发表于 2017-4-1 16:52:33 | 只看该作者
sora 发表于 2017-3-31 12:23
神经病的防采集, 正则没用, 他很多字词都是用dom的.
只能先了解他每个kw class所代表的字词, 然后替换, 或 ...

研究了下 是用background-image:url(data:image/png;base64 大佬 可有办法破译

点评

不是的, 这个很难, <!--@HS_ZY@--> 之后的js代码是关键. 最讨厌加密加密了. 暂时没能耐. 只能找大神.  发表于 2017-4-1 17:56
27#
发表于 2017-4-2 16:08:45 | 只看该作者
可提供付费解决方案,楼上的那些根本就没有仔细去看过加密,说正则和替换的想的太简单了
28#
发表于 2017-4-2 20:20:04 | 只看该作者
主要是用图片替换了 的 得 之类的助词,自己发个帖子包含3000个常用字的,然后把被替换的助词做个数组,放到采集替换规则里面去
29#
发表于 2017-4-3 13:58:32 | 只看该作者
查无此人 发表于 2017-3-31 13:23
这种规则,小事一桩

大佬啊,帮忙搞个WP的发布模块呗,给你两壶茶水钱
30#
发表于 2017-4-3 14:34:10 | 只看该作者
CSS :before 选择器
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2025-1-7 23:03 , Processed in 0.071745 second(s), 11 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表