全球主机交流论坛

标题: 见鬼了 汽车之家这什么黑科技,怎么破他防采集 [打印本页]

作者: lsza    时间: 2017-3-31 12:19
标题: 见鬼了 汽车之家这什么黑科技,怎么破他防采集
http://club.autohome.com.cn/bbs/thread-c-4352-61355762-1.html

(, 下载次数: 0)

文字不能复制全,火车头采集的内容都是不全的

看源码里面都木有标点

(, 下载次数: 0)

以前可以用手机版采集,结果现在手机版也有这坑爹的功能了。。。。

还有什么办法采集?
作者: gdxhvs    时间: 2017-3-31 12:21
万能的正则可以帮助你!!!!!!!!11
作者: sora    时间: 2017-3-31 12:23
本帖最后由 sora 于 2017-3-31 12:25 编辑

神经病的防采集, 正则没用, 他很多字词都是用dom的.
只能先了解他每个kw class所代表的字词, 然后替换, 或者用浏览器采集.
作者: haohaoge    时间: 2017-3-31 12:27
这个采集node比较方便点
作者: lsza    时间: 2017-3-31 12:29
sora 发表于 2017-3-31 12:23
神经病的防采集, 正则没用, 他很多字词都是用dom的.
只能先了解他每个kw class所代表的字词, 然后替换, 或 ...

IE模式下 他这个防采集就失效了,火车头采集内容没法指定浏览器吧
作者: sora    时间: 2017-3-31 12:36
lsza 发表于 2017-3-31 12:29
IE模式下 他这个防采集就失效了,火车头采集内容没法指定浏览器吧


跟浏览器没关系, 他这个代码就是这样, 什么浏览器都一样.
我说的浏览器采集是用插件, 让他先把文件都替换了再获取, 但是好像也没用.

  1. javascript:alert($(".tz-paragraph").html())
复制代码


输出的还是一样的.
作者: lsza    时间: 2017-3-31 12:54
sora 发表于 2017-3-31 12:36
跟浏览器没关系, 他这个代码就是这样, 什么浏览器都一样.
我说的浏览器采集是用插件, 让他先把文件都替换 ...

你用ie 复制文字 然后粘贴到txt里试试
作者: cnmeimei    时间: 2017-3-31 13:07
魔高一尺啊
作者: stelics    时间: 2017-3-31 13:14
lsza 发表于 2017-3-31 12:54
你用ie 复制文字 然后粘贴到txt里试试

那是ie兼容不了,直接过滤掉了
作者: 查无此人    时间: 2017-3-31 13:23
提示: 作者被禁止或删除 内容自动屏蔽
作者: gaoji.me    时间: 2017-3-31 13:35
截图可破一切
作者: yestop    时间: 2017-3-31 13:52
截图 ocr
作者: lxvoip    时间: 2017-3-31 13:59
本帖最后由 lxvoip 于 2017-3-31 14:14 编辑

好像是将某些常用字进行了替换

如用 <span class='hs_kw0_mainMa'></span> 替换成“的”

自己先做一个替换就可以了
也就20多个字

<span class='hs_kw0_mainMa'></span>
<span class='hs_kw1_mainMa'></span>
<span class='hs_kw2_mainMa'></span>
<span class='hs_kw3_mainMa'></span>
<span class='hs_kw4_mainMa'></span>
<span class='hs_kw5_mainMa'></span>
<span class='hs_kw6_mainMa'></span>
<span class='hs_kw7_mainMa'></span>
<span class='hs_kw8_mainMa'></span>
<span class='hs_kw9_mainMa'></span>
<span class='hs_kw10_mainMa'></span>
<span class='hs_kw11_mainMa'></span>
<span class='hs_kw12_mainMa'></span>
<span class='hs_kw13_mainMa'></span>
<span class='hs_kw14_mainMa'></span>
<span class='hs_kw15_mainMa'></span>
<span class='hs_kw16_mainMa'></span>
<span class='hs_kw17_mainMa'></span>
<span class='hs_kw18_mainMa'></span>
<span class='hs_kw19_mainMa'></span>
<span class='hs_kw20_mainMa'></span>
<span class='hs_kw21_mainMa'></span>
<span class='hs_kw22_mainMa'></span>
<span class='hs_kw23_mainMa'></span>
<span class='hs_kw24_mainMa'></span>
<span class='hs_kw25_mainMa'></span>
<span class='hs_kw26_mainMa'></span>
<span class='hs_kw27_mainMa'></span>
<span class='hs_kw28_mainMa'></span>
<span class='hs_kw29_mainMa'></span>
<span class='hs_kw30_mainMa'></span>
<span class='hs_kw31_mainMa'></span>
作者: poropro    时间: 2017-3-31 16:21
厉害了 我的哥
作者: 我的两三年    时间: 2017-3-31 16:36
标签;干掉span  和DIV就可以了
作者: tsk    时间: 2017-3-31 16:47
看不懂大佬们在研究什么黑科技……
作者: imyoy    时间: 2017-3-31 17:06
用什么采集? 正则过滤掉<span
作者: Andycw    时间: 2017-3-31 17:41
正则是标准答案, 汽车之家这就想防采集也太天真了....

如果楼主实在不想用正则, 就先把span的class清空, 再一头一尾替换为""  即可
作者: googlebot2    时间: 2017-3-31 17:53
一般是换字体可以防采集,英文这样,
作者: greensnow    时间: 2017-3-31 17:54
采集根本就不是这样防的
作者: taxuerb    时间: 2017-3-31 20:08
13楼正解
作者: 东方星雨    时间: 2017-3-31 20:12
本帖最后由 东方星雨 于 2017-3-31 20:14 编辑

代码都是自动的,自动的就有规律,整天替换<span class='hs_kw0_mainpl'></span>这一类代码为对应的字符应该就可以了
而hs_kw0_mainpl应该有一个对应的字符表,这个就需要你自己仔细看看研究出来了。
作者: 321999754    时间: 2017-3-31 21:06
把他的class全部遍历一遍,然后写个判断,遇到XX就和相匹配class的结合就好了
作者: lsza    时间: 2017-4-1 16:23
lxvoip 发表于 2017-3-31 13:59
好像是将某些常用字进行了替换

如用  替换成“的”

这个文字是随机变的

作者: lsza    时间: 2017-4-1 16:49
东方星雨 发表于 2017-3-31 20:12
代码都是自动的,自动的就有规律,整天替换这一类代码为对应的字符应该就可以了
而hs_kw0_mainpl应该有一个 ...

没有字符表 用的是data:image 随机图...
作者: lsza    时间: 2017-4-1 16:52
sora 发表于 2017-3-31 12:23
神经病的防采集, 正则没用, 他很多字词都是用dom的.
只能先了解他每个kw class所代表的字词, 然后替换, 或 ...

研究了下 是用background-image:url(data:image/png;base64 大佬 可有办法破译
作者: cdwyd    时间: 2017-4-2 16:08
可提供付费解决方案,楼上的那些根本就没有仔细去看过加密,说正则和替换的想的太简单了
作者: mimixi    时间: 2017-4-2 20:20
主要是用图片替换了 的 得 之类的助词,自己发个帖子包含3000个常用字的,然后把被替换的助词做个数组,放到采集替换规则里面去
作者: maiawpyg    时间: 2017-4-3 13:58
查无此人 发表于 2017-3-31 13:23
这种规则,小事一桩

大佬啊,帮忙搞个WP的发布模块呗,给你两壶茶水钱
作者: 三胖的日常    时间: 2017-4-3 14:34
CSS :before 选择器
作者: playmusic    时间: 2017-4-3 18:23
PhantomJS + ocr 最后的方法
作者: linhai    时间: 2017-4-3 19:10
playmusic 发表于 2017-4-3 18:23
PhantomJS + ocr 最后的方法

跟我想到一起了
作者: zdzym    时间: 2017-4-3 21:29
可以用正则过滤掉吧
作者: 卡罗拉轰轰    时间: 2017-4-6 14:04
楼主 采集菜鸟 鉴定完毕。。。
作者: lsza    时间: 2017-4-6 22:15
卡罗拉轰轰 发表于 2017-4-6 14:04
楼主 采集菜鸟 鉴定完毕。。。

大神球规则啊,我承认我是菜鸟,求大神给个规则
作者: teepsn    时间: 2017-4-6 23:03
小菜一碟,用火车头之外的采集工具
作者: 卡罗拉轰轰    时间: 2017-4-6 23:17
lsza 发表于 2017-4-6 22:15
大神球规则啊,我承认我是菜鸟,求大神给个规则

5元一条规则 火车头
作者: lsza    时间: 2017-4-7 00:12
卡罗拉轰轰 发表于 2017-4-6 23:17
5元一条规则 火车头

5元一条没什么问题,前提是你确定采集到的内容是完整的?
作者: lovees    时间: 2017-4-7 00:36
maiawpyg 发表于 2017-4-3 13:58
大佬啊,帮忙搞个WP的发布模块呗,给你两壶茶水钱
  1. https://www.sxsay.com/674.html
复制代码

发布模块,
作者: lovees    时间: 2017-4-7 00:37
其实你可以用Ctrl+C然后再Ctrl+V,人工智能化了
作者: lsza    时间: 2017-4-7 12:05
lovees 发表于 2017-4-7 00:37
其实你可以用Ctrl+C然后再Ctrl+V,人工智能化了

现在就是 进论坛找个帖子 用搜索搜标题 进去再复制粘贴,这堪比伪原创啊 百度收录的内容都是他防采集的内容...




欢迎光临 全球主机交流论坛 (https://52.ht/) Powered by Discuz! X3.4