全球主机交流论坛

标题: 谢谢! [打印本页]

作者: talaon    时间: 2016-5-3 16:40
标题: 谢谢!
本帖最后由 talaon 于 2016-5-4 09:48 编辑

谢谢!

作者: yangct026    时间: 2016-5-3 16:42
求老司机带走!
作者: cs10086qq    时间: 2016-5-3 17:01
你想多了骚年。
作者: 倾城翻翻    时间: 2016-5-3 17:05
你知道采集100万文章要多长时间吗?

按最快的速度算, 1秒钟采集一篇,一天也只能采集 86400 篇

但是绝对不可能1秒钟采集一篇。
作者: poine    时间: 2016-5-3 17:06
大不了重复一下
作者: wtycn    时间: 2016-5-3 17:10
倾城翻翻 发表于 2016-5-3 17:05
你知道采集100万文章要多长时间吗?

按最快的速度算, 1秒钟采集一篇,一天也只能采集 86400 篇

不是有样东西叫并行么?
作者: talaon    时间: 2016-5-3 17:17
倾城翻翻 发表于 2016-5-3 17:05
你知道采集100万文章要多长时间吗?

按最快的速度算, 1秒钟采集一篇,一天也只能采集 86400 篇

后台跑呗,机器不就是干活的嘛。
作者: 耀磊数据-小凡    时间: 2016-5-3 17:17
老司机没有喝多?
作者: 倾城翻翻    时间: 2016-5-3 17:17
wtycn 发表于 2016-5-3 17:10
不是有样东西叫并行么?

关键是采集无卵用啊,你一天采的再多,搜索引擎根本不收,只会把硬盘撑爆。
作者: wtycn    时间: 2016-5-3 17:19
倾城翻翻 发表于 2016-5-3 17:17
关键是采集无卵用啊,你一天采的再多,搜索引擎根本不收,只会把硬盘撑爆。 ...

这倒是。。。。
作者: talaon    时间: 2016-5-3 17:20
本帖最后由 talaon 于 2016-5-3 17:24 编辑
倾城翻翻 发表于 2016-5-3 17:17
关键是采集无卵用啊,你一天采的再多,搜索引擎根本不收,只会把硬盘撑爆。 ...


一颗 500G 的硬盘一般情况下可以存1亿文章。

搜索引擎绝对不可能全收,但也有可能会收点,本就是垃圾站嘛。
作者: Tou    时间: 2016-5-3 18:18
人家玩了几年镜像,你还在玩批量采集。人家盗CDN流量你还在玩外链,人家全自动化工施肥,你还在玩鸡屎
作者: hostloced    时间: 2016-5-3 18:21
提示: 作者被禁止或删除 内容自动屏蔽
作者: 黄阿玛    时间: 2016-5-3 18:49
Tou 发表于 2016-5-3 18:18
人家玩了几年镜像,你还在玩批量采集。人家盗CDN流量你还在玩外链,人家全自动化工施肥,你还在玩鸡屎 ...

友谊的小船说翻就翻
作者: sense    时间: 2016-5-3 19:05
老司机求带
作者: Tou    时间: 2016-5-3 19:06
黄阿玛 发表于 2016-5-3 18:49
友谊的小船说翻就翻

好好的楼主说弯就弯,Mjj的小床说上就上。出于礼貌,我硬了一下
作者: talaon    时间: 2016-5-3 19:11
Tou 发表于 2016-5-3 18:18
人家玩了几年镜像,你还在玩批量采集。人家盗CDN流量你还在玩外链,人家全自动化工施肥,你还在玩鸡屎 ...

人各有志,合适就行嘛
作者: gger    时间: 2016-5-3 22:21
不明觉厉
作者: crazyalllife    时间: 2016-5-3 22:25
都是大牛
作者: 有容乃大    时间: 2016-5-4 03:02

作者: infokid    时间: 2016-5-4 05:39
100w会不会太少了,我现在都是千万数据
作者: 秋风下的落叶    时间: 2016-5-4 08:54
采集的数据有叼用。
作者: 小夜    时间: 2016-5-4 09:00
亲,现在这个思路已经不行了。
告诉你一个关键:采集数据的伪原创处理。 就这一句话,我这种好几年不做垃圾站的人,都能扩展十万字。




欢迎光临 全球主机交流论坛 (https://52.ht/) Powered by Discuz! X3.4