全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 3584|回复: 11

正在大量抓取google 有图比 tumblr 大战300回合

[复制链接]
suzizi 该用户已被删除
发表于 2017-5-18 11:22:44 | 显示全部楼层 |阅读模式
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2017-5-18 11:32:42 | 显示全部楼层
有git吗?代码分享下一起抓
发表于 2017-5-18 11:55:03 | 显示全部楼层
不难,一天几百W轻松的

难的是数据清洗,还有数据展示优化

如果这么大数据放一个数据库里,多线程调用,我了个去,那才是难

(爬虫其实一天上千W的数据也是很容易的,多节点,分布式部署SO EASY)

PYTHON GO NODE.JS 都是很简单的
发表于 2017-5-18 11:56:08 | 显示全部楼层
目前只是单机

先采集主要数据后再分布式
suzizi 该用户已被删除
 楼主| 发表于 2017-5-18 11:59:36 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2017-5-18 12:01:01 | 显示全部楼层
suzizi 发表于 2017-5-18 11:59
动不动就出验证码了 烦躁。

清洗就是伪原创吧   我感觉很容易啊, 因为本身采集的数据都是按关键词分类 ...

搞IP池吧。
发表于 2017-5-18 12:35:15 | 显示全部楼层
suzizi 发表于 2017-5-18 11:59
动不动就出验证码了 烦躁。

清洗就是伪原创吧   我感觉很容易啊, 因为本身采集的数据都是按关键词分类 ...

找那些有 JSON API这类的,爽一些

要挖掘背后的东西,

验证码是烦,也没办法,

大神一般都是有办法跳过的,或者自动识别,再或者打码
发表于 2017-5-18 12:56:20 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-11-26 10:40 , Processed in 0.081471 second(s), 11 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表