全球主机交流论坛

用户名  找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 1622|回复: 5

【全球火车头论坛】分页或多页里获取的url里有中文怎么办

[复制链接]
发表于 2021-3-6 21:57:07 | 显示全部楼层 |阅读模式
像下面这个url里就有中文 怎么办?
https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=我不会fenlei=256

甚至还有中文加代码的 例如
https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=我不<br>会fenlei=256

!分页和多页链接获取只能在默认页面获取  所以默认页面无法先加工再采集 。。。
!获取的分页和多页链接也无法转码或加工 例如删除<br>

有木有火车头大佬给科普一下 不胜感激!~
发表于 2021-3-6 21:58:37 | 显示全部楼层
火车头不了解
但链接中中文或者特殊符号一般都是urlencode一下
 楼主| 发表于 2021-3-6 22:05:06 | 显示全部楼层
wjj 发表于 2021-3-6 21:58
火车头不了解
但链接中中文或者特殊符号一般都是urlencode一下

大佬 爬虫这个东西  是不是不好学啊?只会简单的html语言 是不是没门?
发表于 2021-3-6 22:51:10 来自手机 | 显示全部楼层
中文已经给你转码了,不用管。百毒这种做防采集到变态的沙雕,得用多种工具一起伺候他
 楼主| 发表于 2021-3-6 23:15:05 | 显示全部楼层
sky21022 发表于 2021-3-6 22:51
中文已经给你转码了,不用管。百毒这种做防采集到变态的沙雕,得用多种工具一起伺候他 ...

其实我采集的不是百毒 这个只是用来举个栗子
发表于 2021-3-7 16:55:03 | 显示全部楼层
z6045670 发表于 2021-3-6 23:15
其实我采集的不是百毒 这个只是用来举个栗子

我也是拿百度举个例子
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2025-4-29 16:18 , Processed in 0.070367 second(s), 9 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表