【已解决】小说爬虫疑问 只看楼主

  • 11# Alanku
  • 2020-9-7 20:56:28
你得学一点html
  • 12# pikiti
  • 2020-9-7 21:00:56
dl中把两个dt中间内容删掉就行了
  • 13# pikiti
  • 2020-9-7 21:10:36
本帖最后由 pikiti 于 2020-9-8 11:49 编辑

拉倒
  • 14# wqz
  • 2020-9-7 21:14:35
要不要试试参考一下阅读(安卓APP github或者酷安可下载)的书源?
我记得阅读的书源是有章节获取规则的
阅读:https://github.com/gedoor/legado
源仓库:http://yck.mumuceo.com/
  • 15# laogui
  • 2020-9-7 21:24:13

  1. href_s = sel.css('dd > a::attr(href)')

改为
  1. href_s = sel.xpath('//dt[2]/following-sibling::*').css('dd > a::attr(href)')

试试看
  • 16# cgi
  • 2020-9-8 08:50:41

成了,多谢老哥,xpath和CSS 还可以一起用。
  • 17# cgi
  • 2020-9-8 08:54:37
引用: 518 发表于 2020-9-7 20:09
43行改为

这个切片的意思就是前面12行不要是吧
  • 18# 绿豆
  • 2020-9-8 08:56:02
马克一下,等大佬出现
  • 19# 518
  • 2020-9-8 09:11:18
引用: cgi 发表于 2020-9-8 08:54
这个切片的意思就是前面12行不要是吧

是,但是有些书章节少,要取长度//2和12最小值
  1. for href in href_s[min(12,len(href_s)//2):]:
  • 20# cgi
  • 2020-9-8 09:33:17
引用: 518 发表于 2020-9-8 09:11
是,但是有些书章节少,要取长度//2和12最小值

哦哦。明白了,谢谢
12