欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

Python爬虫实战第二弹:抓取静态小说的完整架构解析

最编程 2024-08-07 15:15:50
...

我练习了5个静态页面的小说网站,发现静态小说网站的爬虫整体套路都是差不多的;
一般都是相似的嵌套结构:
小说列表(一共有多少页小说)—(选中一页,然后点进去)–>
一页小说(每页包含多少个小说条目)—(选中一个条目,然后点进去)–>
一本具体的小说:1)直接在该页面爬取小说相关信息 2)可以下载的小说则可以直接进入下载页面,然后下载到本地;只能在线阅读的小说则需要分别爬取每一页的内容,然后组合成一本完整的小说,然后保存到本地。

下面用图片来解释嵌套结构:
以https://www.bookbao99.net/List 书包网为例(该网站2023年过期):
第一层一共有多少个页面(这里是16344页)
在这里插入图片描述
**第二层:**每一页有多少个小说条目(这里每页有24个条目)
在这里插入图片描述

第三层:一本具体的小说的页面
在这里插入图片描述
小说页面所包含的我们感兴趣的信息
在这里插入图片描述
从下载页面获取对应的下载链接

在这里插入图片描述

用图片演示完了嵌套结构,我们用代码大致演示一下嵌套结构(注意:这不是实际代码,只是代码的大致结构):