Python爬虫实战第二弹：抓取静态小说的完整架构解析

最编程 2024-08-07 15:15:50

...

我练习了5个静态页面的小说网站，发现静态小说网站的爬虫整体套路都是差不多的；
一般都是相似的嵌套结构：
小说列表（一共有多少页小说）—(选中一页，然后点进去）–>
一页小说（每页包含多少个小说条目）—（选中一个条目，然后点进去）–>
一本具体的小说:1）直接在该页面爬取小说相关信息 2）可以下载的小说则可以直接进入下载页面，然后下载到本地；只能在线阅读的小说则需要分别爬取每一页的内容，然后组合成一本完整的小说，然后保存到本地。

下面用图片来解释嵌套结构：
以https://www.bookbao99.net/List 书包网为例（该网站2023年过期）：
第一层一共有多少个页面（这里是16344页）
在这里插入图片描述
**第二层：**每一页有多少个小说条目（这里每页有24个条目）

第三层：一本具体的小说的页面
在这里插入图片描述
小说页面所包含的我们感兴趣的信息

从下载页面获取对应的下载链接

在这里插入图片描述

用图片演示完了嵌套结构，我们用代码大致演示一下嵌套结构（注意：这不是实际代码，只是代码的大致结构）：

上一篇：我的个人原创模型制作尝试：2月25日至26日的经历

下一篇：道别