Python爬虫下载小说
最编程
2024-02-15 12:55:52
...
import requests as r
from lxml import etree
import re
## 根网址
base_url = "xxx"
## 小说id,即小说目录地址后的那一串数字
content_id = "xxx"
## 下载路径及文件名
myFile= "./小说名.txt"
## 获取html
items = r.get(base_url + "/" + content_id).text
html_body = etree.HTML(items).xpath("/html/body")
## 获取小说目录
## 这里采用了xpath的方式获取到类为listmain的div,并获取到其内部的dl,然后获取第二个dt之后的所有dd标签,获取每个dd标签下的a标签的href即为小说每一章的地址。
href = html_main.xpath("//div[@class='listmain']/dl/dt[2]/following-sibling::dd//a/@href")
## 打开文件并追加写入每一章的标题和内容,记得在最后处理一下\n\t和一些其它编码符。(可以适当添加延迟或者参考笔者之前的代理ip博客使用代理ip,否则可能会出现访问超时)
with open(myFile,"a", encoding="utf-8") as f:
for item in href:
res_content = ""
# 拼接url
url = base_url+item
response = r.get(url).text
res_html = etree.HTML(response)
title = res_html.xpath("//div[@class='content']/h1/text()")[0]
print("正在下载:"+title)
res_content+=title
res_content+='\n'
contents = res_html.xpath("//div[@id='content']/text()")
for content in contents:
trans_content = re.sub(r'\xa0', '', content)
res_content += content.replace("\xa0","").replace('\r','\t')
res_content+='\n'
f.write(res_content)
print("下载完成")
上一篇: 网络安全
推荐阅读
-
python 爬虫:编写一个爬虫,通过喜付宝查询电费账单
-
用 Python 爬虫抓取东方财富网股票数据并实现 MySQL 数据库存储(重印)
-
用 python3 抓取网页,用 aria2 下载电影,Jellyfin 自动更新最新电影
-
005 爬虫获取电影天堂中必看热门电影的下载地址
-
Golang Colly 下载小红书详情页图像的小型爬虫
-
基于 Python 的零基网络爬虫:抓取 4A 猎头公司数据
-
令人兴奋!只需一行代码就能从全网下载视频,如 b-site!-手把手教你用 Python 批量创建 RTW 证书!
-
Python爬虫--Pycharm写的爬虫程序,爬遍了糗事百科的所有糗事图片,室友看了直呼牛_pycharm创建的爬虫项目(1)--需要这方面系统学习的朋友,可以戳这里免费获取!
-
Python爬虫--Pycharm写爬虫程序抓取糗事百科所有糗事图片,室友看了直呼牛_pycharm创建爬虫项目
-
使用 Python 自动填写问卷星级(pyppeteer 反爬虫版本)