欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

python多线程爬取某网站全部h漫画_Python多线程爬虫爬取网页图片

最编程 2024-01-18 18:57:51
...

'''基于多页面多线程'''

import os #引入文件模块

import re #正则表达式

importurllib.requestimportthreading#连接网页并返回源码

defopen_url(url):try:

req=urllib.request.Request(url)

req.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")

response=urllib.request.urlopen(req)

status_code=response.code

html=response.read()returnhtmlexcept:print(url + "404")return 404

defmkdir(path):''':param path: 路径

:return:'''

#引入模块

importos#去除首位空格

path =path.strip()#去除尾部 \ 符号

path = path.rstrip("\\")#判断路径是否存在

#存在 True

#不存在 False

isExists =os.path.exists(path)#判断结果

if notisExists:#如果不存在则创建目录

#创建目录操作函数

os.makedirs(path)print(path + '创建成功')returnTrueelse:#如果目录存在则不创建,并提示目录已存在

print(path + '目录已存在')returnFalsedefYande1(i):

imgs= 1url= 'https://yande.re/post?page=' +str(i)

floder= "E:\\Python\\爬虫\\yande\\img\\page" +str(i)

mkdir(floder)

html=open_url(url)

html= html.decode('gbk', 'ignore')

img_adds=[]

img_adds= re.findall(r'