欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

搞定!数据采集和融合技术的第三次作业

最编程 2024-01-21 07:47:11
...

作业一
要求:指定一个网站,爬取这个网站中的所有的所有图片,例如中国气象网(http://www.we ather.com.cn)。分别使用单线程和多线程的方式爬取。(限定爬取图片数量为学号后3位)
输出信息:将下载的Url信息在控制台输出,并将下载的图片存储在images子文件中,并给出截图。
实验步骤
1.选择爬取京东网站136个书包图片
2.多线程方式爬取
(1)利用re库正则表达式获取图片url字段
数据采集与融合技术-第三次作业_ide
(2)定义下载图片的函数
数据采集与融合技术-第三次作业_ide_02
(3)启动线程,用于下载图片,并设置所有子线程结束主线程才能结束
数据采集与融合技术-第三次作业_ide_03
数据采集与融合技术-第三次作业_数据库_04
3.单线程方式爬取
(1)与多线程爬取的差别只是没有线程的启动,将上述多线程方式爬取的(3)启动线程改为直接下载图片
数据采集与融合技术-第三次作业_多线程_05
4.结果查看
(1)多线程爬取

  • 控制台输出url:由于输出url并没有放在多线程里,所有是按照顺序输出的
    数据采集与融合技术-第三次作业_数据库_06
    数据采集与融合技术-第三次作业_ide_07

  • 图片存入images文件夹
    数据采集与融合技术-第三次作业_数据_08
    (2)单线程爬取

  • 控制台输出url
    数据采集与融合技术-第三次作业_数据_09
    数据采集与融合技术-第三次作业_多线程_10

  • 图片存入images2文件夹
    数据采集与融合技术-第三次作业_数据_11
    *** 实验心得**
    1.京东网站采取选择性反爬取策略,同一个请求有时候能请求,有时候被拒绝,应该在第一次爬取全部信息后存入文本中,再进行爬取调试。

作业二
要求:使用scrapy框架复现作业一。
输出信息:同作业一。
实验步骤
1.由于访问被京东网站的反爬取策略拒绝得很严重,因此第二题选择换一个网站,爬取Lenovo电脑游戏本网站的前136张图片
2.各python文件的编写
(1)settings
数据采集与融合技术-第三次作业_数据库_12

(2)items
数据采集与融合技术-第三次作业_多线程_13

(3)pipeline

  • 设置开启spider和关闭spider
    数据采集与融合技术-第三次作业_ide_14
  • 根据爬取的url下载图片
    数据采集与融合技术-第三次作业_数据_15

(4)myspider

  • 使用beautifulsoup爬取img下的src属性,得到图片的url
  • 无效url和:有的img节点没有src属性值;网站中有多张相同的图片,会造成url重复。
  • 不完整url分析:有的src属性值开头为//,有的为https
    数据采集与融合技术-第三次作业_ide_16

3.实验结果

  • 输出url信息
    数据采集与融合技术-第三次作业_ide_17
    *爬取的图片存入images中
    数据采集与融合技术-第三次作业_下载图片_18

实验心得
1.对于img标签的src属性,爬取时会遇到url不完整,url重复,或者为空等多种情况,应具体问题具体分析,仔细观察,逐一解决困难;
2.scrapy中数据采集和处理分开进行,会有数据采集太快,处理跟不上速度,处理到一半就结束的情况。
3.Scrapy的pipelines本质上是多线程处理。
实验三
要求:爬取豆瓣电影数据使用scrapy和xpath,并将内容存储到数据库,同时将图片存储在imgs路径下。
候选网站https://movie.douban.com/top250
输出信息数据采集与融合技术-第三次作业_ide_19
实验步骤
1.各python文件的编写
(1)settings
数据采集与融合技术-第三次作业_ide_20

(2)items
数据采集与融合技术-第三次作业_数据库_21

(3)pipeline

  • 设置开启spider,做准备工作:创建数据库和表
    数据采集与融合技术-第三次作业_ide_22

  • 关闭spider,关闭数据库
    数据采集与融合技术-第三次作业_ide_23

  • 根据爬取的url下载图片
    数据采集与融合技术-第三次作业_多线程_24

  • 向表中插入数据
    数据采集与融合技术-第三次作业_多线程_25

(4)example

  • 设置拼接url用来翻页:通过观察翻页url的变化,可知start参数项为每页开始的电影序号,因此每次start增加25用来翻页
    数据采集与融合技术-第三次作业_多线程_26
  • 分析网页源代码,提取需要的六个信息端
    数据采集与融合技术-第三次作业_数据库_27
  • 使用xpath获取信息,其中由于导演信息和演员信息、其他不需要的信息在一个text里面,因此先用director_actor保存
    数据采集与融合技术-第三次作业_ide_28
  • 在director_actor的奇数项中进一步提取导演和演员的信息,由于导演和演员的个数具有不确定性,为简单起见,分别只截取其中的一个;且有的信息被"..."省略,这时当作为空来处理
    数据采集与融合技术-第三次作业_下载图片_29

2.实验结果

  • 查看imgs文件
    数据采集与融合技术-第三次作业_ide_30

  • 查看数据库信息
    数据采集与融合技术-第三次作业_ide_31

实验心得
1.在编写pipeline文件的数据处理时,若把数据库的缓存和关闭都放在的close_spider()函数中,会出现只向数据库中写入第一页的电影信息(即25条)、但下载了所有图片到本地的情况,原因是example文件数据爬取速度太快,数据库还没写完数据直接关闭了。解决方法是把数据库缓存函数con.commit放在process_item()函数中,把数据库关闭函数con.close放在close_spider()函数中;
2.一直存在process_item()还没执行,close_spider()函数就已经执行的情况,但是暂时还没有解决方法;
3.实验中发现爬取的信息跟网页源码不一样,要冷静分析,可能是自己看错了网页源码的位置(比如本来要看第一页,看到第二页去了,不然不可能有那么玄幻的事情发生)。

Gitee链接:https://gitee.com/jmssj/pythonProject/tree/master/第三次大作业

推荐阅读