欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

Scrapy 框架爬虫学习笔记

最编程 2024-06-30 19:17:30
...

写在开始 :

为什么选择Scrapy?

Scrapy 是一套基于Twisted的异步处理框架,是纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容或者各种图片。相对入门简单,当然如果你足够了解正则,bs4 ,beautifulsoup 也是个不错的选择。

PS:需要一定的Python基础 简单的xpath 基础

创建项目(以音悦台榜单为例)

Url=http://vchart.yinyuetai.com/vchart/trends?area=ALL

启动 Anaconda Prompt

创建工程

进入工程目录

定义工作域爬虫名称

修改文件

itmes.py

定义要爬取的数据内容

Musiclist.py

爬虫主程序

分析HTML

标记为我们需要的信息

详细信息在ul 标签下的li 标签

依此找到标题歌手时间的 xpath 修改原始 musiclist.py 文件

Pipelines.py setting.py

运行爬虫

数据结果

已使用 Microsoft OneNote 2016 创建。