这段 6 集、60 多分钟的网络爬虫基础视频免费向公众开放!| PQ 实用基础知识!
- 1 -
关于网爬,很多朋友都非常感兴趣,卖课程或卖工具的,往往会把它描述得很简单,看着是点个按钮就拿到了数据般神奇。
但是,网爬到底是个啥,涉及到哪些知识点?很多朋友可能连门都没入,自然也很难体会要学好网爬真正要掌握的知识。
此前,我陆续写过一些关于网爬的文章,也录制6集关于网爬基础的视频,这些视频发布在我的付费系列视频“Excel、Power Query及Pivot”的“M语言及函数进阶”里:
现一次性免费公开发布如下,让大家较详细地了解基础的网爬从哪里开始学、哪里开始练,然后,自己决定,以后要不要深入去学。
- 2 -
6集免费视频及内容
视频一、理解网页的基本结构以及数据抓取的基本方法
1、网页的基本结构(代码);
2、用PQ抓取网页中表(Table)及源代码的方法;
3、了解File.Contents、Web.Page及Lines.FromBinary函数;
4、解析源代码后的数据提取。
视频二、常见html标签及抓取国统局省级编码及名称
1、网页开发的核心知识简介(html/css/javascript);
2、html中常见的标签;
3、国统局区划代码网站解读及数据抓取方法。
视频三、国统局区划代码二、三级数据抓取及清洗
1、网址的拼接及内容抓取;
2、对存在问题的数据进行转换统一后再展开;
3、从数据中再提取下级编码继续抓取……
视频四、数据真实网址的识别及数据抓取
1、以国家标准信息网数据抓取为例,讲解:
1.1 无法直接抓取数据的情况;
1.2 通过Chome浏览器获取数据真实网址及参数的方法;
1.3 json格式数据的读取;
1.4 网页语言编码(如中文GB2312编码936)的识别。
2、以燃油附加费数据抓取为例讲解页签类数据的网址识别方法;
3、json的基本数据格式。
视频五、特殊结构数据的一些处理思路
1、被多重表格化的数据,通过逐层展开时的麻烦;
2、通过Power BI Desktop新功能“示例获取数据”进行数据抓取的基本方法及原理;
3、直接读取源码转换到行并进行筛选的数据清洗方法;
4、替换中间标签凑成整表的数据处理方法:
4.1 将网页源码读成文本(Text.FromBinary);
4.2 替换换行"#(lf)"、回车"#(cr)"符;
4.3 替换中间table标签" "并最终抓取数据;
4.4 替换中间标签凑成整表的基本原理。
视频六、json格式及规范化处理
1、标准的json格式及Power Query识别;
2、json格式数据中的“完整”部分及Power Query识别;
3、常见的非标准json格式及规范化处理。
- 3 -
如果,你看完了以上6集视频,觉得网爬很简单并决定深入去学习,那么,也许,我应该鼓励你,相信你有决心一定能学好!
如果,你看完了以上6集视频,觉得基础的网爬都这么复杂,不打算深入去学,那么,也许,我应该恭喜你,你可能远离了一个大坑!
如果……无论你是否看完,那么 ,请先分享给你的朋友吧,也许他们也在困惑是否要深入学习网爬,也许这能为他们提供一些参考,也是对我的莫大认可和支持!
最后,最近想到的一句话:世上本来没有不可以爬的网站,只是爬的人多了,于是便有了防爬……
上一篇: SWRV币值得长期持有吗?
下一篇: 使用Go语言编写一个简单的SSH爆破工具
推荐阅读
-
计算机 毕业设计 Python 深度学习 房价预测 房源可视化 房源爬虫 二手房可视化 二手房爬虫 递归决策树模型 机器学习 深度学习 大数据 毕业设计
-
JS、数组]平面数组的基本用法
-
在前向传播和定向传播阶段,Dropout 为什么能防止过度拟合,Dropout 和 BN 有什么区别?
-
TensorFlow 的基本概念和使用场景
-
桥接模式的解释和代码实现
-
每天 5 分钟玩转 C#/.NET C# 语言详情
-
[C 语言教程] [嵌入式程序设计] (I) 简介和先决条件 (II) 嵌入式程序设计基础 (III) 硬件基础 (IV) 硬件寄存器操作
-
C++ 中的抽象类和抽象方法
-
Spring Boot:中小型医院网站开发的新趋势
-
python 机器人编程 - 使用 python API 调用控制 wifi 小车的示例程序