欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

这段 6 集、60 多分钟的网络爬虫基础视频免费向公众开放!| PQ 实用基础知识!

最编程 2024-07-05 16:35:13
...

- 1 -


       关于网爬,很多朋友都非常感兴趣,卖课程或卖工具的,往往会把它描述得很简单,看着是点个按钮就拿到了数据般神奇。


       但是,网爬到底是个啥,涉及到哪些知识点?很多朋友可能连门都没入,自然也很难体会要学好网爬真正要掌握的知识。


这6集、60+分钟网爬基础视频,免费公开了! | PQ实战基础!_数据抓取


       此前,我陆续写过一些关于网爬的文章,也录制6集关于网爬基础的视频,这些视频发布在我的付费系列视频“Excel、Power Query及Pivot”的“M语言及函数进阶”里:



      现一次性免费公开发布如下,让大家较详细地了解基础的网爬从哪里开始学、哪里开始练,然后,自己决定,以后要不要深入去学。


- 2 -

6集免费视频及内容


视频一、理解网页的基本结构以及数据抓取的基本方法


1、网页的基本结构(代码);

2、用PQ抓取网页中表(Table)及源代码的方法;

3、了解File.Contents、Web.Page及Lines.FromBinary函数;

4、解析源代码后的数据提取。




视频二、常见html标签及抓取国统局省级编码及名称


1、网页开发的核心知识简介(html/css/javascript);

2、html中常见的标签;

3、国统局区划代码网站解读及数据抓取方法。




视频三、国统局区划代码二、三级数据抓取及清洗


1、网址的拼接及内容抓取;

2、对存在问题的数据进行转换统一后再展开;

3、从数据中再提取下级编码继续抓取……




视频四、数据真实网址的识别及数据抓取


1、以国家标准信息网数据抓取为例,讲解:

     1.1 无法直接抓取数据的情况;

     1.2 通过Chome浏览器获取数据真实网址及参数的方法;

     1.3 json格式数据的读取;

     1.4 网页语言编码(如中文GB2312编码936)的识别。

2、以燃油附加费数据抓取为例讲解页签类数据的网址识别方法;

3、json的基本数据格式。




视频五、特殊结构数据的一些处理思路


1、被多重表格化的数据,通过逐层展开时的麻烦;

2、通过Power BI Desktop新功能“示例获取数据”进行数据抓取的基本方法及原理;

3、直接读取源码转换到行并进行筛选的数据清洗方法;

4、替换中间标签凑成整表的数据处理方法:

      4.1 将网页源码读成文本(Text.FromBinary);

      4.2 替换换行"#(lf)"、回车"#(cr)"符;

      4.3 替换中间table标签" "并最终抓取数据;

      4.4 替换中间标签凑成整表的基本原理。




视频六、json格式及规范化处理


1、标准的json格式及Power Query识别;

2、json格式数据中的“完整”部分及Power Query识别;

3、常见的非标准json格式及规范化处理。




- 3 -


      如果,你看完了以上6集视频,觉得网爬很简单并决定深入去学习,那么,也许,我应该鼓励你,相信你有决心一定能学好!


       如果,你看完了以上6集视频,觉得基础的网爬都这么复杂,不打算深入去学,那么,也许,我应该恭喜你,你可能远离了一个大坑!


       如果……无论你是否看完,那么 ,请先分享给你的朋友吧,也许他们也在困惑是否要深入学习网爬,也许这能为他们提供一些参考,也是对我的莫大认可和支持!


       最后,最近想到的一句话:世上本来没有不可以爬的网站,只是爬的人多了,于是便有了防爬……



这6集、60+分钟网爬基础视频,免费公开了! | PQ实战基础!_数据_02