欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

数据分析案例 | 数据可视化 -- 绘制图表分析某年旅游景点的数据 | 05

最编程 2024-07-01 08:19:32
...
目录
  • 案例需求
  • 数据准备
  • 功能实现
    • 处理缺失值
    • 取出河北省的数据
    • 分析一: 各个景点的游客数量和总面积
    • 分析二: 分析个景点游客占比

案例需求

本案例主要以河北省的景点为例,再结合所学的工具,把采集到数据绘制成图表辅助分析.
希望得到如下几个指标:
(1) 河北省总面积和游客量位居前三的景点
(2) 河北省游客量的占比哪个最多? 哪个最少?

如果想直观地比较出一列数据中数据的前3景点,可以选这条形图展示.
如果要比较占比,那么非饼图莫属.

数据准备

从网上爬取到一些数据,并将相关信息整理到CSV文件中,用Excel工具打开后如下图:

观察上图可知,表格中有

省份
名称
总面积
游客量

4个特征值(属性),并已经将所有的景点按照地区进行了排列.
如果希望拿到了河北地区的景点数据,则只需要先按照"省份"一列进行分组,再拿出"河北"分组的数据即可.

功能实现

由于数据都保存在CSV文件中,所以可以用pd.read_csv()函数来读取风景名胜区.csv文件中数据.
并将这些数据转换成DataFrame对象展示,具体代码如下

处理缺失值

然后需要检查一下是否存在缺失值

这里使用平均值来替换缺失值,这也是处理缺失值常用的方法.

取出河北省的数据

接下来便可以选择一个具体的景点地区进行具体的分析,这里以河北省经典为例子.
scenery_data中"省份"一列作为分组键,然后取出"河北"分组的数据,具体代码如下:

分析一: 各个景点的游客数量和总面积

找出河北省占地面积和游客数量位居前三的景点.
这里使用了"总面积","游客量"两列数据.
为了能够直观的看到这里两列数据,使用直方图.
x轴: 景点的名称
y轴: 表示占地面积和游客数量

从生成的条形图可以看出,
接待游客数量处于前三名的景点分别是:秦皇岛北戴河,西柏坡-天戴山,娲皇宫
景点占地面积前三分别是:避暑山庄外八庙,野三坡,秦皇岛北戴河

分析二: 分析个景点游客占比

接下来,我们在分析一下河北省哪个景点游客量占比最对,哪个景点的游客量占比最少.

通过上图我们可以看出,排名前三的游客量的景点分别是:
秦皇岛北戴河,西柏坡-天桂山,娲皇宫

原文地址:https://www.cnblogs.com/Rowry/p/14202911.html