数据分析案例 | 数据可视化 -- 绘制图表分析某年旅游景点的数据 | 05
- 案例需求
- 数据准备
-
功能实现
- 处理缺失值
- 取出河北省的数据
- 分析一: 各个景点的游客数量和总面积
- 分析二: 分析个景点游客占比
案例需求
本案例主要以河北省的景点为例,再结合所学的工具,把采集到数据绘制成图表辅助分析.
希望得到如下几个指标:
(1) 河北省总面积和游客量位居前三的景点
(2) 河北省游客量的占比哪个最多? 哪个最少?
如果想直观地比较出一列数据中数据的前3景点,可以选这条形图展示.
如果要比较占比,那么非饼图莫属.
数据准备
从网上爬取到一些数据,并将相关信息整理到CSV
文件中,用Excel工具打开后如下图:
观察上图可知,表格中有
省份
名称
总面积
游客量
4个特征值(属性),并已经将所有的景点按照地区进行了排列.
如果希望拿到了河北地区的景点数据,则只需要先按照"省份"一列进行分组,再拿出"河北"分组的数据即可.
功能实现
由于数据都保存在CSV
文件中,所以可以用pd.read_csv()
函数来读取风景名胜区.csv
文件中数据.
并将这些数据转换成DataFrame
对象展示,具体代码如下
处理缺失值
然后需要检查一下是否存在缺失值
这里使用平均值来替换缺失值,这也是处理缺失值常用的方法.
取出河北省的数据
接下来便可以选择一个具体的景点地区进行具体的分析,这里以河北省经典为例子.
将scenery_data
中"省份"一列作为分组键,然后取出"河北"分组的数据,具体代码如下:
分析一: 各个景点的游客数量和总面积
找出河北省占地面积和游客数量位居前三的景点.
这里使用了"总面积","游客量"两列数据.
为了能够直观的看到这里两列数据,使用直方图.
x轴: 景点的名称
y轴: 表示占地面积和游客数量
从生成的条形图可以看出,
接待游客数量处于前三名的景点分别是:秦皇岛北戴河,西柏坡-天戴山,娲皇宫
景点占地面积前三分别是:避暑山庄外八庙,野三坡,秦皇岛北戴河
分析二: 分析个景点游客占比
接下来,我们在分析一下河北省哪个景点游客量占比最对,哪个景点的游客量占比最少.
通过上图我们可以看出,排名前三的游客量的景点分别是:
秦皇岛北戴河,西柏坡-天桂山,娲皇宫
原文地址:https://www.cnblogs.com/Rowry/p/14202911.html