数据概览--Pandas-profiling

最编程 2024-05-05 11:25:27

...

分析一个问题，从对样本进行探索开始。

Python中有很多常用的数据分析函数，可以帮助我们对样本有一个初步的认识，比如describe()函数，可以很方便地生成每个变量的最大值、最小值、分位数等。

今天给大家介绍一个特别牛逼的函数，一行代码就能实现原始数据集的概览分析，进而可以保存成html报告。

接下来揭开这个神奇函数的面纱吧

。

如果想看效果，可跳过第一部分的安装库教程。

本文目录

安装pandas_profiling库 1.1 pip install 安装 1.2 whl文件安装 1.3 方法三
使用pandas_profiling 2.1 加载数据 2.2 一行代码生成报告 2.3 一行代码保存报告

一、安装pandas_profiling库

1 方法一：pip install 安装

有些小伙伴直接在cmd中运行 pip install pandas_profiling 就可以成功安装这个库。

那真的该恭喜你了。

我的运行会报如下错误：

所以我准备直接下载whl文件进行安装。

2 方法二：whl文件安装

首先到如下网站下载whl文件：https://pypi.org/project/pandas-profiling/#files，可能会出现没有反应的情况，多进几次就好了。

进去后点击Dowload Files，下载右边红框中的whl文件到本地。

在whl文件所在文件夹打开cmd，运行pip install XXX.whl，有些小伙伴可以成功安装该库。

我的一直安装不了，会报如下错误

。

找了很久的资料，结合报错的提示，终于运行完如下语句后成功安装了pandas_profiling库

。

pip install --user  pandas_profiling-2.9.0-py2.py3-none-any.whl -i https://pypi.tuna.tsinghua.edu.cn/simple some-package

可是在jupyter中使用Pandas_Profiling.ProfilingReport时会报如下错误：concat() got an unexpected keyword argument ‘join_axes’，经查是pandas和Pandas_Profiling版本过低导致。

在cmd中运行 pip install --upgrade pandas和pip install --upgrade pandas_Profiling 即可。

3 方法三

如果还有小伙伴安装不好，可以试下如下方法：

pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip

二、使用pandas_profiling

1 加载数据

首先加载包和数据。

import pandas as pd
import pandas_profiling
df = pd.read_csv('testtdmodel.csv',sep=',',encoding='gb18030')
data = df[['3个月内申请人在多个平台申请借款', '7天内借款人手机申请借款平台数', '1个月内借款人手机申请借款平台数']]
data = data.astype(float)

2 一行代码生成报告

运行如下语句可以生成数据分析基本报告。

pandas_profiling.ProfileReport(data)

报告包含以下几部分：

1. Overview(数据基本情况)：包括数据集中变量个数(3)、样本行数(7252)、缺失行数(0)、缺失率(0%)、重复行数(6674)、重复率(92%)、内存占用情况等。

Overview中还包含了Warnings模块，可以点击查看数据集的重复情况和变量的0值个数。

2. Variables(单变量情况)：包括单变量值个数(54)、均值(3.88499)、最小值(0)、最大值(82)、缺失值(0)、缺失率(0%)等。

点击橙色框中的Toggle details可以得到更详细的单变量分析情况。

包括一些统计指标、单变量直方图、次数出现top的值对应占比情况、最小的几个值和最大的几个值的频率。

3. Interactions(交互性分析)：每两个变量进行图展示。

4. Correlations(相关性分析)：展示两两变量之间的相关性，值介于-1到1之间，小框中的颜色对应右边的相关性数值。

5. Missing values(缺失值情况)：展示每个变量的缺失值情况，这里三个变量都是7252个，不存在缺失值。

6. Sample(样本示例)：展示样本的前十行(相当于head(10))和后十行。

7. Duplicate rows(重复行展示)：展示重复行统计前十的行。

一行代码就可以很方便地生成大部分我们需要的统计指标，是不是特别实用呀？

如果我们想把这个报告保存下来，应该怎么办呢？

3 一行代码保存报告

运行如下语句可以保存成html报告。

data.profile_report(title='Data').to_file('Data.html')

可以把html版的报告下载下来，发给需要使用的人，非常方便。

至此，pandas_profiling函数介绍完了，需要使用的朋友可以早日安装应用。

不过建议大家生成报告的字段名称改成英文的，避免生成的报告出现乱码。

参考文献：

https://www.jianshu.com/p/a1f39f57dd91
https://www.cnblogs.com/hankleo/p/11728325.html

往期回顾：

3D星空图

3D星空图V2版

520表白代码合集

用python绘制皮卡丘

娱乐圈排行榜动态条形图绘制

上一篇： OneDiff 加速 "图生生"，开启电子商务人工智能图像处理新范式

下一篇： [开源世界] 如何让 C++ 模板类支持同名多参数？

数据概览--Pandas-profiling

数据概览--Pandas-profiling

用 Python 爬虫抓取东方财富网股票数据并实现 MySQL 数据库存储（重印）

Mysql 报错红宝书集（一）（ipynb 配置、PYMYSQL 登录、带 @ 的密码、to_sql 如何加速、触发器 SIGNAL 阻止插入数据）

Python：使用 Faker 随机生成测试数据

MyBatis 的多面性：从数据库交互到代码自动化

Java 自定义注解指定字段的数据库重复校验和

springboot 数据库自动重新连接 - 掘金

C# 读/写 16 位 tif 图像灰度数据

十六进制数据分割

MFC 串行通信中发送十六进制数据的方法