实操指南:把线性回归统计模型应用到真实案例中的数据分析实例
做了一段时间分析后,你是否会感觉分析结果还停留在数据表面现象,如果你和我有同感,请耐心读完本篇文章,会受益匪浅。接下来一段时间,本人也会深入研究统计学方面的知识。因为学了统计学,你会发现很多时候的分析并不靠谱。比如很多人都喜欢用平均数去分析一个事物的结果,但是这往往是粗糙的,不准确的。如果学了统计学,那么我们就能以更多更科学的角度看待数据。更深层次的挖掘出数据背后的价值!统计学是数据分析的基石。
本文通过使用Python+Pandas+Statsmodels建立简单一元线性回归模型、多元线性回归模型来预测世界幸福指数。
主要内容源自博客:https://www.sohu.com/a/419787355_568359
我在原文基础上增加了大量知识点的说明及解释,以达到学习线性回归的效果。最后的预测结果因为数据集的局限,结果仅供参考,主要目的还是通过一个实际的案例,了解使用线性回归建模的过程,测试、分析。
一、项目背景
《世界幸福指数报告》是对全球幸福状况的一次具有里程碑意义的调查。
民意测验机构盖洛普从2012年起,每年都会在联合国计划下发布《世界幸福指数报告》,报告会综合两年内150多个国家的国民对其所处社会、城市和自然环境等因素进行评价后,再根据他们所感知的幸福程度对国家进行排名。
《世界幸福指数报告》的编撰主要依赖于对150多个国家的1000多人提出一个简单的主观性问题:“如果有一个从0分到10分的阶梯,顶层的10分代表你可能得到的最佳生活,底层的0分代表你可能得到的最差生活。你觉得你现在在哪一层?”
那么哪个国家在总体幸福指数上排名最高?哪些因素对幸福指数的影响最大?今天我们就用Python+Pandas+Statsmodels来聊一聊。
二、数据集说明
- rank:幸福指数排名
- region:国家
- happiness:幸福指数得分
- gdp_per_capita:GDP(人均国内生产总值)
- healthy_life_expectancy:健康预期寿命
- freedom_to_life_choise:*权
- generosity:慷慨程度
- year:年份
- corruption_perceptions:清廉指数
- social_support:社会支持(客观上物质上的援助和直接服务;主观上指个体感到在社会中被尊重、被支持和被理解的情绪体验和满意程度。)
二、什么是线性回归?
线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
三、变量选择
【因变量】 我们选择happiness(幸福指数)作为因变量,该变量度量了各个国家的幸福指数。
【自变量】我们选择了影响幸福的六个因素,比如GDP、健康预期寿命、*权、慷慨程度、清廉指数、社会支持。
四、 数据导入和数据整理
import pandas as pd
import numpy as np
# 可视化
import matplotlib.pyplot as plt
import seaborn as sns
import plotly as py
import plotly.graph_objs as go
import plotly.express as px
from plotly.offline import init_notebook_mode, iplot, plot
init_notebook_mode(connected=True)
plt.style.use('seaborn')
# 读入数据
df_2015 = pd.read_csv('./deal_data/2015.csv')
df_2016 = pd.read_csv('./deal_data/2016.csv')
df_2017 = pd.read_csv('./deal_data/2017.csv')
df_2018 = pd.read_csv('./deal_data/2018.csv')
df_2019 = pd.read_csv('./deal_data/2019.csv')
# 新增列-年份
df_2015["year"] = str(2015)
df_2016["year"] = str(2016)
df_2017["year"] = str(2017)
df_2018["year"] = str(2018)
df_2019["year"] = str(2019)
# 合并数据
df_all = df_2015.append([df_2016, df_2017, df_2018, df_2019], sort=False)
df_all.drop('Unnamed: 0', axis=1, inplace=True)
df_all.head()
print(df_2015.shape, df_2016.shape, df_2017.shape, df_2018.shape, df_2019.shape)
五、数据可视化
1、2019世界幸福地图
data = dict(type = 'choropleth',
locations = df_2019['region'],
locationmode = 'country names',
colorscale = 'RdYlGn',
z = df_2019['happiness'],
text = df_2019['region'],
colorbar = {'title':'Happiness'})
layout = dict(title = 'Geographical Visualization of Happiness Score in 2019',
geo = dict(showframe = True, projection = {'type': 'azimuthal equal area'}))
choromap3 = go.Figure(data = [data], layout=layout)
plot(choromap3, filename='./html/世界幸福地图.html')
结论:整体来看,北欧的国家幸福指数较高,如冰岛、丹麦、挪威、芬兰;东非和西非的国家幸福指数较低,如多哥、布隆迪、卢旺达和坦桑尼亚。
2、2019世界幸福国家排行Top10
# 合并数据
rank_top10 = df_2019.head(10)[['rank', 'region', 'happiness']]
last_top10 = df_2019.tail(10)[['rank', 'region', 'happiness']]
rank_concat = pd.concat([rank_top10, last_top10])
# 条形图
fig = px.bar(rank_concat,
x="region",
y="happiness",
color="region",
title="World's happiest and least happy countries in 2019")
plot(fig, filename='./html/2019世界幸福国家排行Top10和Last10.html')
3、幸福指数相关性
# 热力图
plt.figure(figsize=(25, 20))
sns.heatmap(df_all.corr(), cmap='rainbow', linewidths=0.1, annot=True)
plt.title('Correlation between numeric variables', fontsize=18)
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.show()
结论:从影响因素相关性热力图可以看出,在影响幸福得分的因素中,GDP、社会支持、健康预期寿命呈现高度相关,*权呈现中度相关,国家的廉政水平呈现低度相关,慷慨程度则呈现极低的相关性;
GDP与健康预期寿命、社会支持之间存在高度相关。说明GDP高的国家,医疗水平和社会福利较为完善,人民的预期寿命也会越高;
健康预期寿命与社会支持之间存在中度相关性。
4、以下分别观察各个因素的影响程度
①GDP和幸福得分
# 散点图
fig = px.scatter(df_all, x='gdp_per_capita',
y='happiness',
facet_row='year',
color='year',
trendline='ols'
)
fig.update_layout(height=800, title_text='GDP per capita and Happiness Score')
plot(fig, filename='./html/GDP和幸福得分.html')
结论:人均GDP与幸福得分呈高度线性正相关关系,GDP越高的国家,幸福水平相对越高
②健康预期寿命和幸福得分
# 散点图
fig = px.scatter(df_all, x='healthy_life_expectancy',
y='happiness',
facet_row='year',
color='year',
trendline='ols'
)
fig.update_layout(height=800, title_text='Healthy Life Expecancy and Happiness Score')
plot(fig, filename='./html/健康预期寿命和幸福得分.html')
结论:健康预期寿命与幸福得分呈高度线性正相关关系,健康预期寿命越高的国家,幸福水平相对越高。
③动态图展示(GDP&happiness)
fig = px.scatter(df_all,
x='healthy_life_expectancy',
y='happiness',
animation_frame='year',
animation_group='region',
size='rank',
color='region',
hover_name='region',
trendline='ols'
)
fig.update_layout(title_text='Happiness Rank vs healthy_life_expectancy')
plot(fig, filename='./html/健康预期寿命和幸福水平动态图展示.html')
④动态图展示(healthy_life_expectancy&happiness)
fig = px.scatter(df_all,
x='healthy_life_expectancy',
y='happiness',
animation_frame='year',
animation_group='region',
size='rank',
color='region',
hover_name='region',
trendline='ols'
)
fig.update_layout(title_text='Happiness Rank vs healthy_life_expectancy')
plot(fig, filename='./html/健康预期寿命和幸福水平动态图展示.html')
五、数据建模
我们使用线性回归进行建立一个基准模型,首先筛选一下建模变量,并删除空值记录。
from statsmodels.formula.api import ols
sel_cols = ['happiness', 'gdp_per_capita', 'healthy_life_expectancy',
'freedom_to_life_choise', 'corruption_perceptions', 'generosity']
# 重置索引
df_model.index = range(df_model.shape[0])
df_model = df_all[sel_cols]
# 删除空值
df_model = df_model.dropna()
df_model.head()
1、ols最小二乘法
本文使用最小二乘法来建模,它是很基础、很强大的方法,应用非常广泛。
最小二乘法通过使得因变量观测值与因变量估计值之间的残差平方和达到最小的方法,得到估计的回归方程。最小二乘准则就是选择能与样本数据有最佳拟合方程的准则。
最小二乘法建立在假定之上,如果假设成立,建立的模型可以用来较准确地预测数据。反之,假设不成立,模型论断将失去其有效性。
最小二乘法假定:
1)线性关系:假定因变量与自变量之间存在线性关系。如果不存在线性关系,线性回归不是解释数据的正确模型。
2)无多重共线性:因变量之间不存在相关性。如果某些因变量之间存在密切联系,可以尝试删去其中一个或多个相关的因变量。因为多余的因变量提供了冗余信息,剔除多余变量并不会大大降低修正判定系数。
3)零条件均值假定:观测值和线性拟合估计值之间的平均残差为0。有时候观测值和估计值相比,偏大;有时候偏小,但之间的残差不会无控制地偏向于一群值。
4)同方差:对于自变量的不同取值,因变量的误差项都是独立的,方差是相同的。
5)无自相关性/序列相关:自相关是指一个变量同自身其他观测值有相互关系。比如,如果今天的股票价格影响着明天的股票价格,那么股票价格就是序列相关的。
2、简单线性回归
回归模型
简单线性回归使用一个自变量来预测一个因变量,二者之间的关系可以用一条直线近似表示。
简单线性回归模型:建模
我们将使用statsmodels中ols功能,构建happiness同gdp_per_capita之间的模型。
Statsmodels是一个很强大的Python库,用于拟合多种统计模型,执行统计测试以及数据探索和可视化。
对于线性回归linear regression,我们可以使用Statsmodels库中最小二乘法OLS(Ordinary-Least-Square)的功能来实现,可以得到丰富的数据信息。
# 建立简单线性回归模型
lm_m = ols(formula='happiness ~ gdp_per_capita',
data=df_model).fit()
lm_m.summary()
1) 修正判定系统Adj.R-squared:63.3%。幸福指数变异性的63.3%能被其与gdp_per_capita之间的线性关系解释。
2)回归系数:2.19。代表GDP每增加一个单位,幸福指数将增加2.19个单位。和我们常识理解的想法一致,GDP增加,幸福指数会增加。
3)回归系数的标准误差stand error:0.061,即β的估计的标准差。通过每年的GDP数据,可以计算得到回归系统的标准误差。回归系数标准误差,是量度结果精密度的指标。这里计算得出的标准误差为0.061,数值很小,说明精确度还是不错的。
( 补充:标准差是表示个体间变异大小的指标,反映了整个样本对样本平均数的离散程度,是数据精密度的衡量指标;而标准误反映样本平均数对总体平均数的变异程度,从而反映抽样误差的大小 ,是量度结果精密度的指标。)
4)p-值为0%。根据简单线性回归显著性的t检验,原假设happiness 同gdp_per_capita之间不存在线性关系,β为0。而现在p值为0%,小于显著性水平0.05。所以拒绝原假设,β显著不等于0。我们足以断定,happiness 同gdp_per_capita之间存在一个显著的关系。
5)β的63%的置信区间:2.076 ~ 2.315。我们有63%的信心,回归系数β将落在置信区间 [2.076,2.315]中。换个角度来讲,简单线性回归显著性的t检验,假设β为0,而β=0并没有包含在上述置信区间内,所以我们可以拒绝原假设,断定happiness 同gdp_per_capita之间存在一个显著的关系。
3、多元线性回归
回归模型
我们知道仅仅考虑GDP是不能完全解释幸福指数的。为了更加准确地分析影响幸福指数因素,应该引入一些不同的自变量来分析,看看哪些自变量的组合更优地满足OLS最小二乘假定。这里利用六个自变量来测试一下。
from statsmodels.formula.api import ols
# 建立多元线性回归模型
lm_m = ols(formula='happiness ~ gdp_per_capita + healthy_life_expectancy + freedom_to_life_choise + corruption_perceptions + generosity',
data=df_model).fit()
lm_m.summary()
1) 修正判定系统Adj.R-squared从之前的63.3%%上升到74.3%。房屋价格指数变异性的74.3%能被其与多个自变量之间的线性关系解释。
2)回归系数: 控制其他变量不变的情况下,GDP指数每增加一个单位,幸福指数增加1.32个单位,健康预期寿命指数每增加一个单位,幸福指数增加1.21个单位。
3)变量重要性排序为:gdp_per_capita、freedom_to_life_choise、healthy_life_expectancy、corruption_perceptions、generosity
5)新引入的自变量的p值都小于显著性水平0.05,说明这些自变量同幸福指数是有显著关系的。考虑到判定系数的增加,更加说明多元线性回归模型在这里是优于简单一元线性回归的。
六、比较预测值和真实值的分布
y_pred = lm_m.predict(df_model[:])
df_pred = pd.concat([df_model['happiness'], y_pred], axis=1)
df_pred.columns = ['y_true', 'y_pred']
# 散点图
fig = px.scatter(df_pred, x='y_true', y='y_pred', trendline='ols')
fig.update_layout(title='Resid of OLS Regression')
plot(fig, filename='./html/预测值和真实值分布图.html')
七、模型残差分布图
残差: y预测值与y之间的差值
fig = px.histogram(x=lm_m.resid)
fig.update_layout(title='Resid of OLS Regression')
plot(fig, filename='./html/多元线性回归残差分布图.html')
希望本文的内容对大家的学习或者工作能带来一定的帮助,每天进步一点点,加油~