用 R 进行中介分析
本教程将解释什么是中介分析,并演示如何用 R 进行中介分析,以及对结果的解读。如果您已经知道什么是中介效应,且只想知道如何在 R 中进行分析,请跳至本文的第二部分。
什么是中介效应
中介效应(mediation)听起来复杂,但其实很简单。中介效应也称为间接效应(indirect effect)。顾名思义,当自变量对因变量的影响由另一个变量(中介者)介导时,就会发生这种情况。当然,根据自变量和因变量之间的直接路径是否通顺,中介效应又可细分为完全中介效应和部分中介效应。
分析中介效应时我们需要注意:
•中介者必须是内源性的:这意味着中介者不能是治疗或研究条件。中介者本身必须依赖于外部变量,这些变量通常是实验研究中的治疗或研究条件。•研究中介者可帮助我们更深入地了解自变量如何影响因变量:中介者揭示了相关过程的一些信息。
因此,中介效应可以帮助我们找出自变量如何影响因变量。通过进行中介分析,我们可以检验关于自变量如何影响因变量的过程的假设。
举个例子
下面我们将基于模拟数据展示什么是中介效应,通过模拟数据可以更清晰地使我们了解数据中的对应关系。示例数据将基于经典的 iris 数据集。
示例数据
首先加载数据,并同时设置种子,以便重复下文的结果。
df=iris
set.seed(12334)
iris 数据集包含 5 个变量和 150 个观察值。5 个变量包括:萼片的长度和宽度、花瓣的长度和宽度以及鸢尾花的种类。
在本文中,我们将假设萼片的长度会影响花朵被蜜蜂授粉的过程,并且这种效应不是简单的直接效应,而是会通过花朵本身对蜜蜂的吸引力来进行调节。示意图如下:
因为只有萼片长度是 iris 数据集中本来就包含的变量,所以我们将模拟其余两个变量。模拟数据不仅可以使我们直观地观察数据,也可以加深我们对统计结果的理解。
首先模拟变量“对蜜蜂的吸引力”。我们将这个变量命名为 mediator 由 35% 的 Sepal.Length
加上 65% 的随机噪声组成。可以想象,变量“对蜜蜂的吸引力”中的随机噪声可能是一些花朵特定的属性,比如颜色、形状、气味等。
df$random1=runif(nrow(df),min=min(df$Sepal.Length),max=max(df$Sepal.Length))
df$mediator=df$Sepal.Length*0.35+df$random1*0.65
下一步模拟因变量“被蜜蜂授粉的可能性”。这个变量将被命名为 dv 由 35% 的 Mediator 加上 65% 的随机噪声组成。在我们的示例中,随机噪声可能是与植物属性无关的一些变量,例如花的位置、天气条件、土壤等。
df$random2=runif(nrow(df),min=min(df$mediator),max=max(df$mediator))
df$dv=df$mediator*0.35+df$random2*0.65
根据以上的“定义”,我们不难得出“萼片长度”中大约 12% (准确地说是 35% × 35% = 12.25%)的信息应该包含在因变量“被蜜蜂授粉的可能性”中,这是我们预期的总效应量。中介者的间接效应将比直接效应“更强”,因为因变量包含中介者中 35% 的信息,这也正是中介分析所要揭示的。
用 R 分析中介效应
整体流程包括四步:
1.检验总效应量;2.检验自变量对中介者的影响。萼片长度对中介者的显著影响是中介效应的先决条件;3.检验中介变量和自变量对因变量的影响。4.估计中介分析的效应值。
第 1 步:总效应量
总效应量描述了自变量萼片长度对因变量被蜜蜂授粉的可能性的总效应。其实就是我们想了解这两个变量之间是否存在一定关系。关于这种关系是否必须显著,有两种学派:
•第一种认为,两者之间一定存在显著的关系。否则,即使存在显著的间接影响,我们也不能确切地说改变自变量(萼片长度)一定对因变量(被蜜蜂授粉的可能性)有影响。但这种学派正在慢慢地败给第二个学派;•第二种则认为自变量和因变量之间不一定必须得存在显著关系。正如相关性不能证明因果关系,没有相关性也不能证明没有因果关系(Bollen 1989,p. 52;Hayes 2018,p. 80)。
总之,这里并不需要有显著的总效应。
在我们的案例中,模拟数据的总效应本身就是显著的。首先基于自变量进行一个简单的线性回归,这里也可以加上一些协变量(在我们的例子中没有)。
fit.totaleffect=lm(dv~Sepal.Length,df)
summary(fit.totaleffect)
结果如下,萼片长度对我们的因变量的总效应是显著的 (p< 0.05),系数 (0.12984) 也非常接近预想的 12.25%。
第 2 步:自变量对中介者的影响
任何中介效应,自变量(“萼片长度”)都必须显著影响中介者。所以下一步,我们需要基于自变量和中介者进行线性回归,这里也可以加上协变量(在我们的例子中没有)。
fit.mediator=lm(mediator~Sepal.Length,df)
summary(fit.mediator)
结果如下,萼片长度对中介者的效应是显著的 (p<0.05),并且系数 (0.30429) 也接近预想的 35%。
第 3 步:中介者对因变量的影响
在第三步中我们将确认中介者在控制自变量的同时也影响因变量。因为既然要存在中介效应,中介者就必须比自变量解释更多的因变量方差。
所以,我们需要基于自变量和中介变量再做一个线性回归,这里也可以加上协变量(在我们的例子中没有)。
fit.dv=lm(dv~Sepal.Length+mediator,df)
summary(fit.dv)
结果如下:
此结果可以说明:
•中介者对因变量有显著影响 (p< 0.05)。结合第 2 步的结果,我们现在可以说存在中介效应。同样,系数 ( 0.37194) 非常接近预想的 35%;•之前,我们可以说萼片长度是因变量“授粉可能性”的重要预测指标,但现在这里就不能这么说了,萼片长度并不显著,这是因为在我们的模拟数据中,因变量中所包含的自变量信息都包括在中介者中。这种情况下,我们称之为“完全中介效应”,这表示自变量对因变量的总效应都来自中介效应。中介分析有助于我们更好地理解自变量影响因变量的过程。如果自变量仍然显著,那这就是“部分中介效应”。
至此,从统计上讲,我们已经有成立“存在中介效应”这个假设的条件了。下面我们将检验该中介效应是否显著。
第 4 步:因果中介分析
这里我们用到的是 Mediation 包。
# install.packages("mediation")
library(mediation)
Mediation 包将使用我们刚刚建立的回归模型估计中介效应。
results = mediate(fit.mediator, fit.dv, treat='Sepal.Length', mediator='mediator', boot=T)
这里我们所采用的检验方法是 bootstrap,这种方法是根据标准误的理论概念,将样本容量很大的样本当作总体,进行有放回抽样(抽样次数可以自己定),从而得到更为准确的标准误。
输出结果:
summary(results)
这里的首字母缩略词含义如下:
•ACME:average causal mediation effects (indirect effect),即间接效应。这里是自变量(萼片长度)通过中介体(对蜜蜂的吸引力)对因变量(授粉可能性)的间接影响。这里估计此效应为 0.11,恰好是 0.30(第 2 步中的自变量对中介者的影响)乘以 0.37(第 3 步中中介者对因变量的影响),其实这部分是我们已知的。新加入的内容是我们现在有间接效应的置信区间和显著性水平。•ADE:average direct effects,即直接效应,它描述了自变量对因变量的直接效应。•Total Effect:总效应,代表自变量对因变量的总效应(直接 + 间接)。我们在第一步中也已经计算过,这里也可以通过简单地将 ACME ( 0.1132) 和 ADE (0.0167) 相加来得到 0.1298 的结果。•Prop.Mediated:描述了自变量通过中介者对因变量的影响比例。它的计算方法是将 ACME (0.113) 除以总效应 (0.13) ,得到 0.87。
解读中介分析的结果
通过我们上面进行的中介分析可以得到以下结论:
Figure 1
The effect of sepal length on likelihood of pollination was fully mediated via the attractiveness of the bloom. As Figure 1 illustrates, the regression coefficient between sepal length and likelihood to be pollinated and the regression coefficient between attractiveness and likelihood of pollination was significant. The indirect effect was (.30)*(.37) = .11. We tested the significance of this indirect effect using bootstrapping procedures. Unstandardized indirect effects were computed for each of 1’000 bootstrapped samples, and the 95% confidence interval was computed by determining the indirect effects at the 2.5th and 97.5th percentiles. The bootstrapped unstandardized indirect effect was .11, and the 95% confidence interval ranged from .06 to .17. Thus, the indirect effect was statistically significant (p<.001).
该图的系数取自第 1 步到第 2 步中的不同模型。大部分文本信息取自 mediate
函数的结果(第 4 步)。
Ref
•https://towardsdatascience.com/doing-and-reporting-your-first-mediation-analysis-in-r-2fe423b92171
下一篇: td sequential python
推荐阅读
-
使用 R 语言进行简单的主成分分析 (PCA)
-
数据可视化(VII):用 Pandas 对香港酒店数据进行高级分析,包括相关系数、协方差、数据离散化、数据透视表和其他精美的可视化。
-
原来python还可以这么玩】用python反向抓取网易云评论进行情感分析
-
用 R 语言实现随机前沿分析 SFA、数据包络分析 DEA、*弃置水文学 FDH 和 BOOTSTRAP 方法
-
系统评估--用 R 语言实现数据包络分析的 DEA (VII)
-
纯干货分享 | 研发效能提升——敏捷需求篇-而敏捷需求是提升效能的方式中不可或缺的模块之一。 云智慧的敏捷教练——Iris Xu近期在公司做了一场分享,主题为「敏捷需求挖掘和组织方法,交付更高业务价值的产品」。Iris具有丰富的团队敏捷转型实施经验,完成了企业多个团队从传统模式到敏捷转型的落地和实施,积淀了很多的经验。 这次分享主要包含以下2个部分: 第一部分是用户影响地图 第二部分是事件驱动的业务分析Event driven business analysis(以下简称EDBA) 用户影响地图,是一种从业务目标到产品需求映射的需求挖掘和组织的方法。 在软件开发过程中可能会遇到一些问题,比如大家使用不同的业务语言、技术语言,造成角色间的沟通阻碍,还会导致一些问题,比如需求误解、需求传递错误等;这会直接导致产品的功能需求和要实现的业务目标不是映射关系。 但在交付期间,研发人员必须要将这些需求实现交付,他们实则并不清楚这些功能需求产生的原因是什么、要解决客户的哪些痛点。研发人员往往只是拿到了解决方案,需要把它实现,但没有和业务侧一起去思考解决方案是否正确,能否真正的帮助客户解决问题。而用户影响地图通常是能够连接业务目标和产品功能的一种手段。 我们在每次迭代里加入的假设,也就是功能需求。首先把它先实现,再逐步去验证我们每一个小目标是否已经实现,再看下一个目标要是什么。那影响地图就是在这个过程中帮我们不断地去梳理目标和功能之间的关系。 我们在软件开发中可能存在的一些问题 针对这些问题,我们如何避免?先简单介绍做敏捷转型的常规思路: 先做团队级的敏捷,首先把产品、开发、测试人员,还有一些更后端的人员比如交互运维的同学放在一起,组成一个特训团队做交付。这个团队要包含交付过程中所涉及的所有角色。 接着业务敏捷要打通整个业务环节和研发侧的一个交付。上图中可以看到在敏捷中需求是分层管理的,第一层是业务需求,在这个层级是以用户目标和业务目标作为输入进行规划,同时需要去考虑客户的诉求。业务人员通过获取到的业务需求,进一步的和团队一起将其分解为产品需求。所以业务需求其实是我们真正去发布和运营的单元,它可以被独立发布到我们的生产环境上。我们的产品需求其实就是产品的具体功能,它是我们集成和测试的对象,也就是我们最终去部署到系统上的一个基本单元。产品需求再到了我们的开发团队,映射到迭代计划会上要把它分解为相应的技术任务,包括我们平时所说的比如一些前端的开发、后端的开发、测试都是相应的技术任务。所以业务敏捷要达到的目标是需要去持续顺畅高质量的交付业务价值。 将这几个点串起来,形成金字塔结构。最上层我们会把业务目标放在整个金字塔的塔尖。这个业务目标是通过用户的目标以及北极星指标确立的。确认业务目标后再去梳理相应的业务流程,最后生产。另外产品需求包含了操作流程和业务规则,具需求交付时间、工程时间以及我们的一些质量标准的要求。 谈到用户影响的地图,在敏捷江湖上其实有一个传说,大家都有一个说法叫做敏捷需求的“任督二脉”。用户影响地图其实就是任脉,在黑客马拉松上用过的用户故事地图其实叫督脉。所以说用户影响地图是在用户故事地图之前,先帮我们去梳理出我们要做哪些东西。当我们真正识别出我们要实现的业务活动之后,用户故事地图才去梳理我们整个的业务工作流,以及每个工作流节点下所要包含的具体功能和用户故事。所以说用户影响地图需要解决的问题,我们包括以下这些: 首先是范围蔓延,我们在整张地图上,功能和对应的业务目标是要去有一个映射的。这就避免了一些在我们比如有很多干系人参与的会议上,那大家都有不同想法些立场,会提出很多需求(正确以及错误的需求)。这个时候我们会依据目标去看这些需求是否真的是会影响我们的目标。 这里提到的错误需求,比如是利益相关的人提出的、客户认为产品应该有的、某个产品经理需求分析师认为可以有的....但是这些功能在用户影响地图中匹配不到对应目标的话,就需要降低优先级或弃掉。另外,通常我们去制定解决方案的时候,会考虑较完美的实现,导致解决方案括很多的功能。这个时候关键目标至关重要,会帮助我们梳理筛选、确定优先级。 看一下用户影响到地图概貌 总共分为一个三层的结构: 第一层why,你的业务目标哪个是最重要的,为什么?涉及到的角色有哪些? 第二层how ,怎样产生影响?影响用户角色什么样的行为? (不需要去列出所有的影响,基于业务目标) 第三层what,最关键的是在梳理需求时不需一次把所有细节想全,这通常团队中经常遇到的问题。 我们用这个例子来看一下 这是一个客服中心的影响地图,业务目标是 3个月内不增加客服人数的前提下能支持1.5倍的用户数。此业务目标设定是符合 smart 原则的,specific非常的具体,miserable 是可以衡量的,action reoriented是面向活动的, real list 也是很实际的。 量化的目标会指引我们接下来的行动,梳理一个业务目标,尽量去量化,比如 :我们通过打造一条什么样的流水线,能够提高整个部署的效率,时间是原来的 1/2 。这样才是一个能量化的有意义的目标。 回到这幅图, how 层级识别出来的内容,客服角色:想要对它施加的影响,把客户引导到论坛上,帮助客户更容易的跟踪问题,更快速的去定位问题。初级用户:方论坛上找到问题。高级用户:在论坛上回答问题。通过我们这些用户角色,进行活动,完成在不增加客户客服人数的前提下支持更多的用户数量。 最后一个层级,才是我们日常接触比较多的真正的功能的特性和需求,比如引导到客户到论坛上,其实这个产品就需要有一个常见问题的论坛的链接。这个层次需要我们团队进一步地在交付,在每个迭代之前做进一步的梳理,细化成相应的用户故事。 这个是云智慧团队中,自己做的影响地图的范例,可以看下整个的层级结构。序号表示优先级。 那我们用户影响地图可以总结为:
-
[姿势估计] 实践记录:使用 Dlib 和 mediapipe 进行人脸姿势估计 - 本文重点介绍方法 2):方法 1:基于深度学习的方法:。 基于深度学习的方法:基于深度学习的方法利用深度学习模型,如卷积神经网络(CNN)或递归神经网络(RNN),直接从人脸图像中学习姿势估计。这些方法能够学习更复杂的特征表征,并在大规模数据集上取得优异的性能。方法二:基于二维校准信息估计三维姿态信息(计算机视觉 PnP 问题)。 特征点定位:人脸姿态估计的第一步是通过特征点定位来检测和定位人脸的关键点,如眼睛、鼻子和嘴巴。这些关键点提供了人脸的局部结构信息,可用于后续的姿势估计。 旋转表示:常见的旋转表示方法包括欧拉角和旋转矩阵。欧拉角通过三个旋转角度(通常是俯仰、偏航和滚动)描述头部的旋转姿态。旋转矩阵是一个 3x3 矩阵,表示头部从一个坐标系到另一个坐标系的变换。 三维模型重建:根据特征点的定位结果,三维人脸模型可用于姿势估计。通过将人脸的二维图像映射到三维模型上,可以估算出人脸的旋转和平移信息。这就需要建立人脸的三维模型,然后通过优化方法将模型与特征点对齐,从而获得姿势估计结果。 特征点定位 特征点定位是用于检测人脸关键部位的五官基础部分,还有其他更多的特征点表示方法,大家可以参考我上一篇文章中介绍的特征点检测方案实践:人脸校正二次定位操作来解决人脸校正的问题,客户在检测关键点的代码上略有修改,坐标转换部分客户见上图 def get_face_info(image). img_copy = image.copy image.flags.writeable = False image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB) results = face_detection.process(image) # 在图像上绘制人脸检测注释。 image.flags.writeable = True image = cv2.cvtColor(image, cv2.COLOR_RGB2BGR) box_info, facial = None, None if results.detections: for detection in results. for detection in results.detections: mp_drawing.Drawing.detection = 无 mp_drawing.draw_detection(image, detection) 面部 = detection.location_data.relative_keypoints 返回面部 在上述代码中,返回的数据是五官(6 个关键点的坐标),这是用 mediapipe 库实现的,下面我们可以尝试用另一个库:dlib 来实现。 使用 dlib 使用 Dlib 库在 Python 中实现人脸关键点检测的步骤如下: 确保已安装 Dlib 库,可使用以下命令: pip install dlib 导入必要的库: 加载 Dlib 的人脸检测器和关键点检测器模型: 读取图像并将其灰度化: 使用人脸检测器检测图像中的人脸: 对检测到的人脸进行遍历,并使用关键点检测器检测人脸关键点: 显示绘制了关键点的图像: 以下代码将参数 landmarks_part 添加到要返回的关键点坐标中。
-
通过对用户访问论坛习惯的调查结果进行分析,发现每个人都喜欢用这种方式浏览论坛
-
用 R 进行中介分析
-
用 R 语言实现多因素偏差相关分析