介绍国家能力评估软件研究的结果
一、NCA概念介绍
NCA的检验主要通过R软件进行,可以参考网站:www.erim.eur.nl/necessary-condition-analysis/,主要功能是绘制天花板线(ceiling lines),计算所有NCA参数(例如天花板区域ceiling zone、范围scope和效应大小effect size),并生成瓶颈表(the bottleneck tables)和p值。
必要条件分析(NCA)能够作程度上的陈述(“特定水平的条件对于特定水平的结果是必要的还是不必要的”),它可以使用fsQCA补充类别上的必要性分析,譬如以下研究:
来源:区域创新生态系统如何驱动高技术产业创新绩效——基于30个省份案例的NCA与fsQCA分析
(一)必要条件分析(Necessary Condition Analysis,NCA)
必要条件分析关注的是能够产出或促成特定结果的因素,且这些因素对于组织决策至关重要,往往是组织中产生某种特定结果的必要条件。必要(非充分)条件的基本逻辑是,如果必要条件存在,预期结果不一定出现,但是如果必要条件不存在,则预期结果必定不会出现。基于此,荷兰鹿特丹管理学院杜尔教授(Jan Dul)于2016年提出了一种基于识别和检测数据中必要非充分条件的研究方法,即必要条件分析(NCA,Necessary Condition Analysis)。
(二)必要条件分析分类
在必要条件分析中,由于变量的性质不同,必要条件可以分为二分必要条件分析(Dichotomous Necessary Condition——条件变量取值只有两个离散维度值,例如0-1哑变量、高-低、大-小等)、离散必要条件(Discrete Necessary Condition—条件变量取值有两个以上的离散维度值,例如0/1/2、高/中/低等。)与连续必要条件(Continuous Necessary Condition—条件变量取值可以是最小值和最大值之间的无限数量的任意值)三类。
(三)NCA针对的问题点
1.传统研究方法在推断必要条件的逻辑关系中存在不足
在以往回归分析中主要发现的多是决定组织结果的充分条件,而缺少依靠必要条件分析去发现决定组织结果的必要条件。两法根本区别是:在传统方法中显示为零影响(或微影响)的因素可能被识别为必要条件,而在传统方法中显示为较大影响的因素却可能被识别为非必要条件。事实上,充分条件和必要条件对于正确理解组织现象均至关重要,且必要条件因其“一票否决”的作用优先于充分条件。
2.作为现有分析方法的补充
必要条件分析作为一种新的数据分析工具,在有助于发掘新见解的基础上,可以作为现有分析方法的补充,与传统的数据分析方法一同用于因果关系分析,以更加全面地检验和推断各种组织因素(如个性、资源、努力等)对各项组织结果(如个人工作态度、公司业绩等)的影响机制。
(四)适用范围及问题
在适用范围方面,必要条件分析可应用于组织研究中任何分支的必要条件研究,例如战略、组织行为、人力资源管理和运营管理等。同时,在其他社会科学领域(如政治科学),甚至医学和技术科学领域,必要条件分析都可以被用于基于必要性的逻辑分析。使用必要条件分析方法对于提升组织现象研究的全面性和准确性以及研究结果的实践意义都具有较为明显的助益。
在适用问题方面,首先,对于研究特定程度(如高、中、低)的结果需要何种程度的前因要素问题时,必要条件分析具有较好的适用性。现有的回归分析或者定性比较分析(QCA)等方法只能“定性的”(in kind)对前因要素与结果变量之间的因果或者必要关系进行初步识别,而必要条件分析却能够进一步“定量的”(in degree)对给定某一水平的结果变量判断其所需要的必要条件程度。其次,在存在多个前因要素组合的条件下,必要条件分析能够对组合中每个条件的必要程度予以判断,而以往进行组合分析的定性比较分析(QCA)方法却只能识别组合整体的必要性。因此,在需要判断多个前因要素对某一结果变量差异的必要程度问题时,必要条件分析更具有优势。
(五)NCA的局限性
(1)NCA与其他数据分析技术共享的一个基本限制是,NCA不能解决“观测数据不能确保因果关系”的问题。
(2)NCA可能比传统的数据分析方法更容易受到采样和测量误差的影响。
(3)NCA是一个数据分析工具,如果研究者只对特定的数据集感兴趣,而不需要将其推广到更广泛的人群中,这是完全可以受的。但是,如果出于统计推断的原因,数据集是来自总体的概率样本,则NCA数量仅为点估计。目前,NCA没有考虑抽样误差。
(六)NCA应用
NCA软件工具可用于识别数据集中的必要条件。该工具的应用有助于绘制上限包络线、计算NCA参数和创建瓶颈表。NCA软件的主要功能包括:
(1)绘制NCA图,即带有上限线的散点图,用户最多可以选择8种不同的上限技术,CE-FDH与CR-FDH是默认的上限包络线。
(2)计算NCA参数,即每个选定上限技术的上限区域、范围、精度、效应值、条件无效率和结果无效率。
(3)计算瓶颈表中变量的值,以分析哪个X是给定Y的瓶颈。输出包括带有上限线的散点图、带有NCA参数的表(以及其他相关信息)和瓶颈表。为了更好地运行NCA软件包,用户可以根据具体情况修改部分参数。
二、NCA研究中参数介绍
为了确定必要(但不充分)条件,发展了必要条件分析的一般方法。该方法包括两个主要部分:(1)确定上限包络线和相应的瓶颈表;(2)计算上限包络线的精度、必要条件的效应值和必要无效性等几个参数。
NCA的两个关键参数是上限精度(the ceiling accuracy)和必要性效应 d (necessity effect size)。上限精度表示上限线上或以下的观测数量除以观测总数,再乘以100。虽然CE-FDH天花板线的精度为100%,但其他线(例如CR-FDH)的精度可能低于100%。关于可接受的准确度,没有具体的规定。
必要性效应大小 d 及其统计显著性表明某个变量是否是必要条件。d 的计算方法是将“空的范围”除以可以包含观察结果的整个区域。因此,d 的范围在0到1之间。0< d <0.1可以被描述为一个小效应,0.1≤ d <0.3为中等效应,0.3 ≤ d < 0.5为大效应,d ≥ 0.5为一个非常大的效应。
(一)散点图(Scatter Plot)。
必要条件分析的起点是使用直角坐标系绘制数据的散点图,该散点图针对每种情况绘制X(潜在必要条件)和Y(结果)。如果目视检查表明左上角存在空白区域(按照X轴为“水平”且Y轴为“垂直”且数值增加“向上”和“向右”)的惯例),则可能存在X代表Y的必要条件。
(二)上限技术(Ceiling Techniques)。
上限技术是在散点图中没有观测值的空白区域与具有观测值的完整区域之间绘制上限包络线(Ceiling Line)的方法。上限包络线必须尽可能准确地将空白区域从完整区域中分离出来。上限包络线的绘制是一个权衡的过程,因为空白区域并不是一定完全没有观测值,而在上限技术中的这一区域被称作为上限区域(Ceiling Zone,C)。最佳的上限包络线可能是一条平滑线或者分段函数线。一般而言,上限包络线的方程式可以表述为Yc=f(Xc)。在必要条件分析中,有两类相互替代的上限技术,即包络上限(Ceiling Envelopment,CE)与回归上限(Ceiling Regression,CR),其中包络上限技术是分段线,而回归上限技术是连续线(Goertz et al., 2013)。每一种技术又包括两种不同的表示方式:按比例标注式(VRS)与*处置式(FDH),*处置式是一种更为灵活的上限技术。由于具有灵活性并能够直观简单地适用于各种性质的变量,CE-FDH优于CE-VRS,CR-FDH优于CR-VRS。因此,在必要条件分析中CE-FDH与CR-FDH是默认的上限包络线。此外,不同的上限包络线具有不同的精确度(Accuracy)。上限包络线的精确度是指上限包络线上或下方的观测数除以观测总数乘以100%。根据这一定义,CE-VRS与CE-FDH的精度为100%,其他CR-VRS与CR-FDH技术的精度可以低于100%。
(三)效应值(Effect Size)。
必要条件的效应值可以根据上限区域对结果的约束大小来表示。如果上限区域较大,其对结果的约束更强。因此,必要条件的效应值的大小可以由上限区域的大小表示与可以观察整个区域的大小相比。其中,这个具有观察值的潜在区域称为范围(Scope,S)。效应值大小可以表示为:d=C/S,因此与范围相比,上限区域面积越大,上限包络线越低,必要条件的影响越强。在必要条件分析中,效应值的取值范围为0-1,0<d<0.1表示“低等效果”,0.1≤d<0.3表示“中等效果”,0.3≤d<0.5表示“高等效果”(Dul,2016)。
(四)必要无效性(Necessity Inefficiency)
效应值表示的是在多大程度上必要条件X能够对结果Y起到约束作用。但是,并不是对所有X的值而言X都能够对Y起到约束作用;对所有的Y值而言,也并不是所有的Y都能够被X所约束。当可行空间为三角形时,如图1左所示,X始终约束Y,Y始终受X约束。但当可行空间为五边形时,如图1右所示,对于X>Xcmax,X不约束Y,对于Y<Ycmin,Y不受X约束。因而便产生了条件无效(Condition Inefficiency)与结果无效(Outcome Inefficiency)。条件无效率是指,非结果必要条件的条件取值范围所占的百分比,即条件不限制结果的情况;而结果无效是指,条件并非结果必要条件的结果取值范围所占的百分比,即结果不受条件限制情况。
图1 理想化(“三角形”)散点图与普通(“五边形”)散点图
(五)瓶颈表(Bottleneck Table)
瓶颈表是指给定水平结果所需的条件必需水平。瓶颈表在解释多变量必要条件以及识别必要条件组合方面具有重要作用。
三、NCA结果整理
一般而言,NCA数据分析主要可依据表1中的六步来执行。需要注意的是,当X和Y都是连续变量或变量水平较大的离散变量(如>5),用散点图法分析;当X和Y均为二元变量或变量水平较小(如<5)的离散变量时使用列联表法分析。
(一)分析效应量与显著性
效应量是指产生特定结果需要必要条件的最低水平,取值范围为0~1之间,数值越趋近于1表示效应量越大,小于0.1则说明效应量很小。体根据数据特征选择不同的分析技术,也可以同时汇报CR和CE的计算结果,比较结果的稳健性。基于Dul等(2020)给出的衡量标准,必要条件的效应量(d)需大于0.1且达到显著性水平(P<0.01)。
示例为前因条件X1对结果条件Y的必要性分析,分析方法为CR,如下图所示。
(二)分析瓶颈水平
瓶颈水平分析时,程序会汇报使用CR和CE两种方法进行分析的瓶颈水平结果,如下图所示。
四、他(参)山(考)之(借)石(鉴)
[1]方法评介 | 必要条件分析(NCA)
[2]论文写作与投稿 | QCA论文写作的“秘密”:基于QCA专刊研讨会的意见
[3]R、RStudio、NCA包的安装
[4]研究方法 | NCA:必要条件分析的软件操作步骤
推荐阅读
-
介绍国家能力评估软件研究的结果
-
统计学习 04:假设检验(以 t 检验为例)和 P 值 - 要点 I. 假设检验的一般思路 假设检验 清楚你的问题是什么?期望得出什么结论? 例如,两种药物的疗效是否存在差异,自变量与因变量之间是否存在回归关系 .... 请始终牢记,假设检验回答的是是否存在某种关系的问题:它并不衡量这种关系有多大。 提出两种假设:零假设 (H0) 和备择假设 (H1) 零假设与备择假设相反,一般来说,研究的目的是证明原假设是错误的,即得出备择假设的结论。 例如,如果实验预期希望两种药物的疗效存在差异,那么 H0:μ1 - μ2 = 0;H1:μ1 - μ2 ≠ 0 H0:μ1-μ2 = 0 的一般形式称为双侧检验,而 >、<等零假设称为单侧检验。一般来说双侧检验更为常见,下面也主要介绍这种方法。 单尾或双尾测试 根据原始数据计算零假设概率分布的统计量(t 值、Z 值、F 值等)。 根据问题的性质选择合适的概率检验方法,从而计算出相应的统计量值;因此,不同情况的统计量值有不同的计算方法。 根据计算出的统计量值,利用统计软件,可以知道相应的 p 值是多少 也可以先确定一个合适的显著性水平(0.0.001....),并计算其临界值,再与我们计算出的统计量值进行比较,从而做出判断。 根据第四步的比较结果,如果 p 值小于预期的显著性水平(α,通常设定为 0.05),则认为该统计量远离原假设分布,属于小概率事件,则拒绝原假设,从而接受备择假设。 决定 要点 2:以 t 检验为例,演示上述假设检验思路。 t 检验基于 t 分布,常见的 t 检验有三种,如下图所示,但我认为第三种配对设计可能更常用(零假设:差异是否为零),下面介绍的例子就是一种配对设计 三次 t 检验 举例测量两组大鼠肝脏中维生素 A 的含量,比较两组大鼠维生素 A 含量是否有差异。数据如下 数据 (1) 预计两组大鼠的维生素 A 水平存在差异 (2) H0:μd=0,H1:μd≠0,α=0.05,双侧检验 (3) t 统计量的计算 配方 计算 上述程序计算的是*度为 7 的 t 分布情况下的 t 值。只需理解公式即可,不同的方法有不同的公式,这些交给统计软件即可。