系统评估--用 R 语言实现数据包络分析的 DEA (VII)

最编程 2024-03-23 17:52:24

...

数据包络分析（Data envelopment analysis，DEA）是运筹学中用于测量决策部门生产效率的一种方法，它是基于相对效率发展的崭新的效率评估方法。详细来说，通过使用数学规划模型，计算决策单元相对效率，从而评价各个决策单元。每个决策单元（Decision Making Units，DMU）都可以看作为相同的实体，各 DMU 有相同的输入、输出。综合分析输入、输出数据，DEA 可得出各个 DMU 的综合效率，据此定级排队 DMU，确定有效（即相对效率最高）DMU，挖掘其他 DMU非有效的程度和缘由。DEA 模型有多种类型，最具代表性有CCR 模型，BCC模型。CCR 模型基于规模报酬不变的假设，而BCC模型则基于规模报酬可变的假设，二者各有侧重，可以选择结合两个方法同时展开数据分析。

一、数据包络分析法

数据包络分析 (DEA) 是由美国著名运筹学家 A.Charnes (查恩斯) 、W.W.Cooper (库铂) 、E.Rhodes (罗兹) 于 1978 年首先提出，在相对效率评价概念基础上发展起来的一种非参数检验方法。在 DEA 中，受评估的单位或组织被称为决策单元 (简称 DMU) 。DEA 通过选取决策单元的多项投入和产出数据，利用线性规划，以最优投入与产出作为生产前沿，构建数据包络曲线。其中，有效点会位于前沿面上，效率值标定为1；无效点则会位于前沿面外，并被赋予一个大于\(\theta\) 但小于 1 的相对的效率值指标。

决策单元:一个经济系统通常可以看成是一个“公司”,通过投入一定数量的生产要素并产出一定数量的“产品”，尽管这种活动的具体内容各不相同,但其目的都是尽可能地使这一活动取得最大的“效益”。由于从“投入”到“产出”需要经过一系列决策才能实现,或者说,由于“产出”是决策的结果,所以这样的“公司”被称为决策单元（decision making unit，DMU）。所以,可以认为,每个决策单元都代表一定的经济意义,它的基本特点是具有一定的输入和输出,并且将输入转化成输出的过程中,努力实现自身的决策目标。
生产可能集:我们用\(X=\{x_1,x_2,...,x_m\}\) 来表示每个决策单元生产过程的投入向量，维度为\(n\),代表有\(n\)种类型的投入变量；用\(Y=\{y_1,y_2,...,y_s\}\) 来表示每个决策单元生产过程的产出向量，维度为\(s\),代表有\(s\)种类型的产出变量。则简写之，我们可以使用\(（X,Y）\)来表示DMU的整个生产活动。
定义：集合\(T=(X,Y）\)代表投入为\(X\),产出为\(Y\)的所有可能的生产活动的集合。
有效生产（前沿）:对于生产可能集\((X,Y）\in T\)，如果不存在\(Y^{'} \geq Y,\quad (X,Y^{'}）\in T\)，则称\(（X,Y）\)为有效生产活动，此投入产出对应一个前沿，由众多“有效生产”构成的凸包即为前沿。

1.1 CCR 模型

CCR 模型由 Charnes, Cooper 和 Rhodes 于 1978 年提出，它可以计算规模报酬不变情况下的资源配置效率。假设我们要计算一组\(n\)个决策单元（DMU），它可能是企业、*部门、学校或医院等。假设每一个DMU有\(m\)种投入，记为\(x_i\)，投入权重表示为\(v_i\)；每一个DMU有\(s\)种产出，记为\(y_r\)，产出权重表示为\(u_r\)。首先，我们简单推导一下 CCR 模型，以第 \(j_0\)个决策单元的效率指数为目标，以所有决策单元的效率为约束，我们可以得到以下模型：

\[\begin{aligned} & \max h_{j_0}=\frac{\sum_{r=1}^s u_r y_{r j_0}}{\sum_{i=1}^m v_i x_{i j_0}} \\ & \text { s.t. } \frac{\sum_{r=1}^s u_r y_{r j}}{\sum_{i=1}^m v_i x_{i j}} \leq 1, j=1,2, \ldots n \\ & u \geq 0, v \geq 0 \\ & \end{aligned} \]

其中， \(x_{i j}\) 表示第 \(j\) 个决策单元对第 \(i\) 种投入要素的投放总量，而 \(y_{r j}\) 则表示第 \(j\) 个决策单元中第 \(r\) 种产品的产出总量， \(v_i\) 和 \(u_r\) 分别指第 \(i\) 种类型投入与第 \(r\) 种类型产出的权重系数。
令 \(w=\frac{1}{v^T x_0} v, \mu=\frac{1}{v^T x_0} u\) ，经 Charnes-Cooper 变换，可变为如下线性规划模型:

\[\begin{gathered} \max h_{j_0}=\mu^T y_0 \\ \text { s.t. } w^T x_j-\mu^T y_j \geq 0, j=1,2, \ldots n \\ w^T x_0=1 \\ w \geq 0, \mu \geq 0 \end{gathered} \]

在上述规划的对偶规划中我们引入松弛变量\(s^{+}\)和剩余变量\(s^{-}\) ，松弛变量表示达到最优配置需要减少的投入量，剩余变量表示达到最优配置需要增加的产出量。由此，不等式约束会变为等式约束，模型可以简化为：

\[\begin{gathered} \min \theta \\ \text { s.t. } \sum_{j=1}^n \lambda_j y_j+s^{+}=\theta x_0 \\ \sum_{j=1}^n \lambda_j y_j-s^{-}=\theta y_0 \\ \lambda_j \geq 0, j=1,2, \ldots n \\ s^{+} \geq 0, s^{-} \leq 0 \end{gathered} \]

我们能够用 CCR 模型判定技术有效和规模有效是否同时成立：

若满足 \(\theta^*=1\) 且 \(s^{*+}=0, s^{*-}=0\) ，则决策单元为 DEA 有效，决策单元的经济活动同时为技术有效和规模有效；
若满足 \(\theta^*=1\) ，但至少某个投入或者产出大于 0 ，则决策单元为弱 DEA 有效，决策单元的经济活动不是同时为技术有效和规模有效；
若满足 \(\theta^*<1\) ，决策单元不是 DEA 有效，经济活动既不是技术有效，也不是规模有效。

1.2 BCC 模型

CCR 模型是在规模报酬不变的前提下所得到的，但是技术创新的规模报酬是不固定的，现实中存在的不平等竞争也会导致某些决策单元不能以最佳规模运行，于是 Banker，Charnes 和 Cooper 在 1984 年对之前仅讨论固定规模效益的 DEA 分析进行了扩展，提出了 BCC 模型。BCC 模型考虑到在可变规模收益 (VRS) 情况，即当有的决策单元不是以最佳的规模运行时，技术效益 (Technology efficiency,TE) 的测度会受到规模效率 (Scale efficiency,SE) 的影响。

以上图为例，位于生产函数曲线 f(x) 上的点 A 与点 C 都是技术有效，位于 f(x) 曲线内的点 B 则不是技术有效。由于点 A 还位于生产函数曲线的拐点，A 还是规模有效点。然而点 C 位于规模收益递减区域，因此它不是规模有效。BCC 模型正是要讨论位于这种生产状况的决策单元。因此，在构建 BCC 模型时，我们需要假设规模报酬可变，对 CCR 模型的约束条件进行简单的改进，增加凸性假设条件：\(\sum \lambda_j=1,j=1,2,...,n\)，即可得：

\[\begin{gathered} \min \theta \\ \text { s.t. } \sum_{j=1}^n \lambda_j y_j+s^{+}=\theta x_0 \\ \sum_{j=1}^n \lambda_j y_j-s^{-}=\theta y_0 \\ \sum\lambda_j =1, j=1,2, \ldots n \\ s^{+} \geq 0, s^{-} \leq 0 \end{gathered} \]

我们可以对数据同时做 CCR 模型和 BCC 模型的 DEA 分析来评判决策单元的规模效率 (SE)。如果决策单元 CCR 和 BCC 的技术效益存在差异，则表明此决策单元规模无效，并且规模无效效率可以由 BCC 模型的技术效益和 CCR 模型的技术效益之间的差异计算出来。

1.3 相关概念

数据包络分析法（DEA）是针对多投入和多产出的问题，利用线性规划的方法，对具有可比性的同类型单位进行相对有效性评价的一种数量分析方法。先解释一下几个基础概念：

技术效率：指在保持决策单元投入不变的情况下，实际产出同理想产出的比值。
规模报酬：规模报酬是要说明，当生产要素同时增加了一倍，如果产量的增加正好是一倍，称之为规模报酬不变（-），如果产量增加多于一倍，则称之为规模报酬递增（irs），进而，如果产量增加少于一倍，就称为规模报酬递减（drs）。
决策单元（DMU）：就是效率评价的对象，可以理解为一个将一定“投入”转化为一定“产出”的实体。此文中，DMU就是每个楼盘。
DEA强有效：任何一项投入的数量都无法减少，除非减少产出的数量或者增加其他至少一种投入的数量[1] ；任何一项产出的数量都无法增加，除非增加投入的数量或减少其他至少一种产出的数量。
DEA弱有效：无法等比例减少各项投入的数量，除非减少产出的数量；无法等比例增加各项产出的数量，除非增加投入的数量。[2] 这种情况下，虽然不能等比例减少投入或增加产出，但某一项或几项（但不是全部）投入可能减少，所以称为弱有效。
生产前沿面：（自己通俗的理解）对于给定的生产要素和产出价格，选择要素投入的最优组合和产出的最优组合，即投入成本最小、产出收益最大的组合。它所对应的生产函数所描述的生产可能性边界就是生产前沿面。

2.3数据包络前沿线
图为投入导向的规模报酬不变的CCR模型，图中各点（DMU）落在包络线上，代表该DMU处在最适境界，因此最佳的效率值为1，不在包络线上的点的效率均小于1。其中的差值为投入。余量。

2.4 DEA数据标准化方法及其在方向距离函数模型中的应用
DEA 效率分析结果与投入和产出指标所采用的单位无关，即单位不变性，是其优点之一。

（单位不变性是指效率测量的无量纲特征，它是 DEA 效率测量方法需要满足的条件之一。）

二、DEA法的R函数

#下载及加载安装包
install.packages("rDEA")
library(rDEA)

Data envelopment analysis scores
Usage
dea(XREF, YREF, X, Y, W=NULL, model, RTS="variable")
Arguments
XREF	
a matrix of inputs for observations used for constructing the frontier.
YREF	
a matrix of outputs for observations used for constructing the frontier.
X	
a matrix of inputs for observations, for which DEA scores are estimated.
Y	
a matrix of outputs for observations, for which DEA scores are estimated.
W	
a matrix of input prices for observations, for which DEA scores are estimated in cost-minimization model, W=NULL for input- and output-oriented models.
model	
a string for the type of DEA model to be estimated, "input" for input-oriented, "output" for output-oriented, "costmin" for cost-minimization model.
RTS	
a string for returns-to-scale under which DEA scores are estimated, RTS can be "constant", "variable" or "non-increasing".
Details
Estimates technical efficiency scores (input- and output-oriented DEA models) and cost efficiency score (cost-minimization DEA).

Value
A list containing the optimal solutions for linear optimization problem for each firm, with the following components.
thetaOpt	
a vector of DEA scores in input- or output-oriented model, thetaOpt is in (0,1).
gammaOpt	
a vector of DEA scores in cost-minimization model.
XOpt	
the matrix of optimal values of inputs, only returned for cost-minimization model.
lambda	
the matrix of values for constraint coefficients in the corresponding linear optimization problem, lambda >=0.
lambda_sum	
the vector for sum of constraint coefficients in the corresponding linear optimization problem, lamdba_sum=1 for variable returns-to-scale, lambda_sum <=1 for non-increasing returns-to-scale.

三、案例分析计算

基于Bootstrap DEA分析法的医院医疗服务效绩分析。输入样本数据至矩阵(matrix)中，将数据分成两组，一组是投入，一组是产出。这里的案例中\(x\)是指投入input，\(y\)指产出output；\(x\)分别为医生数，护士数，其他人员数,\(y\)为门急诊人次数，出院次数。

library(rDEA)
#10家医院的3个输入和2个输出数据
X<-matrix(c(887,277,326,504,365,312,358,329,404,423,1090,252,475,524,543,469,340,329,260,1021,1086,366,380,559,314,236,171,325,291,766),ncol=3)
Y<-matrix(c(1683441,556126,1001634,953445,809861,276522,837199,408298,175363,581887,59423,39967,19712,15142,18665,19910,19624,28140,18269,29626),ncol=2)    

#模型选择和应用
dea_model1 = dea(XREF=X, YREF=Y, X=X, Y=Y, model="input", RTS="constant")
dea_model1$thetaOpt

#解释说明
#model="input", RTS="constant"指投入导向-报酬不变
#model="output", RTS="variable"指产出导向-报酬可变

# 运行 2000 迭代 bootstrap DEA模型分析
di = dea.robust(X=X, Y=Y, model="input", RTS="constant", B=2000)
# robust estimates of technical efficiency for each hospital对每家医院的技术效率的稳健估计

di$theta_hat_hat                      #效率值
di$bias                               #偏差(误)
di$theta_ci_low                       #置信区间下限
di$theta_ci_high                      #置信区间上限

dea_model1$thetaOpt
 [1] 0.7200635 1.0000000 1.0000000 0.7662992 0.8256312 0.7562877 1.0000000 0.7921083
 [9] 0.5703325 0.5898398

总结

DEA 作为评估组织绩效的管理工具已经得到了相当大的关注，它被广泛用于评估银行、航空公司、医院、大学和制造业等公共部门和私营部门的效率中。数据包络分析DEA是一种多指标投入和产出评价的研究方法，其应用数学规划模型计算比较决策单元（DMU）之间的相对效率，对评价对象做出评价。比如有10个学校(即10个决策单元DMU,Decision Making Units)，每个学校有投入指标（比如学生人均投入资金），也有产出指标（比如学生平均成绩，学生奥数比赛比例等），有的学校投入多，有的学校投入少，但是投入多或少，均会有对应的产出，那么具体哪个学校的投入产出更加优秀呢，诸如此类投入产出的优劣问题，则可使用数据包络DEA模型进行分析。数据包络分析其本质原理是通过DMU 的输入和输出数据进行综合分析，得出每个DMU效率的相对指标，然后将所有DMU效率指标排序，确定相对有效的 DMU ，同时还可以用投影方法指出非 DEA 有效或者弱 DEA有效的原因，以及应该改进的方向和程度，为管理人员提供管理决策信息。

参考资料

数据包络分析法与随机前沿分析法
数据包络分析法（DEA） R实现
Stata: 数据包络分析 (DEA) 简明教程

原文地址：https://www.cnblogs.com/haohai9309/p/17265650.html

上一篇： Subtask Gated Networks for Non-Intrusive Load Monitoring

下一篇：铯轨迹回放，路径飞行

系统评估--用 R 语言实现数据包络分析的 DEA (VII)

一、数据包络分析法

1.1 CCR 模型

1.2 BCC 模型

1.3 相关概念

二、DEA法的R函数

三、案例分析计算

总结

参考资料

用 R 语言实现随机前沿分析 SFA、数据包络分析 DEA、*弃置水文学 FDH 和 BOOTSTRAP 方法

系统评估--用 R 语言实现数据包络分析的 DEA (VII)

随机前沿分析 SFA、数据包络分析 DEA、*处置包分析 FDH 和 BOOTSTRAP 方法的高端 tecdat|R 语言实现

随机前沿分析 SFA、数据包络分析 DEA、*处置包分析 FDH 和 BOOTSTRAP 方法的高端 tecdat|R 语言实现

系统评估--用 R 语言实现数据包络分析的 DEA (VII)

视频: 评估分类模型的精确率、召回率、ROC曲线和AUC，并使用R语言进行生存分析的时间依赖性ROC实现（附带代码和数据）