常用NLP评估标准与指标解析

最编程 2024-02-18 07:59:54

...

目录标

困惑度（Perplexity）
BLEU
精确率和召回率

困惑度（Perplexity）

困惑度 是语言模型的一个衡量标准。因为单纯序列的似然概率是一个难以理解、难以比较的数字。毕竟，较短的序列比较长的序列更有可能出现，因此评估模型产生长篇巨著《战争与和平》的可能性会比产生中篇小说《小王子》可能性要小得多。

一个好的语言模型应该能让我们准确地预测下一个词元。所以我们可以通过一个序列中 所有的 n 个词元的交叉熵损失的平均值 来衡量：

$\frac{1}{n} - \sum_{t=1}^n \text{log }P(x_t|x_1, \cdots, x_{t-1})$

其中 $P$ 由语言模型给出， $x_t$ 是在时间步 $t$ 从该序列中观察到的实际词元。这使得不同长度的文档的性能具有了可比性。由于历史原因，自然语言处理的科学家更喜欢使用一个叫做困惑度（perplexity）的量。简而言之，它是上式的指数：

$\text{exp}\Big(\frac{1}{n} - \sum_{t=1}^n \text{log }P(x_t|x_1, \cdots, x_{t-1})\Big)$

如果是使用神经网络来编码语言模型，那么神经网络的输出loss的均值的指数值，即为一个句子的困惑度。

在最好的情况下，模型总是完美地估计标签词元的概率为1。在这种情况下，模型的困惑度为1。

在最坏的情况下，模型总是预测标签词元的概率为0。在这种情况下，困惑度是正无穷大。

BLEU

BLEU（bilingual evaluation understudy）最早提出时是用于评估机器翻译的结果，但现在它已经被广泛用于测量许多应用的输出序列的质量。 BLEU的定义为：

$\text{exp}(min(0,1−\frac{len_{label}}{len_{pred}})) \prod_{n=1}^{k} p_n^{1/2^n}$

其中 $len_{label}$ 表示标签序列中的词元数， $len_{pred}$ 表示预测序列中的词元数， $k$ 是用于匹配的最长的 n-gram 。

另外， $p_n$ 表示 n-gram 的精确度，它是两个数量的比值：第一个是预测序列中与标签序列匹配的 n-gram 的数量（注：只要预测序列中的 n-gram 在标签序列的 n-gram 中也存在即认为是匹配；如果预测序列中的某个 n-gram 出现了 i 次，而该 n-gram 在标签序列中出现了 j 次，那么算 min(i,j) 次匹配），第二个是预测序列中 n-gram 的数量。

举例来说，给定标签序列 A ， B 、 C 、 D 、 E 、 F 和预测序列 A 、 B 、 B 、 C 、 D ，则 $p_1 = \frac{4}{5}，p_2 = \frac{3}{4}，p_1 = \frac{1}{3}，p_1 = \frac{0}{2}$ 。
$\quad$
以 $p_2$ 为例具体说明：预测序列中的 2-gram 为： AB, BB, BC, CD，标签序列中的 2-gram 为：AB, BC, CD, DE, EF。因此预测序列中与标签序列匹配的 2-gram 有：AB, BC, CD $\Rightarrow$ $p_2$ 分母为4，分子为3.

根据上述BLEU的定义:

当预测序列与标签序列完全相同时，BLEU为 1
由于 n-gram 越长则匹配难度越大，所以BLEU为更长的 n 元语法的精确度分配更大的权重。(n 越大， $p_n^{1/2^n}$ 越大)
由于预测的序列越短获得的 pn 值越高，所以 $\text{exp}(min(0,1−\frac{{len_{label}}}{len_{pred}}))$ 用于惩罚较短的预测序列。当 $\frac{len_{label}}{len_{pred}} > 1$ 时，预测序列越短，惩罚系数 $\text{exp}(min(0,1−\frac{{len_{label}}}{len_{pred}}))$ 越小，也就是说惩罚力度越大

精确率和召回率

对于分类模型，假如有 $C$ 个类别，那么对于任意类别 $c$ ，有：

真正例(TP)：样本真实类别为 $c$ ，并且模型也预测为 $c$ 的数量：
$TP_c = \sum_{i=1}^n \boldsymbol I(y_i = \hat{y_i} = c)$
假负例(FN)：样本真实类别为 $c$ ，但是模型将它预测为其他类别的数量：

上一篇： Altium Designer AD18的常用功能与快速键指南

下一篇：比较罗伯塔和艾尔伯特：两种强大的语言模型详解

常用NLP评估标准与指标解析

目录标

困惑度（Perplexity）

BLEU

精确率和召回率

评估对话品质的指标与标准

【教程3】理解与实践：几个常见的NLP评估指标及计算方法

常用NLP评估标准与指标解析