理解CIPT基础：数据脱敏与去标识化(2/3) - 重标记与K匿名详解

最编程 2024-07-29 22:28:46

...

上一章我们讨论了数据匿名化和去标识化的几种可用方法，接下来我们分析匿名化数据的风险识别。

重标识

重标识(re-identification)指的是对匿名化/去标识化的数据重新关联到原始个人信息主体或一组个人信息主体的过冲，它是匿名化/去标识化的一个逆向操作。

重标识的伤害类型

重标识给数据主体带来的伤害有如下几种

1. 识别符曝光 - identity disclosure

指的是处理过程中对识别符字段的匿名化程度不够，导致对手可以直接获取到信息主体的直接/间接识别符。

例如：手机号码直接计算哈希值，然后将哈希值发布在数据集中，对手通过数据碰撞方式，获得了数据集中的全部或部分明文手机号码。

2. 属性曝光 - attributes disclosure

对手虽然无法从发布的数据集中获得信息主体的识别信息，但可以确定该主体的某个目标属性的属性值

图1-属性暴露

如上例，基于其他数据我们知晓幸福里小区只有一位年龄大于85岁的老人，那从这个脱敏数据集中我们就能确定该老人接种过3针疫苗且是次密接。该数据集虽然没暴露她/他的个人识别信息，但通过与其他数据集的组合还是暴露了该自然人的隐私健康信息。

3. 推断信息暴露 - inference disclosure

通过数据集中反映的规律来推断用户的某项属性，比如脱敏后数据集显示居住在天通苑的50-60岁男性有100人，其中90人接种了3针疫苗，10人接种了2针疫苗，如果我们知道某自然人是居住在天通苑的男士且年龄在50-60岁间，我们就可确定他已经接种疫苗。

常见的重标识方法

筛选：基于是否能唯一确定一个个人信息主体，将属于一个个人信息主体的记录筛选出来。即从记录中识别出哪条数据该特定自然人，通过直接破解识别符，或者是多个识别符的唯一组合，从数据集中隔离出特定自然人的记录，从而获得该自然人的敏感信息。如下图，整个数据集中只有一个用户使用的是171开头的手机号码，我们就可以知道了这个特定自然人（天通苑1栋住户中使用171手机的人）是密接。

图2-微数据的筛选与推断

推断：通过数据集中其他属性的值的组合以一定概率推断出一个属性的值。在上图中，通过分析规律可知，如果是居住在天通苑1栋的30-40岁男性有很高几率是次密接。

关联 (linkage)：将不同数据集中关于可能是相同主体的个人信息组合，确认并关联回特定信息主体。将当前数据集中筛选出来的特定自然人记录，去关联上其他数据集的信息，来曝光出自然人的敏感信息。

图3-数据集关联攻击示例

对于重标记的风险，最为简单的评估一般是使用唯一性指标进行度量，如果单个属性或者多个属性组合的值在数据集中是唯一的，那么就很可能被用于筛选并与其他数据集关联进行识别。对于推断也是如此，如果用户属性组合越多，结果分布越均匀，推断的准确率就越低。K-匿名模型及其扩展正式基于该理论帮助我们控制重标记风险。

K-匿名模型

K-匿名模型(k-anonymity)是一种用于评估匿名化/去特征化后数据的信息安全的模型。它要求脱敏后的数据集中识别符组合形成的等价类要至少有K条不同的记录，这样就增加了从数据集中直接筛选出记录并进行关联攻击的难度。

如果等价类不好理解，你可以认为它是基于已有的识别符组合能切分出的最小人群包。比如下面这个例子中，利用住址+性别+年龄的组合最多能分为四个不同的群组，其中第一个群组（等价类）是住在天通苑20-30岁的男性。

图4-K匿名示例

上例中，微数据中每个等价类中最少有2条记录，所以通过与其他微数据的组合(linkage)，最多也只有50%（1/2）的几率关联上正确的信息主体。在实际应用中，K选3-5比较合适。

K匿名可以降低筛选和关联带来的重标识风险，但它却不能阻止利用推断带来的属性暴露风险。还是看如上例子，天通苑20-30岁的女性虽然有2人，但他们的目标属性(疫苗注射情况/密接/次密接)的属性值是一样的，虽然我们无法确定出两个信息主体分别的个人识别信息，但不妨碍我们获取到这两位的敏感健康信息。

为了解决这种确定性推断带来的风险，可以引入L多样性(l-diversity)模型，它指的是同一个等价类中它的目标属性的属性值超过L个。

图5-L多样性示例

脱敏后数据如果满足多样性l值大于1，可以有效防止确定性推断带来的属性暴露风险

如果脱敏后的数据集不满足预定的k和l值，可以通过重新调整适用的匿名化技术手段，对数据进行再次处理。

K匿名的限制

数据集在满足K匿名及L多样性的前提下，也并不能完全避免对手通过组合其他信息来完成关联，请见下例。

图6-K匿名后的关联攻击

医院A和B发布的数据都满足K匿名(k=3)和L多样性(l=3)，但当对手同时获取了这两份数据且通过额外手段得到某自然人(张三)的其他信息时，即可把该匿名记录关联回张三并且获得张三的健康信息。

匿名数据的重标识风险一方面取决去数据本身的匿名化程度，同时也和对手的攻击能力与动机高度相关，这部分我们将在下一章继续介绍。

参考资料：

1. CIPT官方教程 - 《An Introduction to Privacy for Technology Professionals》

2. PDPC - Introduction to Basic Data Anonymisation Concepts

上一篇：理解CIPT基础：数据脱敏与去标识化详解（1/3） - 方法与实施步骤

下一篇：全球隐私计算技术的整体进展概览