企业海外业务中的数据合规:什么是数据去标识化
1.何为数据脱敏
(1)数据脱敏既不是一个法律概念也不是一个技术概念
在个人信息保护的语境下,数据脱敏一般是指对个人信息进行技术处理,去除或降低数据与个人之间的关联,导致个人在一定程度上不可识别。数据脱敏并不是一个严格的法律概念或技术概念,但是对数据脱敏的理解离不开技术和法律这两个维度。
其一,数据脱敏是一种技术处理的过程,包括选择哪种脱敏技术或其组合,以及每种技术的实际实施强度。数据脱敏只是一个大类概念,实践中需要基于具体的业务场景和需求,综合考虑数据主体的授权与要求、数据的性质与类型、数据处理的方式与目的、重识别的风险与后果、当前可用的技术水平、合理的成本投入等因素,选择合适的技术实现方案。
其二,数据脱敏是一种对处理效果的法律评价,即经过技术处理后的数据,具体实现了哪种程度的不可识别。数据脱敏是一个渐进的光谱,根据程度的递增,例如从假名化、去标识化到匿名化,法律将作出差异化评价。
实践中常见的误区是:将数据脱敏静态地视为特定的技术处理,并概括认为个人信息脱敏后即与个人脱离关联。技术的视角有利于具象化地理解数据脱敏,但不可识别的程度才是法律上定义和区分数据脱敏相关概念的本质特征。
总之,数据脱敏既涉及法律概念也涉及技术概念。作为法律概念,数据脱敏是指为保护个人的隐私和数据安全所达到的一种效果;作为技术概念,数据脱敏是一种具体的技术方法和步骤,用于对敏感数据进行处理或转换。通过使用不可逆或难以还原的技术手段,数据脱敏可以降低数据被泄露或滥用的风险。因此,数据脱敏既是法律所要达到的一种权益保护效果,同时也是技术实施的一种方法。法律规定了对敏感数据的保护要求,而数据脱敏技术则是实现这些要求的具体手段之一。
(2)数据脱敏的本质
可识别性是个人信息的本质特征,不可识别性是数据脱敏的本质特征。但这里的不可识别绝不等同于匿名化。不可识别是一个渐进性概念,包括单独可识别、结合其他信息可识别/不借助其他信息不可识别、合理可能的不可识别、不可复原的不可识别。而这些不可识别所达到的程度,是区分匿名化、去标识化、假名化等法律概念的本质特征。就匿名化而言,其不可识别达到的程度是合理可能的不可识别和不可复原的不可识别。欧盟GDPR的匿名化是基于“合理可能”(reasonably likely)标准而言——综合考虑技术、成本、时间等因素,数据控制者或其他人采用了所有合理可能的方法,仍无法直接或间接识别数据主体;而我国现行法下不仅要求个人信息主体无法被识别,还要求匿名化处理后的信息不能被复原。
“结合其他信息可识别、而不借助其他信息不可识别”则是数据脱敏的中间状态,在我国被称为“去标识化”,它的不可识别是可复原的,而它的可识别依赖于额外信息
因此,数据脱敏的相关概念主要以不可识别的程度为标准,随着程度的量变而实现概念的质变,但各个概念之间并非泾渭分明,而有赖于具体场景下的综合判断。不同的技术处理所达到的是不同程度的数据脱敏效果,法律也将据此作出差异化评价。
2.GDPR下哪些数据需要脱敏
GDPR并未明确列出需要脱敏的具体数据类型和脱敏程度,但以下是一些常见的可能需要脱敏的数据类型和脱敏程度的示例:
(1)个人身份信息:
(i)姓名:可以进行脱敏处理,如只保留首字母或用伪名代替。
(ii)身份证号码:可以进行脱敏处理,如只保留部分数字或用通用标识符替代。
(iii)地址:可以进行脱敏处理,如只保留省份或国家,而不显示具体地址。
(2)账户相关信息:
(i)银行账号:可以进行脱敏处理,如只显示部分账号号码或用通用标识符替代。
(ii)信用卡号码:可以进行脱敏处理,如只显示部分卡号或用通用标识符替代。
(3)健康和医疗信息:
(i)医疗记录:可以进行脱敏处理,如删除或替换诊断信息,只保留匿名化的病历编号。
(ii)健康指标:可以进行脱敏处理,如删除或替换个人身份信息,只保留匿名化的数据。
(4)其他敏感信息:
(i)社会安全号码:可以进行脱敏处理,如只显示部分号码或用通用标识符替代。
(ii)私人通信内容:可以进行脱敏处理,如删除或替换个人身份信息,只保留匿名化的内容。
3.数据脱敏的程度
脱敏程度可以根据数据的敏感性和传输需求来确定,常见的脱敏程度包括:
(1)完全脱敏(Full Masking):将敏感信息完全替换为通用标识符或匿名化的数据,使其无法被还原。
(2)部分脱敏(Partial Masking):只显示敏感信息的部分内容,例如只显示部分号码或删除个人身份信息的一部分。
(3)加密脱敏(Encryption Masking):对敏感信息进行加密处理,只有授权的人才能解密并访问原始数据。
(4)偏移脱敏(Offset Masking):对敏感信息进行位移处理,例如将数值加减特定的偏移量。
4.数据脱敏的常见方法
(1)随机化:通过将敏感数据替换为随机值或者伪随机值,保护原始数据的真实性。例如,将姓名替换为随机字符串;
(2)掩码:通过将敏感数据的一部分替换为掩码,隐藏部分敏感信息。例如,将电话号码的后四位替换为星号;
(3)加密:通过对敏感数据进行加密,保护数据的机密性。例如,对信用卡号码进行加密;
(4)截断:通过截断敏感数据的一部分或全部,限制访问敏感信息的范围。例如,只显示姓名的首字母;
(5)数据分区:将敏感数据分成多个区域,在不同的区域应用不同的脱敏技术,保护数据的隐私和机密性;
(6)虚拟化:在测试和开发环境中使用虚拟数据代替真实数据,虚拟数据可以是随机生成的、采样的或者是经过脱敏处理的;
(7)数据屏蔽:通过定义数据访问权限、角色和规则,限制用户访问敏感数据的范围和权限,保护数据的机密性和完整性;
(8)数据分类:将数据按照敏感程度分类,对不同级别的数据采用不同的脱敏技术和措施,保障数据的安全性。
推荐阅读
-
反传销网8月30日发布:视频区块链里的骗子,币里的韭菜,杜子建骂人了!金融大V周召说区块链!——“一小帮骗子玩一大帮小白,被割韭菜,小白还轮流被割,割的就是你!” 什么区块链,统统是骗子 作者:周召(知乎金融领域大V,毕业于上海财经大学,目前任职上海某股权投资基金合伙人) 有人问我,区块链现在这么火,到底是不是骗局? 我的回答是: 是骗局。而且我并不是说数字货币是骗局,而是说所有搞区块链的都是骗局。 -01- 区块链是一种鸡肋技术 人类社会任何技术的发明应用,本质都是为了提高社会的生产效率。而所谓区块链技术本质不过是几种早已成熟的技术的大杂烩,冗余且十分低效,除了提高了洗钱和诈骗的效率以外,对人类社会的进步毫无贡献。 真正意义上的区块链得包含三个要素:分布式系统(包括记账和存储),无法篡改的数据结构,以及共识算法,三者互为基础和因果,就像三体世界一样。看上去挺让人不明觉厉的,而经过几年的瞎折腾,稍微懂点区块链的碰了几次壁后都已经渐渐明白区块链其实并没有什么卵用,区块链技术已经名存实亡,沦为了营销工具和传销组织的画皮。 因为符合上述定义的、以比特币为代表的原教旨区块链技术,是反效率的,从经济学角度来说,不但不是一种帕累托改进,甚至还可以说是一种帕累托倒退。 原教旨区块链技术的效率十分低下,因为要遍历所有节点,只能做非常轻量级的数据应用,一旦涉及到大量的数据传输与更新,区块链就瞎了。 一方面整条链交易速度会极慢,另一方面数据库容量极速膨胀,考虑到人手一份的存储机制,区块链其实是对存储资源和能源的一种极大的浪费。 这里还没有加上为了取得所谓的共识和挖矿消耗的巨大的能源,如果说区块链技术是屎,那么这波区块链投机浪潮可谓人类历史上最大规模的搅屎运动。 区块链也验证不了任何东西。 所谓的智能合约,即不智能,也非合约。我看有人还说,如果有了智能合约,就可以跟老板签一份放区块链上,如果明年销售业绩提升30%,就加薪10%,由于区块链不能篡改,不能抵赖,所以老板必须得执行,说得有板有眼,不懂行的愣一看,好像还真是那么回事。 但仔细一想,问题就来了。首先,在区块链上如何证明你真的达到了30%业绩提升?即便真的达到老板耍赖如何执行? 也就是说,如果区块链真这么厉害,要法院和仲裁干什么。 人类社会真正的符合成本效益原则的是代理制度。之前有人说要用区块链改造注册会计师行业,我不知道他准备怎么设计,我猜想他思路大概是这样的,首先肯定搞去中心化,让所有会计师到链上来,然后一个新人要成为注册会计师就要所有会计师同意并记录在链上。 那我就请问了,我每天上班累死累活,为什么还要花时间去验证一个跟我无关的的人的专业能力?最优做法当然是组织一个委员会,让专门的人来负责,这不就是现在注册会师协会干的事儿吗?区块链的逻辑相当于什么事情都要拿出来公投,这个绝对是扯淡的。 当然这么说都有点抬举区块链了,区块链技术本身根本没有判断是非能力,如果这么高级的人工智能,靠一个无脑分布式记账就能实现的话,我们早就进入共产主义社会了。 虽然EOS等数字货币采用了超级节点,通过再中心化的方式提高效率,有点行业协会的意思,是对区块链原教旨主义的一种修正,但是依然无法突破区块链技术最本质的局限性。有人说,私有链和联盟链是区块链技术的未来,也是扯淡,因为区块链技术没有未来。如果有,说明他是包装成区块链的伪区块链技术。 区块链所涉及的所有底层技术,不管是分布式数据库技术,加密技术,还是点对点传输技术等,基本都是早已存在没什么秘密可言的技术。 比特币系统最重要的特性是封闭性和自洽性,他验证不了任何系统自身以外产生的信息的真实性。 所谓系统自身产生的信息,就是数据库数据的变动信息,有价值的基本上有且只有交易信息。所以说比特币最初不过是中本聪一种炫技的产物,来证明自己对几种技术的掌握,你看我多牛逼,设计出了一个像三体一样的系统。因此,数字货币很有可能是区块链从始至终唯一的杀手应用。 比特币和区块链概念从诞生到今天已经快10年了,很多人说区块链技术在爆发的前夜,但这个前夜好像是不是有点过长了啊朋友,跟三体里的长夜有一拼啊。都说区块链技术像是90年代初的互联网,可是90年代初的互联网在十年发展后,已经出现了一大批伟大的公司,阿里巴巴在99年都成立了,区块链怎么除了币还是币呢? 正规的数字货币未来发展的形式无外乎几种,要么就是论坛币形式,或者类似股票的权益凭证等。问题是论坛币和股票之前,本来也都电子化了,区块链来了到底改变了什么呢? 所有想把TOKEN和应用场景结合起来的人最后都很痛苦,最后他们会发现区块链技术就是脱裤子放屁,自己辛苦搞半天,干嘛不自己作为中心关心门来收钱?最后这些人都产生了价值的虚无感,最终精神崩溃,只能发币疯狂收割韭菜,一边嘴里还说着我是个好人之类的奇怪的话。 因此,之前币圈链圈还泾渭分明,互相瞧不起,但这两年链圈逐渐坐不住了,想着是不是趁着泡沫没彻底破灭之前赶快收割一波,不然可能什么都捞不着了。 前段时间和一个名校毕业的链圈朋友瞎聊天,他说他们“致力于用区块链技术解决数字版权保护问题”,我就问他一个问题,你们如何保证你链的版权所有权声明是真实的,万一盗版者抢先一步把数据放在链上怎么办。他说他们的解决方案是连入国家数字版权保护中心的数据库进行验证…… 所以说区块链技术就是个鸡肋,研究到最后都会落入效率与真实性的黑洞,很多人一头扎进链圈后才发现,真正意义上的区块链技术,其实什么都干不了。 -02- 不是蠢就是坏的区块链媒体 空气币和区块链的造富神话,让区块链自媒体也开始迎风乱扭。一群群根本不知道区块链为何物的妖魔鬼怪纷纷进驻区块链自媒体战场,开始大放厥词胡编乱造。 任何东西,但凡只要和区块,链,分,分布式,记账,加密,验证,可追溯等等这些个关键词沾到哪怕一点点,这些所谓的区块链媒体人就会像狗闻到了屎了一样疯狂地把区块链概念往上套。 这让我想起曾经一度也是热闹非凡的物联网,我曾经去看过江苏一家号称要改变世界的“物联网”企业,过去一看是生产路由器的,我黑人问号脸,对方解释说没有路由器万物怎么互联,我觉得他说得好有道理,竟无言以对。 好,下面让我们进入奇葩共赏析时间,来看看区城链媒体经常有哪些危言耸听的奇谈怪论 区块链(分布式记账)的典型应用是*?? 正如前面所说,真正意义上的区块链分布式记账,不光包括“记”这个动作,还包括分布式存储和共识机制等。而*诞生远远早于区块链这个词的出现,勉强算是“分布式编辑”吧,就被很多区块链媒体拿来强行充当区块链技术应用的典范。 其实事实恰恰相反,*恰恰是去中心化失败的典范,现在如果没有精英和专业人士的编辑和维护,*早就没法看了。 区块链会促进社会分工?? 罗振宇好像就说过类似的话,虽然罗振宇说过很多没有逻辑的话,但这句话绝对是最没逻辑思维的。很多区块链自媒体也常常用这句话来忽悠老百姓,说分工代表效率提高社会进步,而区块链“无疑”会促进分工,他们的理由仅仅是分工和分布式记账都共用一个“分”字,就强行把他们扯到一起。 实际情况恰恰相反,区块链是逆分工的,区块链精神是号召所有人积极地参与到他不擅长也不想掺合的事情里面去。 区块链不能像上帝一样许诺他的子民死后上天国,只能给他们许诺你们是六度人脉中的第一级,我可以赚后面五级人的钱,你处于金字塔的顶端。
-
澎湃新闻对话腾讯丁珂:从 "治已病 "到 "治未病",企业需快速构建 "安全免疫力"--丁珂指出,对企业而言,安全不是成本而是生命线 丁珂指出,对企业而言,安全不是成本而是生命线,也是商业 "硬币 "的另一面。在数字智能化的新阶段,发展驱动安全建设已成为普遍共识,企业需要转变安全思维,从被动建设到主动防御,构建一套新的安全范式和框架,以更加积极、主动的安全观来提升数字安全免疫力,以 "治未病 "的理念取代 "治已病",前置安全,快速构建 "安全免疫力"。对 "已病",前置预判,及时应对处置安全风险,才能维护品牌价值,保障健康发展。 与此同时,安全建设还普遍存在 "不知道往哪投、怎么投 "的痛点。对此,腾讯安全提出,企业可以按照数字安全免疫模型的框架进行安全全局部署,重点在业务安全、数据安全、安全运维管理、边界安全、终端安全、应用开发安全等薄弱环节的关键领域注入 "免疫增强针"。 今年进入公众视野的AIGC还在产业化、产品化的过程中,但大量攻击者已经利用它生成攻击脚本、钓鱼邮件,甚至伪造身份进行诈骗。"人工智能本身是否安全,会不会让网络更不安全? 腾讯安全研究认为,AIGC的风险主要集中在 "无法解释 "和 "无法追踪 "的特点上,但这在技术上是能够找到应对方法的。丁珂谈到,AIGC作为生产力的巨大提升,确实会带来更复杂的攻防态势和更大的防御难度。但任何新技术都要经历这样的周期。而法律法规也会随着技术的演进而不断更新,使新技术的发展更加规范和健全。 丁珂认为,随着我国网络安全法律法规体系的不断完善,合规性将给企业推进网络安全带来很大的推动力,并很直观地展现在需求端。未来,伴随着数据要素市场的建立或企业对数据价值的挖掘,也将带动数据安全市场的快速增长。 对于腾讯安全的商业逻辑和运营,丁珂表示,不谋求建立竞争壁垒,而是期望与生态共同发展,腾讯安全希望通过能力开放,实现安全与业务相伴的生态模式。 谈到未来,丁磊表示,安全领域已经进入加速发展期,在蓝海中会持续关注很多新的业务领域,希望孵化出新的商业模式,腾讯安全团队也会持续关注并抓住机会做好产品。 以下为采访实录(在不改变原意的基础上略有删减): 冲浪新闻:当前,以人工智能、大数据等新技术为驱动的第四次工业革命正向纵深推进,给人类生产生活带来深刻变革。而互联网作为新技术的载体,面临的安全挑战不仅数量越来越多,形式也越来越复杂。从互联网安全从业者的角度,腾讯观察到近年来国内外网络安全形势发生了哪些变化?这些变化呈现出怎样的趋势?
-
企业海外业务中的数据合规:什么是数据去标识化