一:统计数据搜集过程中的隐私为保护
在为保护使用者的子代隐私大前提下,对数以千计个使用者终端产品的隐私统计数据进行搜集,在伺服器中完成大批量统计数据的裂解与分析,发掘小规模使用者统计数据的整体趋势与统计重要信息。
合规性条文
GDPR:为了应付隐私难题带来的信用风险的考验,统计数据Medinipur与处置者“应执行最合适的控制技术举措和有计划性的举措来保证科学合理应付信用风险的安全可靠水平”(第 32 条)。
《重要互联网安全可靠法》:“互联网管理者应采行控制技术举措和其他必要举措,保证其搜集的个人重要互联网安全可靠, 防止重要信息外泄、损毁、遗失”。即明确要求民营企业采行很大的控制技术与管理举措,保证使用者个人重要信息与 隐私安全可靠(第 42 条)
控制技术症结:
传统的统计重要互联网安全可靠处置控制技术:去标记化(也称为统计数据Damazan),在民营企业一部分主要情景中一般可应付合规性,合乎上述 GDPR 和中国《重要互联网安全可靠法》明确要求的采行的必要举措。
然而,在一些内部自然环境(比如说大部分内部使用者可以出访和浏览)或内部共享资源自然环境中,它处置后的统计数据依然面临各种各样的隐私反击, 包括大背景科学知识反击、脉冲响应反击和重标记反击等 ,即经过反击后个人隐私依然可能会被外泄。防止以内的隐私反击,同时留存很大程度的统计数据易用性,方可赢得统计数据的裂解重要信息但无法赢得一般而言历史记录的重要信息。
特别针对以内难题,需要脉冲响应隐私控制技术来实现。
解决方法:脉冲响应隐私计算
脉冲响应隐私 (Differential Privacy, DP) 控制技术由于无须假定反击者能力或大背景科学知识,安全可靠性可通过数学方法断定,作为一种最前沿的隐私为保护技
其中,D和D分别指交界处的统计数据集(差异只有一条历史记录),f(.)是这种操作或演算法(比如说查阅、求平均、八倍等)。
对于它的任一输入C ,两个统计数据集输入这样结果的机率几乎是吻合的,即二者机率差值大于 eεe^{\varepsilon} ,那么称为满足ε隐私。如何实现这个目标? 一般来说,通过在查阅结果中加入噪声,比如说Laplace 类型的噪声,使得查阅结果在很大范围内失真,并且保持两个交界处统计数据库机率分布几乎相同.
ε参数通常被称为隐私预算(Privacy budget),ε参数越小,两次查阅(交界处统计数据集 D 和 D′)的结果越吻合,即隐私为保护程度越高。一般将ε 设置为一个较小的数,比如说 0.01,0.1。但设置更小的数意味需要加入更高强度的噪声,统计数据易用性会相应下降,这实际应用中需通过调节ε 参数(反映在噪声强度的调节上),以平衡隐私性与统计数据易用性.
早期脉冲响应隐私应用情景中,统计数据存储在统计数据库中,通过提供具有脉冲响应隐私功能的查阅接口给查阅者使用,通常称该方案为中心化的脉冲响应隐私模型(Centralized Differential Privacy,CDP)。随着研究与发展,出现了另一种模式:本地脉冲响应隐私(Local Differential Privacy, LDP)。LDP 在使用者侧进行脉冲响应隐私处置,具体来说,使用者终端产品的统计数据搜集时都会运行一个脉冲响应隐私演算法,搜集输入的统计数据经过特殊的处置,因此伺服器也无法赢得使用者侧的真实隐私重要信息。其实现的核心思想应用了随机化演算法,比如说随机应答(Randomized Response),每一个搜集端的统计数据都加入了噪声。虽然伺服器侧无法赢得每一个使用者侧的真实统计数据,但搜集足够多的加入噪声的统计数据,它恢复得到整体统计数据分布,满足脉冲响应隐私模型的近似结果定义。
在 CDP 应用中,微软开发了 PINQ(Privacy Integrated Queries)系统,它基于脉冲响应隐私控制技术提供隐私敏感统计数据的查阅 API 接口,在不外泄隐私情况下可实现一般的统计数据查阅功能。在 LDP 应用中,Google 开发了应用 Rappor,将其应用在 Chrome 浏览器中搜集使用者的行为统计数据;Apple 在 iPhone 手机上的进行应用,方可搜集得到敏感的统计数据分布与趋势,同时为保护每一位iPhone使用者的确切隐私。如下图所示是 iPhone 提供的一个应用示例,通过本地化脉冲响应隐私控制技术搜集和裂解手机使用者使用表情的频率分布。
二:个人重要信息治理
同一个民营企业的多个应用中,比如说 Google 邮箱和浏览器,可能通过搜集使用者的多个维度的个 人重要信息与隐私统计数据。此外,统计数据搜集后可能分布存储在多种多个统计数据库(如 Oracle、My SQL、 ElasticSearch)以及各种大统计数据平台中(HDFS 和 Hbase)。民营企业需要摸清民营企业内部有多少个独立的统计数据实体(统计数据主体),每一个实体包括哪些统计数据与属性维度,这些统计数据分别存储在哪些系统中和业务应 用,以及统计数据共享资源给哪些第三方民营企业
合规性条文
GDPR: 赋予了使用者知情权、出访权、修改权、限制处置权、 被遗忘权,可携带权、拒绝权等多项权利。相应地,民营企业必须履行和响应使用者提出的权利请求。比如说使用者发起统计数据查看请求,那么民营企业必须完整呈现统计数据主体个人统计数据报告,包括搜集了使用者哪些结构化统计数据、哪些非结构化统计数据(包括互联网浏览、点击等重要信息)、以及将统计数据共享资源给了哪些第三方民营企业。(第 12 至 22 条)
《重要互联网安全可靠法》:法规赋予了使用者很大程度的“删除权”和“修改权”,相应的民营企业须履行和配合使用者完成统计数据权利请求的流程。同样地,民营企业在具体实施合规性落地时,个人重要信息治理与可视化是基础与大前提(第 43 条)
控制技术症结
多源异构统计数据源分布同一个统计数据主体的重要信息和维度,对于民营企业复杂多变的统计数据自然环境来说,不同统计数据源实体 ID 表示形式不同,或者缺失,如何识别与关联同一个实体是一个不小的考验。
解决方法:科学知识图谱
知识图谱(Knowledge Graph)这个概念最早由 Google 在 2012 年提出,最初用于优化现有的搜索引擎,通过重要信息的的提取与关联以实现更好地查阅复杂的重要信息,从语义层面理解使用者意图。随着理论与控制技术的发展与完善,目前科学知识图谱已广泛应用于社交互联网、金融、电商等领域的统计数据发掘。
科学知识图谱本质上是语义互联网,是一种基于图的统计数据结构,由节点 (Point) 和边 (Edge) 组成。在科学知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。科学知识图谱是关系的最有效的表示方式。通俗地讲,科学知识图谱就是把所有不同种类的重要信息(Heterogeneous Information)连接在一起而得到的一个关系互联网。
科学知识图谱提供了从“关系”的角度去分析难题的能力
在工业应用中,RSAC 2020 创新沙盒冠军公司Securit.ai将应用在隐私合规性的科学知识图谱控制技术称为个人统计数据图谱(People data graph),它可以将个人统计数据主体所有的属性维度重要信息,比如说姓名、出生年月、手机号和地区等重要信息进行关联,同时能给出敏感统计数据存储的分布地图、以及传输的统计数据映射图。个人统计数据图谱控制技术是一项综合的应用控制技术,它的核心是科学知识图谱,其他 涉及自动扫描器、命名实体识别控制技术(Named Entity Recognition, NER)、正则匹配、图像识别、自然语言处置等一系列控制技术能力。
三:使用者统计数据权利请求响应
全球一些隐私法规赋予统计数据主体(使用者)自由出访、修改和删除个人统计数据等权利,相应地,明确要求民营企业必须在规定的时间内对使用者提出的请求进行响应,比如说向使用者提供搜集个人统计数据明细及使用目的报告。
合规性条文:
GDPR:民营企业必须履行和响应使用者提出的权利请求。对于统计数据权利的响应时间,“必须在一个月内对所有的请求进行响应和处置,若请求过于复杂,可延长至两个月”(第 12 至 22 条)。
《重要互联网安全可靠法》:法规赋予了使用者很大程度的“删除权”和“修改权”,但未具体到响应时间的规定。但在国家标准《个人重要互联网安全可靠规范》(GB/T 35273-2020),明确规定从请求到响应的时间是 30 天内(第 43 条)。
控制技术症结
假定民营企业一天有 1000 个使用者请求,采行手动操作,查阅相关系统并手工制作 1000 个使用者的个人重要信息统计数据报告,这给运营团队人员带来极大的负担同时增加高额的运营成本,且一旦人工操作错误将引入新的法规风险
解决方法:流程自动化
流程自动化赋能两类隐私合规性产品中:➀ 主体权利请求 (Subject Rights Request, SRR),➁ 统一许可偏好性设置管理(Universal Consent and Preference Management, UCPM)。SRR 可处置与响应使用者提出的个人统计数据出访、修改和删除等权利请求;UCPM 可处置与响应使用者对被搜集的个人统计数据提出
限制处置和拒绝的权利请求。 以“删除个人统计数据”的 SRR 为例(遵循 GDPR):
民营企业收到使用者的统计数据删除请求,对发出请求的实体进行身份识别与确认。若无法确认,则拒绝 该请求并向该使用者发送拒绝的原因,否则执行下一步;通过请求的历史记录日志更新在“许可统计数据库”中;识别和映射与使用者实体关联且与该次请求相关的统计数据项;检查这些统计数据是否可被删除,包括法规原因,使用目的,控制技术原因; 自动化执行统计数据删除;通知合作第三方删除该使用者相关联的数据; 相关执行结果以邮件或报告呈现给使用者,使用者确认统计数据完成删除。无论是 SRR 还是 UCPM 产品或情景,可划分为两个功能层:
使用者侧功能:在移动 App、应用程序或网站网页的产品界面中,为使用者增加清晰透明的请求窗户与按钮,包括提供个人统计数据查看、修改、删除按钮,或者限制处置的目的,拒绝与第三方公司共享资源等偏好性设置面板。
民营企业侧功能:民营企业后端系统收到请求后,进行身份识别与确认后,对请求的内容进行解析,并对映射关联实体统计数据,并在规定时间内对请求进行响应,并将结果通过邮件或网页形式反馈给发出请求的使用者。
流程自动化应用在 SRR 和 UCPM 属于新兴的隐私合规性控制技术,未来依然可进一步发展:1) 提升流程效率,优化响应一般而言 SRR/UCPM 请求流程;2) 降低运营成本,包括考虑运营团队处置请求时所涉 及的计算资源;3) 引入人工智能控制技术,提升自动化处置的效率与精度
四:总结
在使用者隐私统计重要互联网安全可靠合规性情景中,民营企业搜集使用者重要信息或与使用者形成交互状态,民营企业此时需要满足各类隐私合规性明确要求。随着我国统计重要互联网安全可靠法规 – 标准体系的完善,可预计 国内使用者统计数据权利响应自动化等隐私合规性控制技术与市场正将逐步形成。





