大数据脱敏算法系统的定义是什么

美创的数据脱敏算法系统功能如丅

l 保持业务规则关联性

l 保持数据逻辑一致性

l 支持多种数据脱敏算法算法

l 脱敏过程数据不落地

l 支持数据水印及溯源

l 降低敏感数据泄密风险

包含客户姓名、年龄、手机号、银行账号等敏感信息的数据通过脱敏系统变成符合数据使用场景的非敏感数据使敏感信息保持在可控业务系统内部,明显降低敏感数据泄漏风险

利用系统“脱敏数据以假乱真”的功能特点,最大限度地保证脱敏后数据的“真实性”即依然依然保持数据特征、业务规则、数据关联性,可以有效提升开发测试、培训的质量提供更加真实的数据,帮助测试环节能贴近真实运行環境促进测试系统的问题暴露。

从低速脱敏演进到高速脱敏改变以往对手工的原始脱敏方式,大大减少脱敏所需时间提升交付效率。

利用脱敏系统当天即可响应脱敏需求最快当天可实现脱敏数据交付。使数据脱敏算法工作不再成为项目进度的瓶颈促进缩短项目周期,提升需求方的满意度

l 符合监管部门法规要求

无论是最高规格的法律,到政府机构的法规、政策已经各行业的规范、指南、指导意見等,对包含个人信息在内的各类敏感数据都提出了要求数据脱敏算法系统可以帮助企事业在数据安全上更进一步,满足法律法规的需求

l 灵活适应各种数据应用场景

对于敏感数据进行基础的去敏感处理只是第一步,应对不同的数据应用场景脱敏系统需要进行进一步的處理,如开发测试场景要求脱敏后的数据保持原有业务属性、数据分析场景要求保留部分数据真实信息

以上就是我的回答,希望能帮到您

数据脱敏算法原理及方法简析

大數据成为国家基础性战略资源

十三五规划纲要中明确提出:

“实施国家大数据战略,

享”然而,各行业数据中包含大量的个人隐私数據与敏感、重要数据一旦泄

将会给个人甚至国家带来无法弥补的损失。

据分析的成熟和价值挖掘的深入

利用大数据学习技术从大量相關联的普通数据

中还原出用户的敏感、隐私信息已不再困难。 

共享及使用等过程中实现对敏感数据的定向、

脱敏达到数据安全、可信、受控使用的目标,是数据产生者和管理者亟待解决

的技术问题因此,数据安全技术和数据隐私相关技术成为安全技术热门 

当前,数据咹全技术包括数据加密、数据脱敏算法、访问控制、安全审计、备份

恢复、运维管理等本文主要从数据脱敏算法这一安全控制手段入手。 

数据脱敏算法与安全控制 

数据脱敏算法又称数据去隐私化或数据变形,是在给定的规则、策略下对敏

感数据进行变换、修改的技术机淛能够在很大程度上解决敏感数据在不可控

环境中使用的问题。国内银行、通信运营商等是最早开始使用数据脱敏算法工具的

单位多鉯静态脱敏为主。 

大数据时代的到来颠覆了传统業态的运作模式,激发出新的生产潜能数据成为重要的生产要素,是信息的载体数据间的流动也潜藏着更高阶维度的价值信息。对于數据控制者和数据处理者而言如何最大化数据流动的价值,是数据挖掘的初衷和意义然而,一系列信息泄露事件的曝光使得数据安铨越来越受到广泛的关注。

数据脱敏算法(Data Masking)顾名思义,是屏蔽敏感数据对某些敏感信息(比如,身份证号、手机号、卡号、客户姓洺、客户地址、邮箱地址、薪资等等 )通过脱敏规则进行数据的变形实现隐私数据的可靠保护。业界常见的脱敏规则有替换、重排、加密、截断、掩码,用户也可以根据期望的脱敏算法自定义脱敏规则

通常,良好的数据脱敏算法实施需要遵循如下两个原则,第一盡可能地为脱敏后的应用,保留脱敏前的有意义信息;第二最大程度地防止黑客进行破解。

数据脱敏算法分为静态数据脱敏算法和动态數据脱敏算法静态数据脱敏算法,是数据的“搬移并仿真替换”是将数据抽取进行脱敏处理后,下发给下游环节随意取用和读写的,脱敏后数据与生产环境相隔离满足业务需求的同时保障生产数据库的安全。动态数据脱敏算法在访问敏感数据的同时实时进行脱敏處理,可以为不同角色、不同权限、不同数据类型执行不同的脱敏方案从而确保返回的数据可用而安全。

GaussDB (DWS)的数据脱敏算法功能摒弃业務应用层脱敏依赖性高、代价大等痛点,将数据脱敏算法内化为数据库产品自身的安全能力提供了一套完整、安全、灵活、透明、友好嘚数据脱敏算法解决方案,属于动态数据脱敏算法用户识别敏感字段后,基于目标字段绑定内置脱敏函数,即可创建脱敏策略脱敏筞略(Redaction Policy)与表对象是一一对应的。一个脱敏策略包含表对象、生效条件、脱敏列-脱敏函数对三个关键要素是该表对象上所有脱敏列的集匼,不同字段可以根据数据特征采用不同的脱敏函数当且仅当生效条件为真时,查询语句才会触发敏感数据的脱敏而脱敏过程是内置茬SQL引擎内部实现的,对生成环境用户是透明不可见的

动态数据脱敏算法,是在查询语句执行过程中根据生效条件是否满足,实现实时嘚脱敏处理生效条件,通常是针对当前用户角色的判断敏感数据的可见范围,即是针对不同用户预设的系统管理员,具有最高权限任何时刻对任何表的任何字段都可见。确定受限制用户角色是创建脱敏策略的第一步。

敏感信息依赖于实际业务场景和安全维度以洎然人为例,用户个体的敏感字段包括:姓名、身份证号、手机号、邮箱地址等等;在银行系统作为客户,可能还涉及银行卡号、过期時间、支付密码等等;在公司系统作为员工,可能还涉及薪资、教育背景等;在医疗系统作为患者,可能还涉及就诊信息等等所以,识别和梳理具体业务场景的敏感字段是创建脱敏策略的第二步。

产品内置一系列常见的脱敏函数接口可以针对不同数据类型和数据特征,指定参数从而达到不一样的脱敏效果。脱敏函数可采用如下三种内置接口同时支持自定义脱敏函数。三种内置脱敏函数能够涵蓋大部分场景的脱敏效果不推荐使用自定义脱敏函数。

  • MASK_NONE:不作脱敏处理仅内部测试用。
  • MASK_PARTIAL:使用指定的脱敏字符对脱敏范围内的内容做蔀分脱敏

不同脱敏列可以采用不同的脱敏函数。比如手机号通常显示后四位尾号,前面用"*"替换;金额统一显示为固定值0等等。确定脫敏列需要绑定的脱敏函数是创建脱敏策略的第三步。

以某公司员工表emp表的属主用户alice以及用户matu、july为例,简单介绍数据脱敏算法的使用過程其中,表emp包含员工的姓名、手机号、邮箱、发薪卡号、薪资等隐私数据用户alice是人力资源经理,用户matu和july是普通职员

假设表、用户忣用户对表emp的查看权限均已就绪。

  • (1)创建脱敏策略mask_emp仅允许alice查看员工所有信息,matu和july对发薪卡号、薪资均不可见字段card_no是数值类型,采用MASK_FULL铨脱敏成固定值0;字段card_string是字符类型采用MASK_PARTIAL按指定的输入输出格式对原始数据作部分脱敏;字段salary是数值类型,采用数字9部分脱敏倒数第二位湔的所有数位值
  • (2)由于工作调整,matu进入人力资源部参与公司招聘事宜也对员工所有信息可见,修改策略生效条件

切换到用户matu和july,偅新查看员工表emp

切换到用户july,查看员工表emp

  • (5)突然某一天,公司内部可共享员工信息时直接删除表emp的脱敏策略mask_emp即可。

数据脱敏算法實现背后的秘密

GaussDB (DWS)数据脱敏算法功能基于SQL引擎既有的实现框架,在受限用户执行查询语句过程中实现外部不感知的实时脱敏处理。关于其内部实现如上图所示。我们将脱敏策略(Redaction Policy)视为表对象上绑定的规则在优化器查询重写阶段,遍历Query Tree中TargetList的每个TargetEntry如若涉及基表的某个脫敏列,且当前脱敏规则生效(即满足脱敏策略的生效条件且enable开启状态)则断定此TargetEntry中涉及要脱敏的Var对象,此时遍历脱敏列系统表pg_redaction_column,查找到对应脱敏列绑定的脱敏函数将其替换成对应的FuncExpr即可。经过上述对Query Tree的重写处理优化器会自动生成新的执行计划,执行器遵照新的计劃执行查询结果将对敏感数据做脱敏处理。

带有数据脱敏算法的语句执行相较于原始语句,增加了数据脱敏算法的逻辑处理势必会給查询带来额外的开销。这部分开销主要受表的数据规模、查询目标列涉及的脱敏列数、脱敏列采用的脱敏函数三方面因素影响。

针对簡单查询语句以tpch表customer为例,针对上述因素展开测试如下图所示。

图(a)、(b)中基表customer根据字段类型和特征既有采用MASK_FULL脱敏函数的,也有采用MASK_PARTIAL脱敏函数的MASK_FULL对于任何长度和类型的原始数据,均只脱敏成固定值所以,输出结果相较于原始数据差异很大。图(a)显示不同数据规模下脱敏和非脱敏场景简单查询语句的执行耗时。实心图标为非脱敏场景空心图标为被限制用户,即脱敏场景

可见,数据规模越大带有脱敏的查询耗时与原始语句差异越大。图(b)显示10x数据规模下查询涉及脱敏列数不同对于语句执行性能的影响涉及1列脱敏列时,带有脱敏的查詢比原始语句慢追溯发现,此列采用的是MASK_PARTIAL部分脱敏函数查询结果只是改变了结果的格式,结果内容的长度并未变化符合“带有脱敏嘚语句执行会有相应的性能劣化”的理论猜想。随着查询涉及脱敏列数的增加我们发现一个奇怪的现象,脱敏场景反倒比原始语句执行哽快进一步追溯多列场景下脱敏列关联的脱敏函数,发现正是因为存在使用MASK_FULL全脱敏函数的脱敏列,导致输出结果集部分相比原始数据節省很多时间开销从而多列查询下带有数据脱敏算法的简单查询反倒提速不少。

为了佐证上述猜测我们调整脱敏函数,所有脱敏列均采用MASK_PARTIAL对原始数据做部分脱敏从而能够在脱敏结果上保留原始数据的外部可读性。于是如图(c)所示,当脱敏列均关联部分脱敏函数时带囿数据脱敏算法的语句比原始语句劣化10%左右,理论上讲这种劣化是在可接受范围的。上述测试仅针对简单的查询语句当语句复杂到带囿聚集函数或复杂表达式运算时,可能这种性能劣化会更明显

GaussDB (DWS)产品数据脱敏算法功能,是数据库产品内化和夯实数据安全能力的重要技術突破主要涵盖以下三个方面:

  1. 一套简单、易用的数据脱敏算法策略语法;
  2. 一系列可覆盖常见隐私数据脱敏算法效果的、灵活配置的内置脱敏函数;
  3. 一个完备、便捷的脱敏策略应用方案,使得原始语句在执行过程中可以实时、透明、高效地实现脱敏

总而言之,此数据脱敏算法功能可以充分满足客户业务场景的数据脱敏算法诉求支持常见隐私数据的脱敏效果,实现敏感数据的可靠保护

我要回帖

更多关于 大数据脱敏 的文章

 

随机推荐