数据湖复杂化数字治理和合规性

日期: 2016-08-11 作者:David Loshin翻译:陈晓诚 来源:TechTarget中国 英文

随着企业不断利用数据湖的分析优势,企业数据湖已经成为常态,但是它们的普及,应该让公司重新考虑数字治理和合规性。

企业内的大数据分析的增加,让“数据湖”不断增长,这是所有可以用于分析的信息资产的默认存储库,对于期望从数据中获得额外价值的公司而言,非常有益。但很多公司允许猖獗的积累,并不断将数据源倾倒入这些数据湖中,无意中带来了合规性风险。

数据目录工具可以帮助减轻这些风险,但在我们讨论这些工具之前,让我们来谈谈数据湖带来合规性问题的用例,以及为什么缺乏数数据湖治理战略,是如此危险。

在华尔街改革和消费者保护法第153 d(f)部分中描述了一个用例,它允许美国金融研究办公室(OFR)的主任向一家金融机构发出传票,要求提供所需要的数据, 来监督美国金融稳定性的潜在风险。这一传票的权力,并不局限于特定时间内的,一个特定类型的结构化数据库。相反,可以在任何时间要求任何数据。实际上,这意味着金融机构必须清楚他们管理的所有数据,以及数据所包含的信息,以及这些信息和其他数据集的关联。

另一个用例是大量的数据保护法规,对于信息暴露的处罚。The HIPAA Privacy Rule保护大多数“个人识别健康信息”——包括姓名,电话号码,地址,社保号码,也被称为病人的受保护健康信息(PHI)。The HIPAA Privacy Rule指出,“一个实体或商业团体必须(…)为电子信息系统实施技术政策和流程,维护电子受保护健康信息,只允许那些获得授权的人或软件进行访问。”

这就要求监测和减少任何潜在的PHI暴露风险,无论是源于个体黑客或软件应用。因此,企业数据湖中累积的数据,或其他类型的大容量存储库,公司不仅要确定哪些数据包含PHI数据,他们也必须清楚不同的数据集的组合,可能在不经意间暴露受保护的健康数据。

大数据分析与合规性

上述两个用例,凸显了数字化业务中的新兴挑战。数据积累对于预测和规范分析,有非常明显的好处。这激发了许多企业摄取外部来源的数据集,以扩大从内部事务和运行应用中,提取的自己的数据集。许多企业同时关注数据回收,其中的非结构化数据,比如过往的电子邮件,文档和幻灯片,通过访问它们的存档,然后加载到同一个业务数据湖中。

这种无节制的,大规模数据存储库的不受控制的增长,带来了合规性风险。随着越来越多的数据集被添加到数据湖中,很难快速的,准确的响应OFR的数据需求,或区分哪些PHI处于暴露的风险。

数据合规性的适当数字治理,对于现代企业,是一个复杂的过程:一个公司必须识别和仔细记录企业现有的数据资产,以及这些资产中信息如何反映已知的信息监管。但在大多数情况下,几乎没有人确切地知道哪些数据存在,这些数据中的数据分类,如何访问数据,以及谁拥有访问数据的权限,以及企业数据湖内的数据累积,可能涉及到的法规。当合规性审查数据到来时,缺乏企业数字治理环境的知识,会带来明显的障碍。许多人忙着寻找数据集的关联性,以及如何为适当的合规性响应,累积所需的信息。

自动数据目录的崛起

应对这些挑战的方法之一,就是使用自动化工具,调查和描述企业的每个数据,分析包含的信息类型。这使得公司能够创建并管理一个共享语义目录。这个数据目录提升了对不同数据集中包含内容的认识,列出的细节包括:

业务内容,现实世界数据类型的高度概括,包含在数据集内的信息,比如账号、姓名、位置和其他抽象实体概念。

存储在数据集中的属性名称。

  • 创建、获取、读取或更新数据集的任何业务部门/流程的细节。
  • 数据集的存储位置,和访问信息的方式。
  • 读取数据所需的访问权限,以及获得访问数据权限的个人和应用程序。

从合规性角度来看,一个体现语义数据意识的数据目录,有助于确保实施适当的安全措施,进行数据保护和隐私合规性。此外,拥有包含信息细节的数据目录,可以简化对于消除合规性风险的外部数据调用需求的响应。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者

David Loshin
David Loshin

Knowledge Integrity公司总裁,专注商务智能、大数据、数据质量、数据治理和主数据管理。

相关推荐

  • 数据湖:不治理便破产

    数据湖,或数据中心,是一种在不牺牲数据结构的情况下, 摄取数据的存储仓库和处理系统,已经成为现代数据架构和大数据管理的同义词。

  • 实施数据湖的三个关键因素

    像任何其他工具或技术一样,数据湖是一种存储库和处理引擎,有它的优点和缺点。它的著名优点之一是,可以在不牺牲数据格式的情况下,摄取数据,为数据科学家提供更大的灵活性。

  • 探讨企业数据架构战略和数据湖的可能性和必要性

    现今的企业数据架构战略,必须解决如何将现有的数据系统与日益增长的信息需求,性能和数据源相匹配。