unstructured data:非结构化数据
非结构化数据(unstructured data)是描述所有不在数据库(database)内企业信息的一个通用标签。非结构化数据(data)可以是文本的也可以是非文本的。文本的非结构化数据在电子邮件、PPT展示、Word文件、协作软件和即时信息等媒介中产生。非文本的非结构化数据在JPEG图像、MP3音频和Flash视频文件中产生。 如果以未托管状态遗留,一个企业内每年产生的大量文本的非结构化数据(unstructured data)在存储(storage)上花费巨大。如果万一发生合规性审计(compliance audit)或法律诉讼,信息不能被查找,未托管数据还可能负责。这些包含在非结构数据中的信息并不总是容易找到。它要求电子版和打印版两种文件和其它媒介中的的数据都要浏览,这样搜索设备可以解析出用于特定环境中的文字概念。这叫做语义搜索。它也指企业搜索。 在面向客户的业务中,可以分析包含在非结构化数据(unstructured data)中的信息来改善客户关系管理(customer relationship management)和关系营销。由于像Twitter和Facebook一类的社交媒介应用成为主流,预期非结构化数据的增长会远远超过结构化数据的增长。根据2009年秋天公开的“IDC企业磁盘存储器消耗模式”报道,预计交易数据的复合年增长率将达到21.8%,而实际上非结构化数据以61.7%的复合年增长率预测远远地超过了这个数。 另见:数据挖掘(data mining)、原始数据(raw data)、社交型客户关系管理(social CRM)
最近更新时间:2010-06-22 翻译:徐艳EN
相关推荐
-
2013年CIO预算何处去?
企业的CIO们在震荡和不稳定中一路走来。对于即将到来的2013年,CIO们肩上的担子越来越重了……
-
混合存储将成存储领域重要趋势
非结构化数据将继续强劲增长是不言而喻的。因此,我们将继续看到集成的分析和非结构化数据存储的新产品。
-
传统分析与大数据分析的对比
大数据最大的优点是针对传统手段捕捉到的数据之外的非结构化数据。这意味着不能保证输入的数据是完整的,清洗过的和没有任何的错误。
-
解决大数据的开源工具
低成本、灵活并适用于受训的人员是开源繁荣的主要原因。Hadoop、R和NoSQL是现在许多企业大数据的支柱,不管他们是否用它管理非结构化数据或执行复杂的统计分析。