noisy data:噪声数据
噪声数据(noisy data)就是无意义的数据(meaningless data)。这个词通常作为损坏数据(corrupt data)的同义词使用。但是,现在它的意义已经扩展到包含所有难以被机器正确理解和翻译的数据,如非结构化文本。任何不可被创造它的源程序读取和运用的数据,不管是已经接收的、存储的还是改变的,都被称为噪声。 噪声数据未必增加了需要的存储空间容量,相反地,它可能会影响所有数据挖掘(data mining)分析的结果。统计分析可以运用历史数据中收集的信息来清除噪声数据从而促进数据挖掘。 引起噪声数据(noisy data)的原因可能是硬件故障、编程错误或者语音或光学字符识别程序(OCR)中的乱码。拼写错误、行业简称和俚语也会阻碍机器读取。
最近更新时间:2010-05-13 翻译:徐艳EN
相关推荐
-
无视数字主权?CIO无法承担
这十年来,地缘政治紧张、混乱和战争,促使企业想办法在强烈的不确定性中寻求发展。对于大多数公司及其首席信息官(C […]
-
为什么CIO应雇佣年长的IT员工:战略优势
由于全球IT人才短缺,企业不应忽视年长员工。 根据Manpower Group的2025年全球人才短缺报告,全 […]
-
首席信息官如何减少技术债务
虽然债务曾经被简单地称为“欠款”,但技术采用率的提高带来新型债务,困扰着公司和IT领导者。技术债务是指与依赖次 […]
-
区块链与传统数据库:区别和用例
区块链和数据库技术有很多相似之处和不同之处,它们经常被拿来比较。 虽然区块链和数据库技术都专注于存储和管理数据 […]