noisy data:噪声数据
噪声数据(noisy data)就是无意义的数据(meaningless data)。这个词通常作为损坏数据(corrupt data)的同义词使用。但是,现在它的意义已经扩展到包含所有难以被机器正确理解和翻译的数据,如非结构化文本。任何不可被创造它的源程序读取和运用的数据,不管是已经接收的、存储的还是改变的,都被称为噪声。 噪声数据未必增加了需要的存储空间容量,相反地,它可能会影响所有数据挖掘(data mining)分析的结果。统计分析可以运用历史数据中收集的信息来清除噪声数据从而促进数据挖掘。 引起噪声数据(noisy data)的原因可能是硬件故障、编程错误或者语音或光学字符识别程序(OCR)中的乱码。拼写错误、行业简称和俚语也会阻碍机器读取。
最近更新时间:2010-05-13 翻译:徐艳EN
相关推荐
-
AI能源使用增加,技术工作负载限制IT
能源的可用性和成本正在成为技术使用的制约因素,随着企业AI应用程序增加计算需求,IT经理必须计划解决这一问题。 […]
-
减少关键技术债务的策略
现在的IT领导者、项目经理和软件开发领导者必须优先考虑预防技术债务。 技术债务会带来深远的负面影响。出于速度或 […]
-
生成式AI能耗增加,但尚不清楚投资回报率
在为生成式AI构建商业案例时,IT领导者需要考虑很多成本考虑因素,有些显而易见,有些则是隐藏成本。 其中最明显 […]
-
CrowdStrike事件揭露关于IT的残酷真相
美国立法者希望CrowdStrike首席执行官George Kurtz解释其软件更新如何导致数千次航班取消、医 […]