noisy text:噪声文本
在文本挖掘(text mining)中,噪声文本(noisy text)是终端用户使用与标准方式大不相同的书写方式导致的。在特定语言中,标准书写方式总是用词组合形成词组、从句和句子。 噪声文本(noisy data)常常是因为终端用户过度使用惯用表达法、缩写词、缩略词和行业术语等导致。它也可能是拼写不当、缺少标点、对光学字符识别(OCR)和语音辨认翻译不当或者印刷错误引起的。在博客帖、聊天会话、讨论话题和短信文本信息都会出现的非结构文本中,噪声数据(noisy text)尤为普遍。 噪声文本(noisy text)会给自动的电脑加工造成问题,造成数据挖掘(data mining)程序选取、分类信息的困难。 另见:模糊逻辑(fussy logic)
最近更新时间:2010-06-07 翻译:徐艳EN
相关推荐
-
无视数字主权?CIO无法承担
这十年来,地缘政治紧张、混乱和战争,促使企业想办法在强烈的不确定性中寻求发展。对于大多数公司及其首席信息官(C […]
-
为什么CIO应雇佣年长的IT员工:战略优势
由于全球IT人才短缺,企业不应忽视年长员工。 根据Manpower Group的2025年全球人才短缺报告,全 […]
-
首席信息官如何减少技术债务
虽然债务曾经被简单地称为“欠款”,但技术采用率的提高带来新型债务,困扰着公司和IT领导者。技术债务是指与依赖次 […]
-
区块链与传统数据库:区别和用例
区块链和数据库技术有很多相似之处和不同之处,它们经常被拿来比较。 虽然区块链和数据库技术都专注于存储和管理数据 […]