TechTarget信息化 > 百科词汇

noisy text:噪声文本

在文本挖掘(text mining)中,噪声文本(noisy text)是终端用户使用与标准方式大不相同的书写方式导致的。在特定语言中,标准书写方式总是用词组合形成词组、从句和句子。 

  噪声文本(noisy data)常常是因为终端用户过度使用惯用表达法、缩写词、缩略词和行业术语等导致。它也可能是拼写不当、缺少标点、对光学字符识别(OCR)和语音辨认翻译不当或者印刷错误引起的。在博客帖、聊天会话、讨论话题和短信文本信息都会出现的非结构文本中,噪声数据(noisy text)尤为普遍。 

  噪声文本(noisy text)会给自动的电脑加工造成问题,造成数据挖掘(data mining)程序选取、分类信息的困难。

  另见:模糊逻辑(fussy logic

最近更新时间:2010-06-07 翻译:徐艳EN

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

相关推荐