noisy text:噪声文本
在文本挖掘(text mining)中,噪声文本(noisy text)是终端用户使用与标准方式大不相同的书写方式导致的。在特定语言中,标准书写方式总是用词组合形成词组、从句和句子。 噪声文本(noisy data)常常是因为终端用户过度使用惯用表达法、缩写词、缩略词和行业术语等导致。它也可能是拼写不当、缺少标点、对光学字符识别(OCR)和语音辨认翻译不当或者印刷错误引起的。在博客帖、聊天会话、讨论话题和短信文本信息都会出现的非结构文本中,噪声数据(noisy text)尤为普遍。 噪声文本(noisy text)会给自动的电脑加工造成问题,造成数据挖掘(data mining)程序选取、分类信息的困难。 另见:模糊逻辑(fussy logic)
最近更新时间:2010-06-07 翻译:徐艳EN
相关推荐
-
比较CompTIA Cloud+ 与 Cloud Essentials+ 认证
现在,云认证就像天上的云朵一样普遍。很多供应商采取独特的方法以使他们的认证计划脱颖而出。而其中有一家供应商,C […]
-
量子AI:它将如何影响商业世界
在当下AI的黄金时代,人们对量子计算的兴趣开始激增,因为它有可能提供前所未有的计算能力。 为此,处于技术前沿的 […]
-
量子计算的现状:企业需要知道什么
我们很难明确说明量子计算的现状。这项新兴技术目前面对的是不断变化的主张、不确定的时间表和分散的技术格局。 考虑 […]
-
如何保护AI基础设施:最佳做法
AI和生成式AI给企业带来巨大的创新机会,但随着这些工具变得越来越普遍,它们也吸引着恶意攻击者来探测其潜在漏洞 […]