noisy text:噪声文本
在文本挖掘(text mining)中,噪声文本(noisy text)是终端用户使用与标准方式大不相同的书写方式导致的。在特定语言中,标准书写方式总是用词组合形成词组、从句和句子。 噪声文本(noisy data)常常是因为终端用户过度使用惯用表达法、缩写词、缩略词和行业术语等导致。它也可能是拼写不当、缺少标点、对光学字符识别(OCR)和语音辨认翻译不当或者印刷错误引起的。在博客帖、聊天会话、讨论话题和短信文本信息都会出现的非结构文本中,噪声数据(noisy text)尤为普遍。 噪声文本(noisy text)会给自动的电脑加工造成问题,造成数据挖掘(data mining)程序选取、分类信息的困难。 另见:模糊逻辑(fussy logic)
最近更新时间:2010-06-07 翻译:徐艳EN
相关推荐
-
专家称:美国政府入股英特尔无法解决长期困境
近日英特尔与美国政府达成协议,美国政府将入股英特尔,此举可能有助于应对科技行业的危机,但这并不意味着这家陷入困 […]
-
2025年如何吸引科技人才:7个要点
在争夺人才时,从首席信息官到一线招聘人员,都应该了解如何吸引出色的IT和技术团队。 提高工资、提供工作与生活的 […]
-
黑帽大会:Halcyon和Sophos联手阻击勒索软件
网络安全专家Halcyon和Sophos合作建立一家威胁情报共享合资企业,这两家公司将交换关键指标数据,例如威 […]
-
对于ASM,CISO角色可增加运行时安全、令牌化
攻击面管理(ASM)是不断发展的网络安全领域,ASM旨在识别内部和外部漏洞,提供建议,并观察新出现的威胁。如果 […]