noisy text:噪声文本
在文本挖掘(text mining)中,噪声文本(noisy text)是终端用户使用与标准方式大不相同的书写方式导致的。在特定语言中,标准书写方式总是用词组合形成词组、从句和句子。 噪声文本(noisy data)常常是因为终端用户过度使用惯用表达法、缩写词、缩略词和行业术语等导致。它也可能是拼写不当、缺少标点、对光学字符识别(OCR)和语音辨认翻译不当或者印刷错误引起的。在博客帖、聊天会话、讨论话题和短信文本信息都会出现的非结构文本中,噪声数据(noisy text)尤为普遍。 噪声文本(noisy text)会给自动的电脑加工造成问题,造成数据挖掘(data mining)程序选取、分类信息的困难。 另见:模糊逻辑(fussy logic)
最近更新时间:2010-06-07 翻译:徐艳EN
相关推荐
-
2025年12个企业风险管理趋势
在很多企业中,企业风险管理已经占据中心地位,随着这些企业努力应对经济不确定性带来的影响–先是新冠肺 […]
-
2025年重塑CIO角色的8个因素
企业继续将技术视为未来成功和增长的关键,这将促使2025年IT支出增加。 研究和咨询公司Gartner估计,明 […]
-
英特尔CEO Pat Gelsinger离职;董事会寻找新CEO
近日英特尔宣布首席执行官Pat Gelsinger退休,结束他在这家公司近四年的领导生涯,这期间他帮助这家陷入 […]
-
如何成功运行IT试点项目
正确的软件可以帮助公司获得竞争优势,但错误的软件可能会增加关键流程的复杂性和失败率。这意味着,测试潜在软件在企 […]