noisy text:噪声文本
在文本挖掘(text mining)中,噪声文本(noisy text)是终端用户使用与标准方式大不相同的书写方式导致的。在特定语言中,标准书写方式总是用词组合形成词组、从句和句子。 噪声文本(noisy data)常常是因为终端用户过度使用惯用表达法、缩写词、缩略词和行业术语等导致。它也可能是拼写不当、缺少标点、对光学字符识别(OCR)和语音辨认翻译不当或者印刷错误引起的。在博客帖、聊天会话、讨论话题和短信文本信息都会出现的非结构文本中,噪声数据(noisy text)尤为普遍。 噪声文本(noisy text)会给自动的电脑加工造成问题,造成数据挖掘(data mining)程序选取、分类信息的困难。 另见:模糊逻辑(fussy logic)
最近更新时间:2010-06-07 翻译:徐艳EN
相关推荐
-
机器学习、AI要求、示例的基础设施
对于寻求利用数据获得竞争优势的公司来说,IT是作为一种专业学科的存在。现在,企业充斥着数据,但处理和分析数据的 […]
-
缓解多云治理挑战的5个最佳做法
部署多云模型会给云团队带来更多的复杂性和管理挑战。这些挑战影响着企业环境的方方面面,包括设计、部署、配置、运营 […]
-
联合国决议表明全球关注AI规则和原则
联合国大会周四通过了一项关于人工智能的最终决议,这是朝着全球合作迈出的一步-关于如何使用人工智能和全球支持保护 […]
-
4个需要解决的虚拟现实道德问题
虚拟、增强和混合现实(统称为扩展现实XR)的增长导致出现分歧。一边是用户和供应商,另一边是法律专家和伦理学家& […]