noisy text:噪声文本
在文本挖掘(text mining)中,噪声文本(noisy text)是终端用户使用与标准方式大不相同的书写方式导致的。在特定语言中,标准书写方式总是用词组合形成词组、从句和句子。 噪声文本(noisy data)常常是因为终端用户过度使用惯用表达法、缩写词、缩略词和行业术语等导致。它也可能是拼写不当、缺少标点、对光学字符识别(OCR)和语音辨认翻译不当或者印刷错误引起的。在博客帖、聊天会话、讨论话题和短信文本信息都会出现的非结构文本中,噪声数据(noisy text)尤为普遍。 噪声文本(noisy text)会给自动的电脑加工造成问题,造成数据挖掘(data mining)程序选取、分类信息的困难。 另见:模糊逻辑(fussy logic)
最近更新时间:2010-06-07 翻译:徐艳EN
相关推荐
-
AI能源使用增加,技术工作负载限制IT
能源的可用性和成本正在成为技术使用的制约因素,随着企业AI应用程序增加计算需求,IT经理必须计划解决这一问题。 […]
-
减少关键技术债务的策略
现在的IT领导者、项目经理和软件开发领导者必须优先考虑预防技术债务。 技术债务会带来深远的负面影响。出于速度或 […]
-
生成式AI能耗增加,但尚不清楚投资回报率
在为生成式AI构建商业案例时,IT领导者需要考虑很多成本考虑因素,有些显而易见,有些则是隐藏成本。 其中最明显 […]
-
CrowdStrike事件揭露关于IT的残酷真相
美国立法者希望CrowdStrike首席执行官George Kurtz解释其软件更新如何导致数千次航班取消、医 […]