人与机器的互动需要大数据的多样性

日期: 2014-07-31 作者:Nicole Laskowski翻译:赵瑞 来源:TechTarget中国 英文

医药研究人员竭尽所能寻找大数据多样性的意义并发现单单技术还不能胜任。

对大数据头痛的常见处方是技术。”数据量问题用Hadoop,失效性就用Strom,” Novartis International AG诺华国际知识工程副总Mark Schreiber如此说。

但涉及到多样性问题时,这种“吃两粒,上午给我电话”式的治愈手段就变为错误的医疗方式了,其可能抑制数据探索和创造性思维。一个医药专家小组在上周的麻省理工学院首席数据官和信息质量研讨会上这样形容说。

Schreiber和他的团队通过测试以及错误发现了数据多样性的特定挑战。他们最大的错误是什么?是构建一个典型的数据仓库。“这是一个很诱人的想法,因为在其他行业这都很有用,”他说。“问题是一旦你开始建立一个数据仓库,你必须知道你要把什么放入其中,以及你问题面临着什么。”

这种方法适合零售等行业,因为“仓库的数据模型与业务模式近似,”Schreiber说。“基本上你是为业务探索数据模型。“但科学和医学研究完全打翻这一定式。“你在探索数据模型,”他说,“从而学习有关世界的新事物。”

研究人员通过规范数据并把它变成一个数据仓库而把自己逼到了死角,这明显的限制了他们可能问的问题以及他们“创新和学习新事物的能力,”他说。

另一个错误是什么? Schreiber和他的团队使用限制词汇的web表单以回避自由形式文本的巨大变异性。但将文本挖掘技术应用到研究者的全文后,“我们获取了比要求他们使用约束性表单更多的价值,”他说。

Schreiber称之为“一个出乎意料的发现,”但是他解释说,多样性是一个范围。数据越是结构化,其活跃度就越差。 “凭经验来说,我的观察是,信息的级别似乎随结构性下降而上升”, Schreiber说。高度结构化的数据,比如传感器数据,是最低级别的数据,”他说。它即使包含任何类型的值,但仍然“需要被解析”。 非结构化数据,如PowerPoint幻灯片中使用的文本,是“就一个特定药物是否应进入下一研制阶段的分析的结果和人们的决定,”他说。

解析不准确和有偏差的语言

另一个大数据多样性的基本挑战是含义的解析。苏格兰整理了一套护理管理记录,两个出现在非结构化记录中的最常见单词是妻子和酒精。

“尚不清楚这两个词之间的关系,“小组成员Beth Israel Deaconess Medical Center 首席信息官兼哈佛医学院技术院长John Halamka说。“妻子是刺激来源,所以喝酒”,还是“酒喝得太多,我的妻子很焦虑?’”(结果是后者)。但是,Halamka继续说道,“类似google的搜索或者单词词频分析并不够用。必须真正理清主谓关系”。

文本分析工具和自然语言处理技术已经存在了几十年。但在生物医学领域还是像其他专业一样:语言可能不精确而且含义在特定时刻会有偏差,Schreiber说。这就需要人去解析。但是,随着大数据多样性的增多,让人类去挖掘文本连接点或解释上下文变得几乎不再可行。

“想象几年前有人来到你面前,说我有数十亿的文件资源——非结构化,包含拼写错误和不同的语言,我希望你能想出一个索引方式——你过去的反应会是说我们要雇用数以百万计的图书馆员,”他说。“这对非常小的数据集来说是正确的方法。”

但是这种方法面临大数据时就不够用了,Partners Healthcare 研究信息系统及计算主管Shawn Murphy解释说。“一切与大数据有关的想法都要考虑规模性。这就是挑战——创建规模性的解决方案。而我们并不习惯这样做。”

“通过一个安全的云连接”将非结构化记录发送给第三方供应商来解析文本。以元数据的形式反馈含义,其“强调诊断概念,”他说。技术“关注否定,动词时态”,它不会结结巴巴地说并不直观的短语,如母亲患有乳腺癌的病人情况很好。“其将这一概念分类为家族史,”Halamka说。然后Beth Israel使用数据分析来招收患者进入护理管理项目。

Schreiber还主张大数据多样性的技术附加方法。他说,真正的挑战是识别有意义的数

据。“一种错误是只应用算法,那样你只能达到一定程度的准确性,”他说。“另一中错误就是只使用专业管理者,那样你只能达到一个固定的数据量。”现在,Schreiber和他的团队正在尝试一种“兼顾的方法,”他说。

该方式纳入一批“看门人型管理者,”从而引入人类的智慧。”这似乎是处理这种非结构化可变性问题的最好解决方法,”他说。“达到机器学习的极限,然后以灵活的方式引入人类智慧。”

至少,目前是这样的。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者

Nicole Laskowski
Nicole Laskowski

Nicole Laskowski is a senior news writer for SearchCIO.com and SearchCIO-Midmarket.com. She covers CIO strategies for analytics, business intelligence and data management. Prior to joining TechTarget, she worked as the news editor for a community newspaper in Arlington, Mass., overseeing the news content of both the weekly print publication and the newspaper’s website. Nicole also has worked for two other community newspapers in Oregon and Michigan and brings 10 years of writing and editing expe

翻译

赵瑞
赵瑞

相关推荐