大数据技术所涉及的领域非常广泛,从硬件基础设施,到数据库,再到上层应用,大数据技术身影遍布IT应用的各个层面、各个角落。但要从大数据当中挖掘出价值,此项重任非分析技术莫属。那么,大数据分析技术的研发难点是什么?未来将如何发展?比特网记者为此采访了 IBM大数据实验室总监Aya Soffer女士,她领导着IBM全球12个实验室来进行研发。她介绍说,她所领导的IBM实验室并不是对已经成熟的技术做商业化研发,而是注重前瞻和突破性的研究,其工作方向包括三大部分:第一,如何从非结构化的流媒体数据中抽取数据帮助决策和分析,例如 在音频和视频当中抽取特殊数据帮助决策分析;第二,是数据可视化,如何将分析得出的结果以可视化的方让业务用户能够理解;第三是可视化与地理位置信息相结合,例如在港口监控所有船只,根据异常情况结合人员分析来判断实现更快的分析。 问:您刚刚提到正在研究语音、视频方面的大数据应用,这些数据在大数据分析中,其技术挑战在哪?目前在哪些方面有进展? Aya Soffer:现在对单个语音、视频的处理,已经有很多系统做的很好,但如何理解影像背后的意义——即语义分析和语境分析——这就是目前的技术难点。例如,从一张或者多张照片中要找到两辆车有可能会相撞,这个特征提取就比较难了。 问:非结构化数据是大数据当中最常见的一部分。以自然语言的翻译为例,目前存在两种方式,一种是利用语言学家的方式,根据语言理论进行翻译;另一种方式则是类似于谷歌的匹配法,不管语法和规则,将原文与(互联网上的)翻译数据对比,找到最相近、翻译结果被引用最频繁的。这两种方式,您认为哪种更适合目前的应用环境,或者是哪一种更有成效? Aya Soffer:这两种方式并不矛盾,根据实际的应用场景,这两种方式都要用到。基于统计的方式,仍将继续发展。在我们对错误容忍度比较高的情况下,基于统计的方式就会工作得很好;而在我们对精确度要求很高的情况下,就需要应用到传统方法了。 问:机器学习是大数据应用当中非常流行的一种方式,但流派众多,哪几种更受认可? Aya Soffer:机器学习目前主要有两种趋势:第一种,更深入的学习,即如何在没有人工干预的情况下,通过大规模的计算进行深入的学习和分析;另一大趋势就是适应性学习,即如何让你的模型和算法,通过自己设定的反馈机制来不断进行自我调教。 问:IBM实验室所研究的这些技术,需要多长时间才能应用到产品中去? Aya Soffer:至少需要1—2年。我们也在跟产品部合作一些小的创新,这些创新在1、2年内就可以变成商业化的产品。但如果是一些非常跨时代的创新,需要 的时间就非常长了。例如Watson系统,我们从2006年就开始做了,但商业化只有不到一年。不过,现在外面环境发展要求软件的开发周期越来越快,而云计算也让我们把这些创新更快的提供到市场上。 问:IBM今年收购了很多跟大数据相关的公司,这对目前的研究方向有什么影响?如果收购的技术跟我们正在研究的项目重合,会怎么处理? Aya Soffer:收购是好事,意味着我们不需要重新创新,收购来的产品肯定已经有了一定的技术沉淀,而我们实验室则会对新收购的产品进行一定技术上的合作来提升它。 |