面对汹涌而来的大数据浪潮,企业如何走进大数据时代?来自北京拓尔思(300229)信息技术股份有限公司总裁施水才,就“理解大数据、实践大数据”为主题做了回答。 问:您如何看待如今的大数据热? 施水才:对大数据,有盲目的崇拜者,也有反对者。当前网格计算、云计算、大数据是三个热门词,大数据远远超过其他两个。财富几百强的企业在大数据的竞争中,不努力迎接挑战就会被淘汰。 大数据表现为社会化趋势,像SNS等社会媒体产生的信息关系非常多,现在大数据是新的自然资源,现在机器的数据越来越重要。这个机器数据,比如访问谷歌、百度搜索引擎过程中产生很多新闻,他们现在都进行分析包括他们之间的关系。 现在有很多研究报告,从大数据的量级、多样性、价值以及实施性方面提出了很多特点。专家提出的非结构化数据非常多,大数据有很多垃圾,有很多不相关的信息,有一些有用的信息隐藏在海量信息里面。 问:您对大数据怎么看? 答:我有五个观点。一是大数据比云计算更加落地。软件是大数据核心引擎,大数据的应用,不仅仅用来满足电子商务,精准营销的。管理大数据相对来说容易一些,但是要理解大数据的内容是更加难的。 二是大数据不仅仅是大。对于什么是大,大的量级是什么,现在有一个标准,PB级的数据量是大数据的特征。比大更大的是数据复杂性,有结构化数据,非结构化数据,有垃圾数据,有实时的数据,还有时间序列的数据等等。我们比大更重要的要处理这种大数据的复杂性。 三是软件是大数据的引擎。数据中心核心是软件驱动,现在已经可以做到,比如公司自己云计算中心。大数据里面用到很多数据,像机器学习、人工智能等这些技术,都是以软件的形式来表现的。我们认为软件是整个大数据的核心,在大数据处理中处于比较重要地位。 四是大数据应用不仅仅是精准营销。现在互联网营销对大数据研究比较透的,他们主要是分析人们的行为,电子商务是最典型的。除了在精准营销方面,像金融服务、食品安全、交通环保、气象、军事等方面大数据都有非常广阔的应用领域。在公共服务方面,大数据也有很多应用。 五是管理大数据“易”,理解大数据“难”。大数据内部,特别是非结构化数据,以及数据和数据之间关系,这里面涉及到很多机器学习和多媒体理解很多前沿的高深的技术。现在主要从体系架构、从分布式处理等等出发,主要解决性能问题,对理解问题没有很好去做。 问:拓尔思对大数据有何动作? 答: 我们开发了一些大数据的解决方案,首先底层有一个TRS大数据管理系统,我们还有两个应用。一个叫器搜索引擎,我们大数据管理系统的发展历史,最早做了权 威数据库,到前两年非结构化数据库,到现在大数据的管理系统。它既可以树立关系型数据库,也可以处理非结构化的数据。 第二个应用是TRS机器数据挖掘引擎,主要做推荐,做用户行为的分析,以及以时间分段为基础的使用的特点。社会化媒体云分析平台相当于企业或者政府的分析服务,可以为企业做研发、公关等各方面的应用。 大数据有各种各样的公司和学术研究机构在做,我们主要两个特点,一是在非结构化信息处理方面,在满足企业级客户能力方面,我们有一套整体解决方案;二是跟存储数据库厂商相比更加强调大数据的分析和挖掘功能。 |