2013年是中国大数据“元年”,这一年中国产生的数据总量超过8亿TB,与2012年相比增长了100%。预计到2020 年,中国新产生的数据总量将达到2013年的10倍,超过85亿TB。各行各业都在思考如何从大数据中获取价值。 互联网的发展为数据收集创造了平台,并不断扩大数据收集的范围和规模。而社交平台的发展则让每个人都有机会成为发声者,企业有更多方式和渠道获得每 个个体的反馈并提升反馈速度。在新互联网时代,大数据正在改变着人们的日常生活。在本届世界杯上,大数据分析技术不光帮助德国队取得了冠军,在赛事报道 上,社交、移动和大数据技术也正在带来无限的可能性。 过去,传统媒体主要以单向的方式传播信息,例如通过电视转播世界杯比赛,通过报纸报道比赛进展,发表足球评论等。而随着社交和移动技术的发展,每一 位普通球迷都可以利用互联网和社交媒体,以自己独特的角度对一场比赛进行记录。调查发现,在社交媒体上,大多数人和在真实世界里完全不一样,在现实生活中 很多人反而会隐藏一些方面,在社交媒体上的展现更接近真实自我。这一切变化,让人与人、人与媒体之间的沟通与连接也随之改变。 在2014年世界杯上,腾讯首先突破,通过与IBM合作,利用社交媒体数据分析系统对网络上球迷热议话题、球迷性格进行分析,利用大数据分析技术改变传统的报道方式。 大数据技术读懂球迷心声 我们日常生活中产生的数据,20%是结构化的数据,例如企业通过内部IT系统收集的信息或者通过机器和传感器收集的数据,而在数据资源中高达80% 是非结构化数据,例如电子邮件、图像、音频、视频以及社交平台上的信息等。传统的大数据分析面对的是如何管理、调配海量数据的问题,而与传统的结构化数据 相比,非结构化的社交数据是人产生的,这其中不仅包括成文的句子,还包括网络用语、表情,甚至错别字等。例如,在社交平台上,球迷对于一个球星的态度不会 是明确的喜欢或者厌恶,而会以各种各样不同的方式表达出来,其真正的态度究竟是支持还是否定,是需要IBM通过分析给出结论的。如何让机器理解大量的人类 语言背后隐藏的情感?将大量的非结构化数据转换为结构化数据是社交大数据分析面临的首要难题,这不仅需要IT技术的支持,也需要心理学、语义分析等知识和 技术的综合运用。 为深度挖掘社交平台上形式丰富的非结构化信息,提取有指导意义的洞察,IBM构建了Blue Pulse系统,利用机器自学习方法和自然语言分析技术,倾听网民“心声”。 ﹒命名实体识别:在处理非结构化数据时,不管球迷通过任何设备录入信息,都有一些文字没有标点符号,不同的短语在中文里有着不同的含义,需要IBM利用技术把人名、球队名等识别出来,以便进一步的分析。 ﹒话题检测:该技术帮助识别网友讨论的话题。 ﹒语义情感分析:在理解球迷讨论的话题后,利用该技术可以判断球迷的立场是支持还是否定,从而获得球迷情感上的倾向。 ﹒网络关系抽取:社交平台上聚集了众多球迷,讨论各种类型的话题,利用网络关系抽取技术,对出球迷集中讨论的众多话题进行综合分析,IBM将话题间真正有价值、有分析意义的内容关联出来。 在以上四大核心技术的基础上,通过对社交数据进行分析,IBM还能够对球迷的性格进行绘制,例如,通过分析阿根廷队梅西的粉丝,IBM挖掘到了他们 之间共有的特点。首先,大多数梅西的球迷都是宅男;第二,他们的性格相对内向;第三,他们都多少带有一点悲观主义。利用这些发现,腾讯在相关赛事的报道上 通过风格和内容的调整,使报道更丰富,更加贴近读者。 SoftLayer为大数据提供强大支持 在分析工作的背后,海量的数据是得出精准洞察的基础。根据体育赛事特点,所有数据会以比赛时间为聚集点,爆炸性的涌现。这需要一个高度稳定,并极具 扩展性的基础架构平台来支撑。这次,IBM将Blue Pulse社交大数据分析平台放到了刚刚开放开始提供给对外服务的IBM SoftLayer香港数据中心的公有云平台上。数据量的不确定性对计算资源的弹性要求很高,能够快速部署的云计算才能给予最好的支持。因此,大数据往往 和云计算自然而然的连在一起。数据量激增时,SoftLayer云计算平台快速部署服务器,调配更多的计算资源和存储设备来支持系统正常运行。在数据量降 低时,可以通过释放计算资源,节约成本。 IBM大数据分析技术与体育赛事的合作才刚刚开始,在其他行业,IBM很早就开始进行多方面的尝试。例如帮助快消企业快速了解市场对产品的反馈,通 过快速评估为市场策略调整提供依据。和以往的市场调查相比,社交大数据分析反馈更快,更为灵活。目前,IBM已经帮助领先的快消企业倾听社交媒体的声音, 获得产品、服务、竞争对手和市场方面的反馈,更好的实现与消费者的互动,真正为产品生产、设计、包装等各部门提供实际有效的建议。未来IBM社交大数据分 析技术也将开发出更多针对行业领域的应用,帮助企业和行业更好的从大数据中获取价值。 |