全球最大的社交网络Facebook目前每天新产生的数据条目超过25亿项,数据总量超过500TB,其中包括3亿张照片和27亿个赞 (Like)。那么Facebook是如何处理如此庞大的数据量呢?Facebook的数据架构从2005年开始,是由其CEO Mark Zuckerberg使用Memcache和MySQL进行数据存储和管理,在当时收到了良好的效果。
但是随着用户量和数据量的飞速提升,同时使用Memcache和MySQL对Facebook的改变-修复-发布的快速开发生命周期带来了阻碍,直 接体现在产品bug,系统同步不一致甚至性能问题。为了解决这个问题,Facebook针对社交图谱(Social Graph)专门开发了TAO (“The Associations and Objects”)分布式数据库,承载着几千种数据类型,并可做到每秒100万读操作和几百万写操作,可有效解决社交网络热点引爆传播时,对特定资源的过 量访问等典型问题。
Facebook的CEOMark Zuckerberg在谈及2013年第一季度战略时,特别提出不对盈利做过多需求,重点是基于大数据的以下功能:
1、发布新的广告产品,比如类似好友,管理特定好友和可以有效提升广告商精确投放的功能。
2、与Datalogix, Epsilon,Acxiom和BlueKai达成合作伙伴计划,以加强广告商定向投放广告的能力
3、通过收购Atlas Advertising Suite,加强广告商判断数字媒体广告投资回报率(ROI)的能力。
从上述计划不难看出,Facebook要通过大数据实现广告精准投放,特别是收购Atlas,更是剑指Google,因为Atlas是目前世界第二 大广告平台,仅次于Google旗下的DoubleClick 。作为世界上最大的搜索引擎,Google和大数据又会是怎样的关系呢?Google的创始人谢尔盖-布林和拉里-佩奇是两位斯坦福大学的博士生,在其影 响下,Google在学术界和工业界的十字路口所碰撞出的火花,产生了大数据的奠基石,这三个基础产品分别是2003年发布的GFS(Google File System), 2004年发布的Map Reduce和2006年发布的BigTable。
GFS是第一个大规模商用的分布式文件系统,MapReduce是用于大数据并行计算的软件架构,Big Table则被认为是现代NOSQL数据库的鼻祖,为大数据的计算实现提供了可能,现在涌现出的各种文件系统和NOSQL数据库不可否认的都受到 Google这些早期项目的影响。
著名的《连线》杂志在 2012年曾报道称,GFS和Map Reduce“重塑了谷歌建立搜索索引的方式”。而Google的产品线本身也必须靠大数据来支撑:搜索,广告,地图,图像,音乐,视频等,都是需要根据 不同种类数据建立模型进行优化,进而提升用户体验,提升市场占有率。在一切即服务(Anything as a Service)的风潮下,Google为了抢占大数据存储和分析的市场,2011年推出了BigQuery服务。BigQuery的功能定义非常清晰, 基于Google的基础架构为客户提供大数据的查询服务和存储服务,与Amazon的AWS服务有异曲同工之处。
BigQuery查询支持命令行,浏览器和BigQuery REST API ,并且已经有多家第三方服务中集成了BigQuery可视化或查询工具。如果BigQuery结合GAE(Google App Engine)等Google自有的业务服务器,Google就已基本具备了大数据生态圈,可以构建程序创建,数据收集,数据处理和数据分析的大数据闭环 (如下图)。这使得Google进军企业级市场的决心,从BigQuery的价格体系来看,相对AWS也有一定的竞争力,但是目前从市场占有率上看与AWS还不在一个数量级。
Google的另外一项广受欢迎的产品是Google地图,从苹果公司在iOS 6用自己的地图应用替换掉Google Maps所受到的诟病可以看出,Google Maps在广大用户心中无以伦比的地位。2012年的数据显示,Google Maps拥有超过2亿的移动用户,被110多万个网站所使用,帮助人们导航了120亿英里的路程,在移动地图市场拥有超过40%的市场占有率。在 Google I/O 2013上,Google发布了新版的Google Maps,其中集成了大量大数据的特性。
首先,在你输入一个地点时,最近被最多用户采用的路径会被最先推荐给用户,相对冷僻的路径会被弱化以细线条进行标示,而且为了更好的用户体验,新版 本进行了令人吃惊的性能优化,对处理能力和网速的要求甚至低于旧版本,每个用户的输入都会以最快速度返回给客户端,设想一下Google Maps中现在几乎已经标示了全球有互联网覆盖的每个角落,这其中的数据处理工作量是几乎大到不可想象的,也显示了Google在大数据处理能力上的领先 地位。目前对建筑物的3D视觉处理也已经完成,新版地图里可以看到建筑物的360景观,对于路痴简直是无比的福音。
新版 Google 地图另外一个改进就是更漂亮的图像界面,从 Google Earth 的3D图层到著名景点的虚拟导览,这些美妙体验的背后是复杂繁琐的数据处理过程。Google 把Google+,Panoramio和其他Google云平台的图片进行了标记和处理,将图片内容和地理位置信息巧妙地结合在一起,在特有的图像识别技 术和社交系统评分处理后,将高质量的图片推送给用户,而用户完全不会感到所看的同一地点的图片有生硬的机械感。
大数据为互联网企业带来了丰厚的利润,比如无处不在的Google广告(AdSense ),已经成为站长们的福音,在全球的网页上展示和推送给客户最可能产生点击的广告,为网站带来丰厚的收入。但由此引发的用户隐私问题,也曾一度将 Google推上舆论的风口浪尖:假如用户搜索记录泄密,将会带来严重的问题;而Facebook近期的系统bug导致600万用户资料泄密,也是大数据 风险的又一实证。如何处理好大数据有效使用和安全隐私的平衡,将会是每一个企业和组织将会长期面临的问题。