我们比较常见的大数据应用,都普遍集中在电商、医疗等方面。而对于科技上的大数据,普通人可能了解甚少。现在,在科技方面扩大地球大数据处理的领域,EARTHSERVER项目能够让研究人员访问和分析从多种渠道获取的多维数据。 地球科学,如地质学,海洋学和天文学,产生海量的大数据。但没有合适的数据分析工具可利用,科学家们要么淹没在地球大数据海洋中,要么是大数据躺在档案馆里沉睡,很少被数据分析利用。 EARTHSERVER项目的愿景是,为研究人员提供“指尖上的地球大数据”,这样他们仅仅通过点击几次鼠标就可以访问和处理海量数据集。 项目协调员,来自德国不莱梅雅克布大学计算机科学专业教授彼得·鲍曼说,“项目是‘推’和‘拉’合力的结果。”在需求方面,我们有处理海量数据的需求。在供给方面,我们有数据立方体技术适合这个领域。数据立方体是一个三维(或更高)数组的值,常用来描述时间序列的图像数据。 EARTHSERVER项目建立了更加先进的数据立方体技术和定制门户网站,使研究人员用三维数据集,二维题图或一维图提取和数据可视化地球科学成为可能。例如,英国地质调查局利用EARTHSERVER技术,用三维方法穿透地球的不同层。 “对于用户来说,数据立方体能够隐藏不必要的复杂数据,”鲍曼教授说。“作为用户,我不想看到一百万个文件:我只想看几个数据立方体。” 地球科学中的海量数据是由传感器、图像,模拟和统计数据来描述,通常都与时间维度相关联。数据通常形成规则或不规则的网格值和时间/空间坐标。EARTHSERVER使这些数组成为数据立方体。 除了使用方便,数据立方体还可以整合不同学科的数据,而且科学家们可以将测量数据与仿真数据相结合。 为了有效地处理地球大数据,EARTHSERVER项目需要提高现有技术和标准。例如,SQL数据库查询语言更多地面向字母数字数据的操作。 为了成为数据立方体,这个项目需要在rasdaman基础上建设,这是一个新的数据库管理系统,专门用于多维网格数据,calledrasters数据和数组。Rasdaman能够从任何规模的地球大数据数组中灵活、快速地提取数据。 “实际上,我们促成了SQL数据库语言与图片处理技术的联姻,”鲍曼教授说。“这是现在成为ISOSQL标准的一部分。” 此外,该项目已经对欧洲空间数据基础设施,开发地理空间信息联盟的地球大数据标准产生了重要影响。 EARTHSERVER项目的研究人员还开发了一个‘语义并行化’技术,将一个单一数据库分为多个子查询库。这些都被发送到其它数据库服务器上进行处理。 这种方法允许EARTHSERVER分配单个输入查询到超过1000个云节点上,而且能够在不到一秒钟的时间里快速回答数千兆兆字节的查询。
|