美国国防部研究计划旨在通过开发自动搜索技术来进行先进大数据分析,该自动搜索技术可以帮助解释“大数据”中的原因和效果的关系。 本年度初,美国国防高级研究计划局(DARPA)启动其“大机理”(Big Mechanism)项目,目的是发展可以发现隐藏在大数据中的因果关系模型。典型“大机理”例子就是,1854年的伦敦地图显示爆发霍乱和被污染的公共水泵之间的联系。该发现推翻了当时认为霍乱是通过空气传播的认识。 DARPA项目经理保罗·科恩在展示其此前研究结果时说:“大数据中包含复杂的经济、大气和生物数据等,但这不等于理解了他们之间的深度关联。这些系统中因果之间的深度关联网称为‘大机理’。由于‘大机理’包含在巨大、零碎,甚至有时相互矛盾的文献和数据库中,没人可以准确理解如此复杂的系统,所以必须依靠计算机。” DARPA信息创新办公室本年初发布了该项目的初始需求,来发展相关技术,例如分析研究论文来提取可解释因果联系的细节。DARPA办公室最初使用“大机理”工具来研究导致细胞癌变的复杂分子之间的相互作用。该方法包括使用电脑扫描癌症类论文,来获取癌症路径的有关数据。获取的数据片段可以组成“前所未有规模和精度”的完整路径,以此来确定传递路径如何互动。 最后,自动工具可以帮助确定因果关系,该因果关系可用来开发潜在治疗癌症的方法。科恩说:“分子生物学和癌症文献强调机理,论文描述蛋白质如何影响其他蛋白质的表达,这些影响如何产生生物效果。电脑应该可以被用来分析这些癌症类论文中的因果关系。” 更广泛地说,“大机理”工具可以帮助理解复杂系统,同时帮助研究人员跟上科学期刊产生数据的潮流。在较窄领域研究者可以利用“大机理”工具来扩展他们的视野。根据DARPA的建议方案,科学期刊将成为“大机理”数据库的一部分。DARPA称:“‘大机理’的每一方面将与支撑或相反的数据建立起联系。”科恩说:“通过强调因果模型和解释,大机理将成为科学的未来。”
|