搜索
查看: 1977|: 0

大数据,云计算,生物医学——放在一起会是什么效果?

[复制链接]

153

主题

3

回帖

479

积分

中级会员

积分
479
发表于 2014-11-19 10:33:09 | 显示全部楼层 |阅读模式
  随着互联网的普及和技术的发展,大数据和云计算已经渗透在人们的生活的各个方面,在金融,零售,能源,交通等领域已经得到广泛应用。而对于生物 信息来说,生物的DNA,基因序列,生物芯片等无时无刻不产生新的数据;比如说,DNA测序每年能够产生大约150亿兆(PB级)的数据,如果将这些数据 存储在DVD中,那么刻录出来的DVD能够达2.5英里高。生命科学的数据来源和形式多样,包括基因测序、分子通道、不同的人群等。每个临床试验需要千上 万病患的数年统计资料,而DNA测序的每个样本产生的数据则以兆兆位计算;如果能高效、高速地利用这些大数据,无疑将为生命科学领域带来无限机遇,但如何 分析利用也带来了全新挑战。生物云计算便能很好的解决这些问题;
  1)云存储:利用世界上成百上千台服务器云,通过分布式计算系统,取得廉价、便捷的服务;
  2)云计算与大数据分析:通过大数据处理软件将复杂,繁琐的数据通过可视化,简单化的方式呈现出分析结果。
  大数据,云计算,生物医学——三个炙手可热的关键字和在一起会是什么效果?从应用角度出发,这个可以是SaaS,可以是PaaS;下面介绍一些 国内外的生物云计算公司,从四个方面来重点介绍一下在云出现的比较有影响的在云端生物学大数据的应用。这四个方面分别是基因测序,临床药物研发管理以及健 康管理
  1) DNAnexus

  DNAnexus 是一家致力于打造云端 DNA 数据库的创业公司,并把这些数据提供给研究人员和科学家。目的是将更多基因存储至云端,实现基因的便捷的访问和对比分析。该项目同时还提供人类基因数据备 份,基因检索和配对等。通过检索和配对,医生可以从数千万的基因信息中找到对病人有效的药物。目前 DNAnexus 的用户已经包括斯坦福大学和哈佛大学等高校,制药公司,某些医生也会通过DNA 信息来诊断病情。公司提供的服务初衷解决在实验室经过测序仪大量数据的问题,人类基因测一次数据,原始数据在100个G到600个G之间,通过服务导入到 云服务平台,后来提供了非常灵活的多样化的各类各样的关于数据的测序分析和比对的工作流程,数据可以有效的管理起来,并且测序结果能够很好的以用户很好的 形式展现出来。该公司获得Google领投的1500万美元的融资。2014年1月,Google基因组开启了基因组云存储服务,目前谷歌基因组存储数据 费用为100GB数据25美元一年,可满足单个人的原始基因信息存储。且在经过谷歌特殊算法的处理后,可压缩至1GB,费用也将降至25美分。
  2)Seven Bridges Genomics

  SevenBridges Genomics是美国一家创业公司,主要提供基因排序研究和生物制药产品服务,实现生物信息的可视化,数据分析等方面。Seven Bridges Genomics在人类基因组排序和分析中综合应用了云计算和NoSQL数据的技术,比如EC2、S3和MongoDB。为了降低数据存储成本,他们还采 用了Glacier。Seven Bridges PaaS提供了一个设置数据通道的界面,这些通道可以基于预定义的模型,也可以根据当前任务进行调整。
  3)crossbow

  Crossbow是一款能够用于完整基因组重新排序分析的工具。经过对多个类库进行整合,它可以借助AWS只花不到100美元的成本在3小时之 内分析完一个人类基因组。对于有志于从事生物信息的开发人员来说,这是一个非常好的工具。这是对全基因分析的流程软件,它的意义在于原来开发之前,完成一 个人健康分析的在单个服务器,这软件通过亚马逊云平台上的Hodoop把时间缩小了。结果来看,它现在在32CPU核上任务压缩3小时不到,整个成本不到 100美元,这是众多工作中的一部分。
  4)Explorys

  Explorys公司成立于2009年,是一家临床医疗数据管理应用公司,是克利夫兰诊所派生的创新公司。公司利用大数据提高医疗水平和服务质 量。公司通过最强大的医疗计算平台把各个系统的数据联系在一起,提供完整的临床整合、高危人群管理、医疗费计算解决方案以及业绩计薪解决方案。该平台拥有 2050亿临床、财务、运行数据元,覆盖3800万名患者、300家医院、215,000多名医疗服务提供者。18家大型综合医疗系统正在使用可靠的 Explorys云计算平台确定疾病的类型、治疗方案和治疗效果。它是基于私有云的模式,向第三方机构提供服务,第三方机构可以把自己临床数据、运维数据 财务数据托管到这个平台来,这个平台提供最大的好处能实时提供数据分析,这个规模托管了1300万人,大概4400亿的内容,数据规模在60个TB左 右,2013年达到70个TB,顶层技术在Hodoop上走的。
  5)Illumina

  Illumina公司是遗传变异和生物学功能分析领域的优秀的产品、技术和服务供应商。Illumina销售各种各样的DNA相关产品,包括基 因测序仪器、分析相关数据的软件和服务。通过帮助客户加快实现生物信息的采集、分析和应用,来改善人类健康。当前,Illumina拥有基因组测序仪市场 70%的份额。公司今年1月,Illumina发布了新款高端基因测序仪,可以准确测出全基因组序列,而成本还不到1000美元。当前,基因组测序已经不 再是一个简单的研究工具,读取人类全部DNA的费用已经降至足够低,甚至可以用来解决一些医疗问题,并确定治疗方案。
  6)癌症云存储
  2014年9月24日,美国癌症研究中心在美国联邦政府商务机会网站上发出公告,其于今年1月发起的癌症基因组云计算平台试验项目花落The Broad Institute,Institute for SystemsBiology和Seven Bridges Genomics, Inc.,三家分别获得了700万、650万和580万美元的资助。NCI启动此项目时发布的Broad Agency Announcement很好地阐述了一个大型科研机构或科研项目对云计算生物信息系统在各个方面的要求,包括核心数据、架构、计算服务、分析能力、权限 管理、安全性、可扩展、数据标准等等,并提出了如何从这些角度评价一个云计算生物信息系统的基本考虑。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-11-23 15:16 , Processed in 0.075782 second(s), 25 queries .

快速回复 返回顶部 返回列表