CSIRO使用无服务器计算机分析人类基因组

据估计,到2025年,世界上50%的人口将进行基因组测序,根据英联邦科学和工业研究组织(CSIRO)的生物信息学转化小组组长Denis Bauer博士的说法,基因组数据将超过Twitter、YouTube和天文学的总和。

  基因组学是研究个人DNA中编码的信息,使研究人员能够研究基因如何影响健康和疾病。

基因组为个人身体中的每一个细胞提供了蓝图,由于基因组中编码了如此多的信息,澳大利亚的峰值研究机构正投入巨资探索其可能性,这一点也不足为奇。

周三在堪培拉举行的AWS公共部门峰会上,鲍尔详细介绍了CSIRO如何利用亚马逊网络服务基础设施来构建几年前似乎不可能实现的基因组应用程序。

她说,基因组学每年产生惊人的20兆字节的数据,并指出如此大量的数据是如何带来三个主要问题的。

她解释说:“一个技术问题是,要获得大量的数据并不容易,特别是当我们谈论每个人的每个基因组40G时。”

“我们也经历了可负担的工作量,临床医生可以和其他10,000名临床医生同时访问这些资源,但在下一分钟,它可能会下降到零,因此我们不想为一个可以处理那么多数据的工作量买单,然后下次什么都没有,它只是无所事事。”

“第三个问题是整合筒仓的数据。”

鲍尔说,由于不同司法管辖区之间的隐私规定不同,世界基因组数据不太可能整合到一个单一的实体中。因此,她说,处理分布式系统必须是那些参与其中的人习惯的事情。

鲍尔领导的变革性生物信息学团队拥有使用最新的云和BigData基础设施为研究和工业开发新的生物信息学解决方案的章程。

它特别关注基因组学、转录组学和甲基组学的群体规模分析,以及基因组工程应用。

鲍尔在澳大利亚最大的数字卫生机构CSIRO的电子健康研究项目中工作。鲍尔说,这些团队的重点是通过使用数字技术和服务来改善医疗保健。

CSIRO本周发布了其“健康的未来”(PDF)报告,其中概述了该组织对澳大利亚医疗保健的15年愿景。

正如报告的标题所解释的,CSIRO的主要理念是将澳大利亚的重点从疾病治疗转移到健康和福利管理。

鲍尔补充说:“这其中最大的信息之一是,我们需要停止被动反应,治疗疾病,在疾病真正成为症状之前预防和感染疾病,而数字健康是其中的一个关键主题。”

报告中的另一个主题是精确医学,为了实现这一愿景,鲍尔说,CSIRO已经开发了VariantSPark,这是一个用于基因组数据分析的Hadoop/SPark机器学习库。

她解释道:“它建立在Apache核心上,你能做的是你可以旋转一个Apache火花集群,直接在AWS上分析你的数据。”

“将我们在基因组中发现的信息纳入到实际的临床实践中并对其做出决定并不是一件简单的事情,为此我们开发了GenPhen-Insight,这是一种将医学数据与基因组数据结合起来的工具,以提高实时、治疗诊断和治疗结果或建议。”

“专为适应未来对基因组数据日益增长的需求而设计的。”

VariantSPark使用AWS Lambda,一种随需即用的无服务器计算服务,CSIRO的基因组文件都位于S3上的一个数据库中。

另见:AWS Lambda:聪明人指南(TechRepublic)

“我们从一个基础设施开始,然后调整它,以获得更好的性能,并做我们想做的分析,”鲍尔说。“我坚信,一旦你变得无所事事,你就再也不会回去了。

“创新的速度是令人难以置信的–你可以在几秒钟内以最低的成本站起一个最小可行的产品,你不需要考虑底层的基础设施。”

未经允许不得转载:先锋信息网 » CSIRO使用无服务器计算机分析人类基因组