人和未来刷新世界纪录 助力生物信息云计算

  • 来源:重庆晚报
  •  2016-11-11
  •   浏览 752 次

2016年11月4日,基因组云计算技术开发者大会(GCTA)在第11届国际基因组学大会(ICG)上正式公布了历时6个月的全球公开竞赛结果。

本届大赛由今年4月份成立的“中国生物信息云计算产业联盟”倡导发起,集聚华大基因、阿里云、英特尔、百度开放云、华为等单位的技术开发力量,通过汇聚BT和IT行业精英,共同解决基因组学数据大规模存储和计算等方面所面临的挑战。

在众多BT和IT行业精英中,人和未来脱颖而出,成为本届大赛最大的黑马。人和未来CTO宋卓博士代表GTX团队领取了奖杯和证书。人和未来在数据压缩和计算加速两个项目上的成绩均刷新了世界纪录,同时保持了最低的计算成本,将全基因组的计算分析带入百元(16$)时代。

此次大赛的竞赛项目分为以下2个:

1、 数据存储问题:FASTQ数据的高倍数无损压缩

将一个原始FASTQ格式的150GBDNA测序数据文件无损压缩至原来的1/15。

2、 分析计算问题:高效的人类全基因数据分析

30分钟完成55x人类全基因组数据标准分析。

这两个选题瞄准的是生物信息云计算中最重要的两个问题——压缩和计算。只有高效的压缩才便于大规模向云端传输数据,降低云端存储成本;只有高效的计算才能充分体现云端弹性计算应有的优势。解决好这两个问题,就能站在技术制高点上,推动生物信息云计算行业的发展。

双料王,人和未来的两项成绩均刷新世界纪录

本次比赛项目的难度和要求都非常高,吸引了全球300多家机构和个人的参赛,诞生了令人惊喜的成绩,首届GCTA风云挑战赛完美收官。两项比赛第一名的最好成绩均由人和未来生物科技 (北京)有限公司获得,性能如下:

1. 压缩存储:7个测序质量值下,压缩率达到1/18;33个测序质量值下,压缩率达到1/8。

与行业默认标准gzip相比,计算时间为其1/6且压缩后文件大小为其1/4,即压缩效率是gzip性能的24倍。 在这样的极高倍率压缩技术的支持下, 使用百兆网络,就能达到以千兆速度上传数据的效果, 使得大规模测序数据上云成为可能。 此外,若按照AWS云每gb云存储成本0.03美金/月计算。该高倍率压缩技术将能让每1000人的测序数据云存储,每月节省1.1万美金,大幅降低云存储成本。 该技术突破,作为一项重要的基础性工作,为整个行业的基因信息计算上云铺平了道路。

2. 加速计算:18分钟完成400G 55x人类全基因组分析。

不仅如此,人和未来在计算加速比赛的成绩也刷新了世界记录:400G(55x)全基因组数据分析,利用AWS上的300台机器,将分析时间从单台服务器的30个小时,缩短为18分钟,机时费用仅为$16,将全基因组计算带入百元时代。对比单台标准服务器,数据分析速度提高了90倍,可节约75%的云计算机时费用。

基因测序技术日渐普及,基因检测的核心竞争力已经不仅限于测序产生数据的能力,大数据、高性能计算、机器学习这些IT领域里面的热词和标签会出现在越来越多的基因检测公司身上。BT与IT的结合,相信能实现技术创新,用科技的力量推动和加快精准医疗的发展,对全行业发展具有重大意义。

To Top