生信在线讲座:基于机器学习的多组学数据联合分析
在三月月份 DahShu 和硅谷生信社群免费线上讲座中,将聚焦生物信息基因测序领域, 邀请了来自硅谷的明星创业公司 -- 基因测序数据软件 Sentieon 高级数据科学家胡晋南博士 (Dr. Frank Hu) 同我们分享 Sentieon 如何利用机器学习算法、软件和系统优化,使公司在创业初期就跻身成为业界第一快速、准确的商业机密。
讲座嘉宾:
- Dr Frank Hu,胡晋南博士,Sentieon Senior Bioinformatics Scientist
胡博士目前担任 Sentieon 的高级生物信息学科学家,负责产品周期管理并推动 Sentieon 在亚洲市场(尤其是中国)的业务成功。胡博士于2008年获得南京大学的学士学位,2013年获得俄亥俄州立大学的基因组学博士学位,并在 Joint Genome Institute, Lawrence Berkeley National Laboratory 从事计算生物学的博后工作。 胡博士在 NGS 数据分析方面拥有丰富的经验,以第一作者身份在同行评审期刊上发表了多篇论文。 本期 DahShu 讲座,胡博士将同我们分享 Sentieon 是如何利用机器学习迅速成为 NGS 测序数据软件的世界冠军。
讲座时间
北京时间3月10日,周三上午9:00
报名链接
点击链接报名:https://mp.weixin.qq.com/s/fKwNyt2aGKBX2OJGDtbzRg
点击链接申请Sentieon软件:https://www.insvast.com/sentieon
作为一名生信领域的研究人员,小编在进行二代测序数据分析时(如SNP/ Indel 突变检测),最常用的就是用 Broad Institue 开发的 BWA+GATK 流程对原始测序数据进行处理。而经过十多年大量样本的反复验证,BWA+GATK 也得到了学术界和业界的广泛认可,是公认的测序数据原始处理的金标准。
但是,BWA + GATK 流程也有几个显著的问题:
- 高计算成本:流程时间长,资源利用率低 。
- 测序深度区域的随机降采样降低了突变检测的灵敏度和准确度。
为了从根源上解决测序数据分析工具的短板,Sentieon 创始人叶军团队提出了三个层次来提升 BWA+GATK:
- 数学模型;
- 计算机的算法,即如何把一整套数学公式在计算机上用高效的方法去实现;
-
用程序也就是计算机语言分解落实到每个细节。
image.png
首先,Sentieon 基于 BWA+GATK,并不断完善其数学模型,将原本不能提取的基因组信息完整。同时,优化的算法让 Sentieon 拥有极速周转时间和超低成本: 对于一个30X WGS全基因组测序流程,在分布式计算处理中流程小于30分钟,在单个服务器中流程小于2小时 ---- 大大减少了运算时间和成本,同时结果与 BWA/GATK保持近乎100%一致。
此外,Sentieon还开发了在通用CPU上运行的快速、准确的辅助分析流程,且十分容易部署在本地或者云端,涵盖了 BCL conversion, alignment, germline and somatic variant calling。Sentieon 还开发了具有机器学习功能的 DNAscope 和TNscope 流程,以实现一流的变体调用准确性,并且可以轻松地适应许多测序平台,包括Illumina,MGI 和 PacBio。
自从 Sentieon 2015年正式推出软件产品以来,多次赢得国际生信大赛的第一名或并列第一名:
· 2016 PrecisionFDA Truth Challenge
· 2016 PrecisionFDA Consistency Challenge
· 2016 ICGC-TCGA-DREAM Somatic Mutation Calling Challenge
· 2017 PrecisionFDA Hidden Treasures - Warm Up
· 2018 PrecisionFDA NCI-CPTAC Multi-omics Enabled Sample Mislabeling Correction Challenge, both subchallenge1 and subchallenge2
· 2019 Bio-IT Innovative Practices Awards
· 2019-2020 Sentieon 在 precisionFDA多组学数据挑战赛夺冠
Sentieon 优异的表现也来源于其不断将机器学习和AI 应用到多组学分析中,以实现softPharma 更广阔的视野。与传统的“大数据”机器学习问题不同,多组学的主要挑战在于其小样本、高维度的特质,即每个样本都有深层数据。自2018年以来,Sentieon 参加并赢得了 PrecisionFDA 的三项多组学 AI 建模挑战,展示了其解决这些问题的能力
