解析基因组的“语言”：戈登贝尔奖决赛选手使用大型语言模型来预测新冠病毒变异株-电子工程世界

解析基因组的“语言”：戈登贝尔奖决赛选手使用大型语言模型来预测新冠病毒变异株

来自美国阿贡国家实验室、NVIDIA、芝加哥大学等组织机构的研究员开发了一个处理基因组规模数据的先进模型，并入围戈登贝尔COVID-19研究特别奖决赛。

这一戈登贝尔特别奖旨在表彰基于高性能计算的COVID-19研究。一位决赛入围选手教会了大型语言模型（LLMs）一种新的语言——基因序列，使这些模型能够提供基因组学、流行病学和蛋白质工程方面的洞察。

这项开创性的成果发表于10月，是由来自美国阿贡国家实验室、NVIDIA、芝加哥大学等组织机构的二十多名学术和商业研究员合作完成。

该研究团队训练了一个LLM来追踪基因突变，并预测需要关注的SARS-CoV-2（导致COVID-19的病毒）变异株。虽然迄今为止大多数应用于生物学的LLM都是在小分子或蛋白质的数据集上训练的，但这一项目是在原始核苷酸序列（DNA和RNA的最小单位）上训练的首批模型之一。

负责带领该项目的阿贡国家实验室计算生物学家Arvind Ramanathan表示：“我们假设从蛋白质水平到基因水平的数据有助于我们构建出更易于理解新冠病毒变异株的模型。通过训练模型去追踪整个基因组及其进化过程中的所有变化，我们不仅能够更好地预测COVID，还能预测已掌握足够基因组数据的任何疾病。”

戈登贝尔奖被誉为HPC领域的诺贝尔奖。今年的戈登贝尔奖将在本周的SC22上由美国计算机协会颁发。该协会代表着全球约10万名计算领域的专家，自2020年开始向使用HPC推进COVID-19研究的杰出研究员颁发特别奖。

在一种只有四个字母的语言上训练大型语言模型

长期以来，LLM一直在接受人类语言的训练，这些语言通常由几十个字母组成，可以排列组合成数万个单词，并连接成长句和段落。而生物学语言只有四个代表核苷酸的字母，即DNA中的A、T、G和C，或RNA中的A、U、G和C。这些字母按不同顺序排列成基因。

虽然较少的字母看似会降低AI学习的难度，但实际上生物学语言模型要复杂得多。这是因为人类的基因组由超过30亿个核苷酸组成，而冠状病毒的基因组由大约3万个核苷酸组成，因此很难将基因组分解成不同、有意义的单位。

Ramanathan表示： “在理解基因组这一 ‘生命代码’的过程中，我们所面对的一个主要挑战是基因组中的庞大测序信息。核苷酸序列的意义可能会受另一序列的影响，以人类的文本做类比，这种影响的范围不仅仅是文本中的下一句话或下一段话，而是相当于一本书中的整个章节。”

参与该项目协作的NVIDIA研究员设计了一种分层扩散方法，使LLM能够将约1500个核苷酸的长字符串当作句子来处理。

论文共同作者、NVIDIA AI研究高级总监、加州理工学院计算+数学科学系布伦讲席教授Anima Anandkumar表示：“标准语言模型难以生成连贯的长序列，也难以学习不同变异株的基本分布。我们开发了一个在更高细节水平上运作的扩散模型，该模型使我们能够生成现实中的变异株，并采集到更完善的统计数据。”

预测需要关注的新冠病毒变异株

该团队首先使用细菌和病毒生物信息学资源中心的开源数据，对来自原核生物（像细菌一样的单细胞生物）超过1.1亿个基因序列进行了LLM预训练，然后使用150万个高质量的新冠病毒基因组序列，对该模型进行微调。

研究员还通过在更广泛的数据集上进行预训练，确保其模型能够在未来的项目中推广到其他预测任务，使其成为首批具备此能力的全基因组规模的模型之一。

在对COVID数据进行了微调后，LLM就能够区分病毒变异株的基因组序列。它还能够生成自己的核苷酸序列，预测COVID基因组的潜在突变，这可以帮助科学家预测未来需要关注的变异株。

在长达一年时间内积累的SARS-CoV-2基因组数据的训练下，该模型可以推断出各种病毒株之间的区别。左边的每个点对应一个已测序的SARS-CoV-2病毒株，并按变异株颜色编码。右图放大了该病毒的一个特定毒株，它捕捉到了该毒株特有的病毒蛋白进化耦合关系。图片由美国阿贡国家实验室的Bharat Kale、Max Zvyagin和Michael E. Papka提供。

Ramanathan表示： “大多数研究员一直在追踪新冠病毒突刺蛋白的突变，尤其是与人类细胞结合的域。但病毒基因组中还有其他蛋白质也会经历频繁的突变，所以了解这些蛋白质十分重要。”

论文中提到，该模型还可以与AlphaFold、OpenFold等常见的蛋白质结构预测模型整合，帮助研究员模拟病毒结构，研究基因突变如何影响病毒感染其宿主的能力。OpenFold是NVIDIA BioNeMo LLM服务中包含的预训练语言模型之一。NVIDIA BioNeMo LLM服务面向的是致力于将LLM应用于数字生物学和化学应用的开发者。

利用GPU加速超级计算机大幅加快AI训练速度

该团队在由NVIDIA A100 Tensor Core GPU驱动的超级计算机上开发AI模型，包括阿贡国家实验室的Polaris、美国能源部的Perlmutter以及NVIDIA的Selene系统。通过扩展到这些强大的系统，他们在训练中实现了超过1500 exaflops的性能，创建了迄今为止最大的生物语言模型。

Ramanathan 表示： “我们如今处理的模型有多达250亿个参数，预计这一数量未来还会大幅增加。模型的尺寸、基因序列的长度、以及所需的训练数据量，都意味着我们的确需要搭载数千颗GPU的超级计算机来完成复杂的计算。”

研究员估计，训练一个具有25亿参数的模型版本，需要约4000个GPU耗时一个多月。该团队已经在研究用于生物学的LLM，在公布论文和代码之前，他们在这个项目上已耗时约四个月。GitHub页面上有供其他研究员在Polaris和Perlmutter上运行该模型的说明。

NVIDIA BioNeMo框架可在NVIDIA NGC中心上的GPU优化软件中抢先体验。该框架将帮助研究员在多个GPU上扩展大型生物分子语言模型。作为NVIDIA Clara Discovery药物研发工具集的一部分，该框架将支持化学、蛋白质、DNA和RNA数据格式。

在SC22上莅临NVIDIA展台并观看以下特别演讲回放：

头图是研究员的LLM所测序的新冠病毒株。每个点都按新冠病毒变异株进行了颜色编码。该图由美国阿贡国家实验室的Bharat Kale、Max Zvyagin和Michael E. Papka提供。

头图是研究员的LLM所测序的新冠病毒株。每个点都按新冠病毒变异株进行了颜色编码。该图由美国阿贡国家实验室的Bharat Kale、Max Zvyagin和Michael E. Papka提供。

关键字：基因戈登贝尔奖新冠病毒引用地址：解析基因组的“语言”：戈登贝尔奖决赛选手使用大型语言模型来预测新冠病毒变异株

上一篇：应对医疗设备组件面对的技术挑战
下一篇：结合无线电刺激和生物传感器，智能绷带促伤口无痕修复

推荐阅读最新更新时间：2024-11-01 05:08

英特尔与博德研究所携手加强基因组学研究解决方案

今天我们迎来了基因组学研究领域一个重大里程碑，英特尔很高兴能够参与推动这三项重大进展：隶属于麻省理工学院和哈佛大学的博德研究所开源了GATK4的源代码，这一全球最受欢迎的基因组分析软件，如今又实现了重大进步。英特尔和博德研究所开发了一个名为 “博德-英特尔基因组学堆栈（BIGstack）”的突破性参考架构方案，采用英特尔处理器、Omni-Path Fabric和固态盘等技术，使得博德基因组学分析流程提升了5倍的性能。这个堆栈还包括针对即将发布的英特尔CPU+FPGA集成产品的优化。中国基因组学研究领域的领导者华大基因宣布采用最新的GATK工具，包括博德和英特尔的优化方案。在快速发展的基因组学领域，这是迈向全球化联盟的突破性

[医疗电子]

世界首块高血压病基因诊断芯片问世

　　日前，由中南大学周宏灏院士领衔、历经20余年研制的“个体化药物治疗基因诊断芯片和试剂盒系列产品”，通过了市科技局组织的验收。据专家介绍，该芯片是世界上首块可指导高血压病个体化药物治疗的基因芯片。　　项目组专家刘利辉告诉记者，个体化药物治疗基因诊断芯片在攻克高血压诊治难关后，开始向恶性肿瘤、糖尿病等对诊断和用药要求精细的疾患发起总攻。病人就医时，携带存储有药物代谢及药物疗效相关的个体基因“名片”，经人机会诊，查明人体与疾病“作战”实况，医生将据此开出更精细的药方。

[焦点新闻]

北大教授：材料单元做“基因”，生出各式锂电正极材料

近日，北京大学深圳研究生院新材料学院潘锋教授、郑家新副教授在《国家科学评论》（National Science Review， NSR）上共同撰写观点文章“‘Structure units’ as materials genes in cathode materials for lithium－ion batteries”，分析锂电池正极材料中的结构基元如何决定其内在物理化学性质（导电性、离子迁移、结构稳定性、热稳定性和电荷转移性质），起到“材料基因”的作用。鉴于文章的内容丰富精彩，OFweek 锂电网在忠于原文基础上，将原文翻译后整理成下文：晶体的基本结构单元是晶格原子及其配位环境。它们以特定的组合（如空间群）

[汽车电子]

北大教授：材料单元做“<font color='red'>基因</font>”，生出各式锂电正极材料

IBM的创新基因

明年IBM就成为百年老店。 “但当我们谈到如何庆祝百岁的时候，我们并不是在谈过去有多好，而是把注意力放在让它成为拥有下一个更创新、更成功的百年企业上。” 在IBM中国研究院庆祝成立15周年时，IBM大中华区总裁钱大群这样引出研究院对一个企业的意义。在不断“改朝换代”的IT行业，创新是基业长青的重要基因，研究院则是承载创新基因的染色体。 IBM研究院则是IBM的创新思想和技术泉涌的地方。在这里，那些对IT业界甚至人类生活影响深远的发明诞生，如语音识别、存储单元、千万亿次超级计算机……今天，IBM研究院正在研究的下一代计算系统、分布式计算、人机交互等，也许是未来人们津津乐道的技术。 9月16日，IBM中国

[半导体设计/制造]

马来西亚新冠病毒肆虐，芯片供应短缺情况或进一步恶化

集微网消息，“随着新冠病毒在马来西亚肆虐，芯片供应短缺情况将进一步恶化，英飞凌和意法半导体不得不暂停部分生产，汽车零部件MLCC的制造商也受到了影响。”贝恩公司的安妮·霍克（Anne Hoecker）在彭博社撰文分析了半导体供应短缺问题。文章中指出，马来西亚新冠肺炎确诊病例激增，可能会加剧半导体和其他零部件供应短缺的情况，这些问题已经困扰汽车制造商数月。这个东南亚国家历来对技术供应链的重要性不及中国台湾地区、日本或韩国。但近年来，马来西亚逐渐成为芯片测试和封装的“重镇”，英飞凌、恩智浦、意法半导体均在该国设有半导体工厂。现在，马来西亚的疫情持续升温，每天报告的7天平均感染人数已超过20000人，远高于6月底的5000多人

[手机便携]

马来西亚<font color='red'>新冠</font><font color='red'>病毒</font>肆虐，芯片供应短缺情况或进一步恶化

英国开发基因硬盘：1克DNA容量相当300万CD

英国研究人员用人工合成的脱氧核糖核酸(DNA)存储文本文档、图片和声音文件等数据，随后完整读取。　　新介质仿碱基　　位于欣克斯顿的欧洲生物信息研究所研究小组利用DNA存储数据的关键是DNA碱基。DNA这种双螺旋结构上有4个化学基团，即核碱基，它们按照特定顺序排列，组成遗传信息，指导生物体生长发育。　　研究人员开发的DNA数字存储系统同样利用这4个碱基“字母”，开发定制代码，完全区别于生物体所用“语言”。当复制一份计算机文件时，DNA数字存储系统首先把硬盘信息中的二进制数翻译成定制代码，然后借助标准DNA合成机器制造出相应的碱基序列。这一序列并非一个长分子，而是多个重复片段，每一个片段携带一些索引细节，明确各自在整

[半导体设计/制造]

ISSCC上公布了两款有意思的处理器——基因和3D渲染处理器

在本周于旧金山举行的ISSCC上，国立台湾大学发布了一种定制处理器，用于处理数以亿计的短DNA片段，用来分析基因序列时的大量数据。 ISSCC 2.4基因组处理器生物检测工作流程包括四个步骤：短读映射、单倍型调用、变体调用和基因分型，团队着手为所有四个步骤设计处理器。结果是，在单个16.14mm2 28nm管芯上有四个专用硬件加速器，运行频率为400MHz，功耗为2.73W（900mV）。在已知数据集上进行标记，芯片平均在28.2分钟内达到99.79%的精度和99.03%的“灵敏度”。在具有64个AMD CPU核、512Gb DRAM和FPGA加速器的服务器上，同样的任务得分相似：98.54–99.79

[嵌入式]

国内首个二代基因测序FPGA加速方案落地腾讯云

中新网12月25日电：伴随着基因测序技术的快速发展，基因数据的生成呈现指数级增长，对分析能力提出更高要求。近日，腾讯云正式推出国内首个基于自研FPGA极光技术的NGS加速方案，极大提升人类全基因组分析效率，有效改善基因领域数据分析速度慢、效率低等问题。　　腾讯云全面赋能改善基因领域难题　　基因测序作为一种新型的基因检测技术，在生命科学研究中扮演着十分重要的角色，行业的蓬勃发展催生了生物基因数据爆炸式的增长，使得基因企业、科学工作者等面临新的挑战。日前，腾讯云表示将全面开放各项IT能力，在传输、存储、计算、管理和洞察等方面，助力生物基因领域全面快速发展。　　首先，面对基因数据量的传输难题，腾讯云建成国内最全的28线BGP网络环

[半导体设计/制造]

热门资源推荐
热门放大器推荐

小广播