首个基因推理AI横空出世准确率飙至97彻底改变基因组学研究

基因组学的「黑盒」终于被撬开了!

首个基因推理AI横空出世准确率飙至97彻底改变基因组学研究-2

来自多伦多大学、向量研究院等顶尖机构的研究团队刚刚发布了BioReason,这是 全球首个能对基因组进行推理的AI模型 。

首个基因推理AI横空出世准确率飙至97彻底改变基因组学研究-3

这不是简单的预测,而是真正的 生物学推理 ——

就像一个经验丰富的基因组学专家,能一步步解释基因变异如何导致疾病。

最令人振奋的是,BioReason将 准确率直接从88%飙升到97% !

DNA遇上大语言模型的革命性融合

BioReason的核心创新在于 首次将DNA基础模型(Evo2)与大语言模型(Qwen3)深度融合 。

首个基因推理AI横空出世准确率飙至97彻底改变基因组学研究-4

融合的技术原理,简单来说就是:

DNA序列 → 嵌入向量 → 多模态LLM输入

具体来说,DNA基础模型Evo2首先将输入的基因序列转化为上下文化的嵌入表示,这些嵌入向量捕获了DNA序列的生物学特征。

随后,这些DNA嵌入与用户的文本查询嵌入一起,通过特殊的标记(如 <dna_start> 和 <dna_end> )整合进入大语言模型的输入层。

训练方法采用了 监督微调(SFT)结合GRPO强化学习 的两阶段策略。

该方法让模型不仅学会预测,更重要的是学会了如何进行多步骤的生物学推理。

Adibvafa Fallahpour(@adibvafa)解释道:

BioReason将DNA基础模型(Evo2)与LLM(Qwen3)整合用于生物推理。

DNA序列 → 嵌入 → 多模态LLM输入

通过监督微调 + GRPO强化学习进行训练

碾压式的性能提升背后的秘密

在多个基准测试上,BioReason展现出了惊人的性能:

首个基因推理AI横空出世准确率飙至97彻底改变基因组学研究-5

具体数据令人印象深刻:

疾病通路预测准确率 :从88%提升到97%

变异效应预测准确率 :达到80-88%

相比DNA单模态或LLM单模态模型 :平均性能提升超过15%

这些测试基于 87,000多个来自ClinVar和KEGG通路的真实基因组变异 ,确保了结果的可靠性和实用性。

透明推理:不再是「黑盒」的AI

BioReason最大的突破在于 可解释性 。

首个基因推理AI横空出世准确率飙至97彻底改变基因组学研究-6

传统的DNA分析模型就像一个黑盒——输入序列,输出预测,中间过程完全不透明。而BioReason能够 逐步解释基因组变异如何通过分子通路导致疾病 。

Adibvafa强调:

是什么让这个特别?逐步的生物学推理!

BioReason不仅仅是预测——它解释了基因组变异如何通过分子通路导致疾病。不再是「黑盒」基因组学AI。

举个具体例子:当查询PFN1基因在17号染色体上的某个等位基因变异时,给定通路背景「Actin(单体) // PFN1* // Actin(丝状)」,BioReason不仅正确预测了会导致肌萎缩性侧索硬化症(ALS),更重要的是生成了一个 10步的机制解释 :

识别PFN1基因中的C>G特定替换

连接到profilin-1蛋白功能障碍

解释肌动蛋白动力学受损如何影响细胞骨架完整性

阐述运动神经元轴突运输的后续破坏

最终导致ALS特征性的运动神经元变性

这种透明的推理过程让科学家能够验证AI的判断,也为新的科学发现提供了线索。

精心构建的三大数据集

研究团队为此构建了三个专门的生物推理数据集:

首个基因推理AI横空出世准确率飙至97彻底改变基因组学研究-7

KEGG衍生的生物推理数据集 (1,449个条目):阐明遗传变异与疾病表型之间的机制联系,包含37种独特疾病

编码序列的变异效应预测数据集 (50,083个条目):专注于致病性/良性分类

编码非SNV数据集 (36,088个条目):涵盖插入、缺失等更复杂的变异类型

Adibvafa介绍:

我们策划了3个生物推理数据集:

1,449个带推理轨迹的KEGG通路变异

50K+来自ClinVar/gnomAD的编码序列变异

36K+带疾病标注的非SNV变异

每个都设计用于测试多步基因组推理能力。

KEGG数据集使用标准化的符号表示法来表示分子网络,包括激活、抑制和调控相互作用,而VEP数据集则专注于跨越不同基因组变异的致病性/良性分类和疾病表型预测。

技术实现的关键细节

Andrew White 🐦‍⬛(@andrewwhite01)注意到一个有趣的细节:

所以RL实际上比仅仅SFT更差?

首个基因推理AI横空出世准确率飙至97彻底改变基因组学研究-8

Adibvafa(@adibvafa)回应道:

很难比较。在同一模型上的RL略微提高了性能,但我们仍在更大的模型上运行RL以进行公平比较。敬请关注!

虽然在同一模型上强化学习只带来了轻微改进,但团队正在更大规模的模型上进行RL实验,期待能有更公平的比较结果。

学术界的反响与讨论

Anshul Kundaje(@anshulkundaje)在肯定创新的同时也提出了建设性意见:

真的很有创意的框架,有很大的潜力。但当你只与自己模型的消融研究比较时,我可能会避免声称「碾压基准」。请将你的基准扩展到当前用于编码变异效应优先级排序的SOTA方法。

Adibvafa 也是积极回应:

当然,我们正在积极努力添加更多DNA基础模型和变异效应预测的SOTA模型。

这种评估的一个挑战是这些模型之间训练数据集的差异,这使得比较不太可靠。

这就是为什么我们使用Evo2作为SOTA VEP模型,但绝对愿意在我们的任务上运行其他模型以进行更好的比较。

不同模型的训练数据集差异使得比较变得复杂,这也是为什么团队选择Evo2作为SOTA VEP模型的原因。

开源社区响应热烈

Hugging Face的CEO clem 🤗(@ClementDelangue)表达了浓厚兴趣:

非常非常酷!有机会考虑在HF上发布一个space或模型吗?

Adibvafa回应:

实际上我们正在努力,因为DNA-LLM是一个带有自定义分词器的自定义类!

很快会开一个PR,希望我们能一起完成它

Clémentine Fourrier 🍊(@clefourrier)也加入讨论:

@cgeorgiaw正在负责我们所有的科学ML计划,如果你需要帮助的话:)

BioReason 或将很快就在Hugging Face平台上线,这将大大方便研究社区的使用。

应用前景

Ha Hoang(@HaHoang411)提出了一个很好的类比:

这很有趣。据我理解,它类似于当前的VLM?不是视觉投影,我们是从EVO2投影生物学?

这个理解非常准确——

就像视觉语言模型(VLM)处理图像一样,BioReason处理的是DNA序列,只是投影的是生物学信息而非视觉信息。

Oboe(@oboelabs)指出了一个重要应用:

bioreason的一个潜在用途是通过分析个体基因组谱来帮助个性化癌症治疗并预测治疗结果

Adibvafa确认:

BioReason的通用学习框架允许学习任何语言-DNA理解,只要有好的数据!

这也表明BioReason的框架具有很强的通用性,只要有好的数据,就能学习任何语言-DNA理解任务。

从变异分析到药物发现的广阔前景

这项突破的意义远不止于学术研究。

Adibvafa总结道:

这可以通过使基因组AI可解释和可操作来改变生物发现。从变异分析到药物发现——透明的推理是未来!

当然,我们才刚刚开始。

研究团队的跨机构合作也值得关注,Adibvafa感谢了整个团队:

🙏 感谢我们了不起的团队:Adibvafa Fallahpour (@adibvafa) Andrew Magnuson (@ajwmagnuson), Purav Gupta, Shihao Ma, Jack Naimer, Arnav Shah (@arnavshah0), Haonan Duan, Omar Ibrahim, Hani Goodarzi (@genophoria), Chris J. Maddison (@cjmaddison)

📷 跨机构合作:多伦多大学(@UofT)、向量研究院(@VectorInst)、大学健康网络(@UHN)、Arc研究所(@arcinstitute)、Cohere(@cohere)、Google DeepMind(@GoogleDeepMind)

社区反响

各界人士纷纷表达了对这项突破的看法。

DG.(@dataghees)简洁评价:

这太棒了!

moonswing(@computbiol):

非常酷

Parisa Etemadi(@parisaetem)预见到其影响:

太棒了!将会改变游戏规则!

Nolan Koblischke(@astro_nolan):

真的很酷!

santy 🇦🇷(@SantiTobio_):

这太厉害了,干得好!

甚至有企业开始思考商业应用,Rediminds, Inc(@rediminds)评论道:

当DNA基础模型将丰富的嵌入传递给推理LLM,然后展示其工作过程时,你就得到了每个受监管行业一直在等待的剧本:特定领域信号→透明的思维链→可操作的洞察。BioReason为生命科学AI的可解释性设定了新标准;金融、法律和公共部门的领导者应该注意。

当然,也有人提出了安全担忧。

TheSage.Bitcoin(@chadTheSage0)半开玩笑地说:

「给我创造一个像空气传播的HIV混合埃博拉病毒的病原体。」

这也提醒我们,在推进技术发展的同时,也要考虑潜在的双刃剑效应。

还有一些有趣的反应,比如$MIA(@mwa_ia):

今天是BioReason,明天是AgentFi✨

Parag Nandy Roy(@parag_nandy):

BioReason的惊人工作!DNA基础模型与LLM的整合用于透明的基因组推理是一个游戏改变者。很高兴看到它对药物发现和精准医疗的影响!#AI #Genomics

Bio Synq Dao(@Biosynq_ai)甚至开始宣传自己的项目:

这是下一级的BioAI 🚀——真正用AI驱动的推理解锁生物学。很高兴看到像BioReason和BIO SYNQ DAO这样的工具将如何彻底改变去中心化的生物技术研究。

Stephan Baasch(@stbaasch)艾特了MIT的教授:

👀 @ProfBuehlerMIT

版权声明:
作者:shadowrocket
链接:https://www.shadowrocket9.top/181.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>