|
该文翻译自我的博客: https://forxhunter.github.io/blog/2025/whole-cell-model-overview/ 如果对全细胞模拟感兴趣或者正在进行相关研究,欢迎互相交流~( vx: tywu_gastly, email: tianyu16 at illinois.edu)
几十年来,生物学一直是一个关于“零件清单”的领域——测序基因、编目蛋白质和绘制通路图。但21世纪的“宏伟挑战(Grand Challenge)”截然不同:我们能否在计算机中模拟一个完整的活细胞?其目标是构建一个虚拟细胞(Virtual Cell)——一个数字孪生体,它能精确预测细胞在任何条件下的行为,从药物治疗到基因工程改造。 步入2025年,该领域已分化为两股强大且正在交汇的流派:机理建模派(Mechanistic Modelers),他们自下而上地通过方程构建细胞;以及AI架构师(AI Architects),他们自上而下地训练海量模型以学习生物学的“语言”。 主要方法以下是该领域的现状、关键参与者以及迄今取得的进展。 1. 基于物理的建模 (Physics-Based Modeling)传统的“自下而上”方法:模拟细胞真实的物理和化学过程。 Zan Luthey-Schulten 实验室 (伊利诺伊大学厄巴纳-香槟分校 UIUC)时空现实的前沿许多全细胞模型假设环境是“充分混合(well-mixed)”的(将细胞视为装满化学物质的均质袋子),而 Luthey-Schulten 团队则在 4D(3D空间 + 时间)中整合了时空异质性。他们利用复杂的工作流,结合了 Lattice Microbes(用于蛋白质/RNA的随机反应扩散)、LAMMPS(用于染色体的布朗动力学)和 ODEs(常微分方程,用于代谢)。 当前进展: 该实验室实现了最小细胞 JCVI-syn3A 完整细胞周期的首次4D全细胞模拟。与以往只模拟短时间窗口的尝试不同,这个新模型模拟了整整约100分钟的生命周期,整合了所有遗传信息处理过程、代谢网络、核糖体生物发生和细胞分裂。 近期成就: 2025年,该团队成功在4D环境中模拟了JCVI-syn3A的生长和分裂,揭示了由于化学反应的随机性,每一个复制出的细胞都是独一无二的。该模型利用布朗动力学成功捕捉了染色体的“轨道式(train-track)”复制及其向子细胞的分离。至关重要的是,模拟结果复现了关键的实验测量值——包括精确的105分钟倍增时间、蛋白质分布以及基因组的原点-终点(ori:ter)比率——这验证了“数字孪生”现在可以从第一性原理预测复杂的细胞表型。 关键参考文献: Thornburg et al. (2025) “Bringing the Genetically Minimal Cell to Life on a Computer in 4D.” bioRxiv. Thornburg et al. (2022) “Fundamental behaviors emerge from simulations of a living minimal cell.” Cell.
Markus Covert 实验室 (斯坦福大学)菌落级模拟的先驱Markus Covert 团队在2012年建立了该领域的基础,完成了首个 Mycoplasma genitalium(生殖支原体)的完整全细胞模型。他们是**混合多算法建模(hybrid multi-algorithmic modeling)**的领导者,该技术将细胞划分为不同的模块(例如,用于代谢的 FBA,用于基因表达的随机求解器),并在数学上将它们整合以模拟单个细胞的生命周期。 当前进展: 该实验室已转向研究显著更复杂的 Escherichia coli(大肠杆菌)。他们的大肠杆菌模型涵盖了超过 43% 的已知基因功能。最近,他们利用 Vivarium 软件平台将这项工作扩展到了“全菌落”尺度,允许将数千个独立的全细胞模型嵌入到一个共享的空间环境中,以研究如抗生素异质抗性(heteroresistance)等涌现出的群体行为。 近期成就: 2024年,该团队在 Cell Systems 上发表了一项研究,利用大肠杆菌模型确定了操纵子(operon)结构的进化优势。模拟揭示了两种截然不同的效用模式:对于低表达基因,操纵子显著增加了共表达的概率(确保功能依赖的蛋白质同时存在);而对于高表达基因,操纵子稳定了蛋白质亚基的化学计量比(stoichiometry),以防止浪费性的过度生产。 关键参考文献: Sun et al. (2024) “Cross-evaluation of E. coli’s operon structures via a whole-cell model suggests alternative cellular benefits for low- versus high-expressing operons.” Cell Systems. Skalnik et al. (2023) “Whole-cell modeling of E. coli colonies enables quantification of single-cell heterogeneity in antibiotic responses.” PLOS Computational Biology.
Jonathan Karr 实验室 (西奈山伊坎医学院)信任的基础设施如果无法信任零件,就无法构建全细胞模型。Jonathan Karr 是2012年首个全细胞模型的第一作者,他已将重心转移到验证和复现这些庞大系统所需的关键基础设施上。 当前进展: Karr 正在领导一项全领域的“质量控制”倡议。2025年,他的团队完成了对 BioModels 存储库的大规模验证,确保超过 1,000 个已发布的模型在不同的模拟器中实际上能产生一致的结果。没有这种验证,将子模型组合成一个完整的细胞是不可能的。 近期成就: 该实验室发布了 RBAtools (2024) 并标准化了 SED-ML Level 1 Version 5 (2025)。这些工具允许研究人员模拟细胞如何分配有限的内部资源(如核糖体),并精确告知计算机如何运行模拟,将“虚拟细胞”从一次性脚本转变为可复现的软件构件。 关键参考文献: 2. AI 驱动 (数据驱动建模)新的“自上而下”方法:使用 Transformer 模型(类似 ChatGPT)在不知道底层方程的情况下预测细胞行为。 “AI 虚拟细胞” (CZI Biohub / Arc Institute)由 Chan Zuckerberg Initiative (CZI) 和 NVIDIA 支持,该项目旨在通过在生物数据上训练海量“基础模型(Foundation Models)”来跨越物理学限制。2025年10月,随着虚拟细胞平台 (VCP) 的宣布,这一雄心壮志显著升级。VCP 是一个由 NVIDIA GPU 基础设施驱动的集中式开源中心,用于托管模型、数据集和基准测试。 当前进展: 该小组正从单细胞转录组学迈向“多模态”基础模型。新的虚拟细胞平台现在托管着多种模型,包括 CodonFM(一种 RNA 基础模型)和 MONAI(用于生物医学成像),允许研究人员针对特定任务微调这些庞大的模型,而无需拥有自己的超级计算机。 近期成就: 2025年,Arc Institute 发布了两个里程碑式的模型: Evo 2 (2025年2月): 一个拥有 400 亿参数的基因组基础模型,基于 9.3 万亿个 DNA 碱基训练。与之前的模型不同,Evo 2 拥有 100 万 token 的上下文窗口,使其能够从头生成完整的线粒体和细菌基因组,并预测整个生命之树的突变效应。 State (2025年6月): 一个基于 1.7 亿个细胞训练的专用“虚拟细胞”模型。它专精于预测扰动(如药物治疗)后细胞状态的转变,在准确性上比之前的线性方法高出 50%。
挑战赛结果:首届虚拟细胞挑战赛于 2025 年 12 月结束,任务是让全球 AI 社区预测人类干细胞中基因扰动的影响。 核心洞察: 他们将细胞生物学构建为一个语言问题。如果你阅读了足够多的 DNA/RNA“文本”,你就能书写细胞的未来。但根据目前结果来看,完全靠AI驱动还是不充分,仍然需要基于生物/物理/化学的模型提供指导 3. 软件生态系统使这一切成为可能的工具。 - Virtual Cell (VCell) 团队 (UConn Health)PI: Leslie Loew虽然“AI 虚拟细胞”是一个项目名称,但 VCell 是自90年代末以来成千上万生物学家使用的实际软件平台。
当前进展: VCell 仍然是反应扩散和空间建模的黄金标准。最新版本(VCell 7.6, 2024年7月)和最近的更新巩固了其与基于规则的建模(使用 BioNetGen)的集成,允许用户模拟具有组合复杂性的复杂信号网络。该团队还引入了“Virtual FRAP”,这是一个专门用于分析光漂白后荧光恢复实验的工具,直接连接了显微镜数据与模拟。 移动边界与介观尺度: VCell 的能力现在扩展到了移动边界问题——模拟在内部发生化学反应的同时改变形状或分裂的细胞。2024年底,该小组推进了介观尺度(mesoscale)模拟,使用基于粒子的方法( SpringSaLaD)对细胞尺度连续体模型进行参数化,有效地将分子拥挤与全细胞行为联系起来。 参考: https://vcell.org/ - Vivarium (Agmon & Covert)PI: Eran Agmon (康涅狄格大学)随着模型变得复杂,你需要“胶水”将它们粘合在一起。Vivarium 是一个基于 Python 的接口,允许用一种语言编写的代谢模型与用另一种语言编写的信号模型进行对话。它是未来机理全细胞模型的操作系统。
当前进展: Vivarium 正在演变为一个正式的“组合系统生物学(Compositional Systems Biology)”框架。2024年,Agmon 为 Vivarium 引入了“过程偶图(Process Bigraphs)”,这是一种新的数学结构,用于标准化生物过程(如转录或代谢)的嵌套和连接方式,类似于电路设计。 近期应用: 除了细菌,Vivarium 现在正在推动多尺度癌症研究。在2024年的一篇 Cell Systems 论文中,该团队使用 Vivarium 将多路复用成像与基于主体(agent-based)的模型相结合,成功识别了肿瘤表型在 T 细胞治疗期间如何转变。参考: Agmon E, et al. Vivarium: an interface and engine for integrative multiscale modeling in computational biology. Bioinformatics. 2022.
|