来源:生物世界 CRISPR 基因编辑是公认的 21 世纪以来最受关注、最具突破性的生命科学突破,被誉为“上帝的剪刀”,自2012 年正式诞生后,短短 8 年后就获得了诺贝尔奖的认可,2023 年底,首款基于 CRISPR 的基因编辑疗法获得 FDA 批准上市,用于治疗镰状细胞病和 β-地中海贫血,从而开启了遗传疾病治疗的新篇章。 尽管在临床上已取得初步成功,但目前的 CRISPR 基因编辑工具仍存在脱靶效应,并可能引发免疫系统的不良反应,这限制了其更广泛的应用。 近几年,人工智能(AI)领域的飞速发展,有望解除受到自然进化限制的基因编辑器,从而帮助设计出更具适应性、更强大的基因编辑工具。 2025 年 7 月 30 日,AI蛋白质设计公司 Profluent 的研究人员在国际顶尖学术期刊 Nature 上发表了题为:Design of highly functional genome editors by modelling CRISPR–Cas sequences 的研究论文,该成果此前已于 2024 年 4 月 发布在预印本平台 bioRxiv。 该研究展示了一种完全由人工智能从头设计的基因编辑工具——OpenCRISPR-1,并首次成功进行了对人类基因组的精准编辑。值得一提的是,Profluent 公司开源了 OpenCRISPR-1,其不仅可以免费用于科学研究,还可以免费用于商业用途。这为提高基因编辑疗法可及性以及降低基因编辑疗法成本铺平了道路,有助于加速开发目前无法治愈的数千种遗传病的治疗方法。 Profluent 公司取得的这项突破,标志着基因编辑新时代的开始,在这个时代,AI 在设计可能彻底改变医学的工具方面发挥着核心作用。随着 AI 蛋白质设计的不断发展,它有望使我们更接近一个世界,在这个世界,基因疾病的精准治疗比以往任何时候都更易获得且有效。 CRISPR 是现代生物学中偶然发现的一个典型案例。1987 年,人们在大肠杆菌中观察到一些不同寻常的重复 DNA 序列,这一发现最终揭示了一种复杂的适应性免疫系统。细菌会将病毒 DNA 片段作为“间隔区”捕获到被称为 CRISPR 数组的重复基因组序列中。这形成了遗传记忆,指导 CRISPR 相关(Cas)蛋白切割 DNA,从而在再次感染时摧毁匹配的病毒。 CRISPR 是现代生物学中“意外发现”的典范。一切始于 1987 年对大肠杆菌中异常重复的 DNA 序列的观察,这一发现最终揭示了细菌精密的适应性免疫系统。细菌将病毒 DNA 片段捕获为“间隔区”,嵌入称为 CRISPR 阵列的重复基因组序列中,这种机制形成了遗传记忆,指导 CRISPR 相关(Cas)蛋白通过切割 DNA 的方式,在病毒再次入侵时摧毁匹配的病毒。 2012 年,Emmanuelle Charpentier 和 Jennifer Doudna 证明了来自化脓链球菌的 Cas9(SpCas9)可以被重新设计成一种可编程的基因编辑工具,其向导 RNA(gRNA)能够引导 Cas9 精确到达基因组的特定位。不久后,张锋将 CRISPR-Cas9 成功应用于人类细胞基因组编辑,打开了基因编辑治疗应用的大门,最终促成了用于治疗镰状细胞病和 β-地中海贫血的 Casgevy 疗法的上市。 然而,尽管基于 SpCas9 的 CRISPR 基因编辑工具功能强大,但它仍是一种“野性十足、未经驯化”的工具,它是在细菌的防御机制中进化而来的,并非为人类治疗所需的精准度而进化。 SpCas9 能够容忍其 gRNA 与 DNA 靶序列之间的错配,从而会导致脱靶效应(可能切割目标序列以外的位点),这可能引发了严重的安全问题。SpCas9 来自化脓链球菌,其作为一种常见的病原体,SpCas9 会在大多数个体中引发预先存在的免疫反应,从而可能中和治疗效果。spCas9 较大的尺寸导致其难以封装到诸如腺相关病毒(AAV)载体之类的病毒递送系统中。此外,SpCas9 只能在被称为 PAM 序列的短 DNA 基序附近进行切割,这导致部分基因组区域无法被其靶向编辑。 这些不足之处,在体内基因编辑时尤为突出,即直接在人体内对细胞进行基因编辑,而不是把细胞从人体内取出,编辑好后再回输到体内。因此,科学家一直在寻找更适合体内基因编辑的工具,这需要基因编辑工具具有近乎完美的特异性和极低的免疫原性。 为了实现高效、特异性、可递送且无免疫原性的目标,研究人员采用了多种工程策略,包括定向突变(这种方法以牺牲编辑效率减少脱靶效应),定向进化(十分费力,且探索的序列空间范围有限),生物挖掘(挖掘的天然酶仍存在脱靶效应和免疫原性的问题),这些传统方法难以实现上述目标。 在这项最新研究中,研究团队探索了第四种范式——利用生成式人工智能(generative AI)从头设计。他们使用了蛋白质语言模型,这些模型是在大型蛋白质序列数据库上训练而来的。类似于像 ChatGPT 这样的大语言模型,蛋白质语言模型通过学习人类语言的模式,处理数亿个示例以学习蛋白质进化的隐含“语法”——即表征功能性天然蛋白质的氨基酸之间复杂的统计关系。 研究团队认识到,任何 AI 模型的性能从根本上讲都受到其训练数据的质量和规模的限制。他们没有依赖现有的数据库,而是付出了巨大的努力进行数据挖掘,通过筛选 26.2 万亿个碱基的微生物基因组数据,产生了超过 120 万个 CRISPR“操纵子”——包括 Cas 蛋白序列、CRISPR 阵列、crRNA 和 PAM 的功能单元,从而构建了 CRISPR-Cas Atlas,其包含的 Cas9 序列的数量比蛋白质数据库 UniProt 中记录的数量增加了四倍。 接下来,研究团队实施了一种分层训练策略,他们对蛋白质语言模型 ProGen2 进行了微调,该模型在 UniRef 和 BFD 数据库中的数亿条蛋白质序列上进行了预训练,微调时使用的是 CRISPR-Cas Atlas,以学习 Cas9 蛋白质功能背后的特定序列约束。最终得到的模型被用于生成一系列 Cas 样蛋白,其多样性几乎是已知 Cas 蛋白变体的 5 倍,并且包含了数千种在自然界中从未发现过的候选蛋白。 这些生成的 Cas 样蛋白都具有功能吗?这些生成的 Cas 样蛋白库中是否包含适用于目标应用且具有理想特性的全新序列?为了证明这一点,研究团队进一步对模型进行了微调,仅使用约 24 万条 Cas9 序列对其进行训练。在使用各种天然 Cas9 序列片段作为提示词,让蛋白质语言模型生成了 35 万条候选序列,并通过计算机模拟筛选出序列质量和 CRISPR 兼容性良好的序列后,研究团队最终挑选出了 209 条序列在人类细胞中进行进一步实验测试。其中,OpenCRISPR-1 脱颖而出。 OpenCRISPR-1,是一个完全由 AI 设计出来的 Cas 样蛋白,长度为 1380 个氨基酸,与 SpCas9 相比存在 403 个氨基酸突变差异,与 CRISPR-Cas Atlas 中与其最接近的天然序列存在 182 处氨基酸突变差异。尽管存在这么多差异,它却与 SpCas9 具有相同的靶向效率,且同时显著提高了特异性。与 SpCas9 相比,OpenCRISPR-1 的靶向切割比例大幅提高,脱靶编辑减少了 95%。重要的是,其脱靶编辑是 SpCas9 的子集,这表明其不存在新的切割模式。此外,OpenCRISPR-1 序列中似乎还缺少某些会被 T 细胞识别并导致 SpCas9 免疫原性的表位,这意味着 AI 设计的 OpenCRISPR-1 可能比病原体来源的基因编辑器(例如 spCas9)具有更低的免疫原性。 那么,OpenCRISPR-1 是否能够用于碱基编辑呢? 研究团队将 OpenCRISPR-1 转化为切口酶,然后将其与腺苷脱氨酶 ABE8.20 融合,构建了腺嘌呤碱基编辑器,结果显示,其在人类细胞中的三个测试位点上都实现了稳健的 A-to-G 碱基编辑,编辑效率为 35%–60%,这与基于 SpCas9 切口酶的 ABE8.20 腺嘌呤碱基编辑器的效率相当,并且不会导致插入/缺失突变。 研究团队进一步尝试利用 AI 完全设计出全新的碱基编辑器系统,包括脱氨酶。他们首先使用 TadA-like 蛋白进行训练,设计并生成了一系列腺嘌呤脱氨酶,与已知的任何脱氨酶的同源性为 55%-80%,其中,两个活性最高的腺嘌呤脱氨酶 PF-DEAM-1 和 PF-DEAM-2,与 SpCas9 切口酶或 OpenCRISPR-1 切口酶融合,生成的腺嘌呤碱基编辑器的 A-to-G 碱基编辑效率与基于 SpCas9 切口酶的 ABE8.20 腺嘌呤碱基编辑器的效率相当,且均可有效抑制旁观者编辑。 OpenCRISPR-1 会成为体内 CRISPR 治疗的突破吗? 初步结果令人鼓舞,但还需要在不同的靶点和递送系统上进行更广泛的实验验证,以确定其临床潜力。但这项研究真正的进步在于利用生成式 AI 生成 CRISPR 基因编辑系统的过程,随着基于 AI 的蛋白质设计的不断发展,这种“预训练、微调、生成、筛选”的方法为未来的研究奠定了强大的框架。 随着人工智能设计的 CRISPR-Cas 系统向临床应用迈进,标志着精准医疗领域一场更广泛革命的开端——在这场革命中,治疗性蛋白质来自 AI 设计而非从自然界发现,是通过优化得来而非进化而来的。人工智能与生物技术的融合(AI + BT)开启了巨大的可能性,将 CRISPR 的应用领域远远拓展到了仅靠进化所无法探索的范围。 论文链接: https://www.nature.com/articles/s41586-025-09298-z