当基因编辑插上人工智能的翅膀
给基因编辑插上人工智能的翅膀会发生什么?
中国科学院遗传与发育生物学研究所(以下简称遗传发育所)研究员高彩霞和团队进行了一次试水,意外为基因编辑新“利器”的挖掘开辟了一片崭新的天地。
基因编辑技术自2012年诞生以来就被喻为“上帝的手术刀”,打开了人类改写生命基因密码的大门。2020年,这项对生命科学领域产生颠覆性影响的工具众望所归地获得了诺贝尔化学奖。为了让这这把“手术刀”更精准、高效,科学家们还在不断向前推动着这一技术的研究边界。
近期,高彩霞和团队开创性地运用AlphaFold2辅助蛋白结构预测,并对不同蛋白基于结构进行分类,开发出一系列碱基编辑新利器,它们在医学和农业方面具有广泛的应用潜力。相关研究6月27日在线发表于《细胞》。
“这项研究在多个方面都令人兴奋。”该刊一位国际审稿人说。
一次试水
高彩霞团队是中国农业基因编辑领域的一张名片。
2013年,高彩霞带领团队发表了世界上第一篇CRISPR基因编辑植物的研究论文。十年来,他们不断完善着这把生命科学的“手术刀”,获得的基因编辑技术专利可占据国内半壁江山,并探索了这些工具在水稻、小麦、玉米和番茄等农作物在育种方面的潜力。
“当一项技术具有颠覆性时,科学家总会考虑它的缺点,然后让它更完善。”高彩霞对《中国科学报》说。
十余年来,基因编辑技术不断迭代并迅猛发展。高彩霞将现有基因编辑技术划分为两个阶段。
1.0时代的基因编辑,以“基因剪刀”CRISPR-Cas9技术为代表,它能在基因组特定位置产生DNA双链断裂,继而通过细胞内源修复机制产生随机小片段进行插入或删除,但产生的突变存在不可控性。
2.0时代的基因编辑,以碱基编辑和引导编辑技术为代表,其特点是“精准”。所有生物的DNA都由A、T、C、G四个字母所代表的碱基组成,碱基编辑可不依赖DNA双链断裂实现部分特定碱基(如字母A-T、C-G、A-G)的高效精准替换,但仍无法实现所有字母的任意转换。在此基础上,2.0+版的引导编辑系统,则可实现4个字母任意编辑,以及小片段DNA的精准插入和删除。
不过,这样的基因编辑技术仍非完美无缺。
现有碱基编辑系统的核心元件——脱氨酶来源于单一家族,在基因编辑过程中存在效率不够高、序列有偏好性以及潜在的脱靶风险等问题。
“比如在实现字母C-T的转变过程中,如果C的前面是G,C字母就很难被改变。”高彩霞举例,此外,这些脱氨酶在一些重要作物如大豆中效果较差,这也是长期影响作物碱基编辑育种的一个关键问题。
同时,作为疾病治疗、农业育种以及科学研究的基础性、战略性工具,目前碱基编辑系统的底层专利由美国持有,我国亟需打破碱基编辑底层专利垄断。
能否挖掘出新的脱氨酶,解决碱基编辑现有挑战,同时打破我国所面临的底层专利困境?
2021年,在实验室的一次例行组会上,高彩霞与年轻的组员们就不同期刊的前沿进展做分享交流时,人工智能“明星”AlphaFold2在蛋白质结构预测中的突出表现让他们产生了一个想法:何不将它与现有碱基编辑技术结合起来看看会发生什么?
一直以来,科学家主要通过基因序列来定向改进现有脱氨酶。“脱氨酶的结构与其功能存在紧密关联,这意味着科学家需要花费大量的时间用实验解析相关的序列从而拿到一个蛋白的结构。所以我们就想能不能通过人工智能找一些跟现有脱氨酶在结构上相似度更高的蛋白。”高彩霞研究组博士生费宏源对《中国科学报》说。
“比如AlphaFold2让我们一天就能高通量地构建300多个蛋白的结构,是传统方法的很多倍。”费宏源补充说,经过一段时间的摸索,聚焦生物信息学的她成为研究组的“人工智能担当”。
研究团队首先通过AlphaFold2对代表性的283个具有脱氨潜力的蛋白质序列进行了结构预测,进一步创新性地基于蛋白质结构的多重比对,拓展了脱氨酶家族基于结构的系统发育分析,将其划分为20个潜在的蛋白质家族。进一步对每个家族中多个代表性成员进行活性检测,他们发现其中6个家族具有活性,5个是全新的脱氨酶家族。
“现有rAPOBEC1脱氨酶家族成员都来自于真核生物(主要包括人、哺乳动物或鱼类)。我们的研究挖掘出一系列全新的脱氨酶,是目前唯一全部来自于原核生物(细菌)的脱氨酶。”高彩霞研究组博士后黄佳颖说,她参与了该研究的构思与设计。
“小试牛刀”
基于蛋白结构分类,研究者成功开发了一系列具有中国自主知识产权的碱基编辑新“利器”。
让他们惊喜的是,在对具有活性的新脱氨酶家族进行功能验证时,他们发现此前被认为具有双链DNA脱氨功能的SCP1.201蛋白家族中的大部分蛋白其实只具有单链DNA脱氨的活性。这一颠覆性的认知让他们判断:这个家族可能存在更精准、高效的基因编辑工具。
他们对这个蛋白家族的所有成员一一进行了分析,得到了一个“大礼包”。
研究者发现,其中一些脱氨酶(如双链碱基编辑系统中的Ddd9)可实现常规系统难以靶向的GC偏好碱基的编辑;一些脱氨酶(如单链碱基编辑系统中Sdd7和Sdd3)展现出非常高的编辑活性和明显的GC序列偏好性;还有一些脱氨酶(Sdd6)在测试的位点中几乎检测不到脱靶事件。
他们还打造了这些碱基编辑工具的“迷你版”。“通过AI辅助截短原有蛋白,把它包裹在单个腺病毒中可以增强递送的灵活性,同时保留它原有基因组编辑效率。”黄佳颖介绍。
他们同时在动物和植物中对这些碱基编辑工具“小试牛刀”,发现“新工具包”在医学和农业领域展现出广泛的使用潜力。其中,通过腺病毒转染小鼠细胞,新型碱基编辑器可成功获得高达43.1%的编辑效率,这说明基于新脱氨酶开发的碱基编辑药物可以装载到单个病毒颗粒并高效矫正遗传病突变位点,为基因治疗提供了全新的技术方案。
更重要的是,研究者新开发的Sdd7-CBE系统,克服了大豆中长期存在的碱基编辑效率低下的问题,他们在154株基因组编辑大豆中获得了34株具有抗除草剂表型的稳定编辑植株,相比之下,常规的基因组编辑技术获得编辑植株的效率为零。
“这项研究展示了多个令人兴奋的前景。”该文章的一位国际审稿人说,首先,研究利用AlphaFold2进行的蛋白质结构分析是一种具有普适性的新概念和方法;其次,许多新的脱氨酶结构域的鉴定为碱基编辑领域增加了有价值的工具;此外,碱基编辑技术在大豆植株中的应用为该方法的有效性提供了有力的例证。
“从源头上探索自己的工具”
“这项研究太漂亮了!是一个非常完美的工作!”新成果发表后,领域内的老朋友、美国科学院院士Dan Voytas通过邮件向高彩霞道贺。
对此,高彩霞表示:“当前越来越多的研究成果都是相互站在巨人肩膀上,才能实现“1+1>2的效果。这项研究也不例外。”
据介绍,这些全新工具已申请相关发明专利。高彩霞希望能够从源头上探索自己的基因组编辑工具,夯实我国基因组编辑生物育种的技术专利池。
“目前,基因组编辑技术已经发展到3.0时代,其中最关键的问题就是解决大片段编辑的‘短板’,实现Kb(千字节)级的大片段DNA甚至是染色体水平的精准编辑。”高彩霞说。
今年4月,高彩霞和团队将引导编辑和位点特异性重组酶结合开发了PrimeRoot系统,在水稻和玉米中实现了长达11.1 Kb的大片段DNA的高效精准定点插入,相关成果发表于《自然—生物技术》。这一成果表明高彩霞团队在全球率先迈入基因组编辑3.0时代的门槛,为植物分子育种提供了更为有力的技术支撑。
科学无极限。为让基因组编辑这把改造遗传密码的利器更加得心应手,他们仍在继续探索。
相关论文信息:
DOI:10.1016/j.cell.2023.05.041