原副标题:耶鲁大学项目组研制新式表征组定序法,可望促进医学ICD
最近,在耶鲁大学大学医学院Jaunpur柯屈纳(Dana-Farber)肺癌中心从事康坦县研究的北大校友会吴婧英资所处项目组,利用四代定序控制技术修改了DNA的装配严重错误,发现了一个捷伊DNA宏观调控组件。
该控制技术可同时检验 DNA 大分子上的字符串和DNA宏观调控重要信息
数十年末的四代定序控制技术
据悉,定序控制技术源于 20 世纪末 70 二十世纪末。1970 年,中国科学院中国籍工程院、著名华人生物学家、美国耶鲁大学副教授如为报道了几项新式定序控制技术,即在数人拷贝 DNA 的操作过程中,重新加入铯记号的碱基,从而界定出 DNA 上不同位置的内容,从而念出 DNA 的字符串。
随即,三度赢得诺贝尔的英国生物生理学家阿瑟·埃里森(Frederick Sanger)和其他研究者,联合改良了这一方式。改良后的方式被更多的生物学家使用,第三代定序控制技术 Sanger 定序继而问世,埃里森副教授也因此赢得 1980 年诺贝尔物理学奖。
但是,这种定序成本高、工作效率低,难以用于大规模DNA例如人类DNA的定序。20 世纪末 90 二十世纪末,生物学家开发了多种新式定序方式。相比于第三代定序,那些控制技术仍然倚赖制备 DNA 的操作过程,故被称作“边制备、边定序”。
那些控制技术的益处在于,不再倚赖铯,而是以电子显微镜可抓取的萤光讯号,来加载制备中的 DNA 重要信息,很大提高了定序工作效率。
随即,大量孵化器子公司重新加入定序控制技术的商品化市场竞争,包括 454 Life Science、Solexa 和 Applied Biosystems 等子公司。最终,Solexa 子公司的定序网络平台被 Illumina 子公司于 2007 年全面收购,并以具有市场竞争优势的价格和高工作效率的数据寡头垄断全球市场,成为了现今的非主流定序控制技术,也被称作第三代定序控制技术。
如今,第三代定序控制技术已被广泛用于人类生活,科研人员用其检验新冠病毒如何变异,医生用其检验准父母是否携带遗传疾病的DNA,子公司用其提供个性化的 DNA 定序服务。
但是,第三代定序控制技术存在的最大问题是,它只能一次加载 100 个左右碱基长度的 DNA。人类DNA一共有 30 亿个碱基,二代定序难以精确定位DNA大片段的变异、以及高度的重复字符串。
于是,学界开始思考如何一次性测出更长的 DNA 大分子。第三代定序控制技术也应运而生,目前市场上非主流的四代控制技术是单大分子实时萤光定序和纳米孔定序。这两种定序方式都可以直接加载较长的 DNA 片段并和 DNA 上的化学修饰。
DNA 上的化学修饰往往具有生物学功能,能够直接宏观调控DNA的表达,越来越多的生物学家开始青睐于这项控制技术。
为教科书增加新内容
吴婧英资所处项目组开发的新方式正是基于纳米孔定序。首先,他们利用四代定序成功修改了一些人类DNA中的严重错误拼接和注释。
其次,相比于直接进行四代定序,本次方式做了两个主要改良。一是课题组用酶修饰了DNA上蛋白结合的地方(蛋白结合的区域通常是宏观调控DNA表达的区域),且这种修饰可以被四代定序检验到。二是他们用DNA编辑控制技术,截取了感兴趣的位点进行深度定序。
据悉,IGF2 DNA主要宏观调控生长发育,其表达量需要精确的宏观调控,才能实现正常的功能。过多或者过少,都可能导致发育缺陷或者肺癌等严重疾病。
(>100kb),并从中加载出如此多的重要信息,是该领域的一个重要进步。同时,IGF2 一直被作为教科书上经典的DNA宏观调控范式,故此次发现也为教科书增加了捷伊内容。
此外,这一控制技术也是 CRISPR-Cas9 DNA编辑控制技术、表征遗传学以及第四代定序的完美结合。值得一提的是,在分析很多DNA数据的时候,生物学家发现总有些区域重要信息缺失,而这篇论文指出了其中的一个原因是非主流DNA(hg38)装配存在着严重错误。
近日,相关论文以《动态、组织特异性和等位DNA特异性宏观调控组件的长程定相》(Long-range phasing of dynamic, tissue-specific and allele-specific regulatory elements)为题发表在 Nature Genetics 上 [1],索菲亚·巴塔利亚(Sofia Battaglia)、Kevin Dong、吴婧怡担任共同一作,耶鲁大学医学院细胞生物学副教授布拉德利·伯恩斯坦(Bradley Bernstein)担任通讯作者。
CRISPR-Cas9 DNA编辑控制技术、表征遗传学以及第四代测序的完美结合
研究中,该项目组首先要在方式上实现本次控制技术,然后要建立分析数据的方式,最后则要使用本控制技术发现捷伊生物学机制。
吴婧怡表示:“在第一个阶段,我们当时面临的两个主要控制技术难点:一是如何提取和保留超长片段的 DNA,二是如何富集我们感兴趣的区域进行深度定序。”
为解决第一个问题,该项目组在实验上尝试了很多条件,最后发现要保留长片段的 DNA,主要得在整个 DNA 处理的操作过程中保持一种温和的条件,以避免那些会打断 DNA 操作过程的剧烈物理震动和剪切。
为了富集 DNA,该项目组使用 CRISPR-Cas9 控制技术,对去磷酸化的 DNA 进行剪切。这样一来,只有剪切后的 DNA 能连接上定序的接头,从而实现特定区域的富集。
当此次控制技术被成功开发出来后,他们开始进行大量定序。在第二阶段的数据分析中,遇到的最大难题则是信噪比的困扰。
“我们最感兴趣的是DNA表达宏观调控蛋白和 DNA 的结合位点。但是,一些核小体包裹的 DNA 附近也会出现假讯号。后来,通过蛋白结合和核小体包裹的 DNA 在长度上的不同特征,成功地对数据进行去噪,最终拿到了理想数据。”吴婧怡说。
有了成熟的控制技术和分析管线后,接着要用它研究一些宏观调控位点。当时,他们发现可以通过 DNA 的字符串重要信息和宏观调控蛋白的结合重要信息来界定父母本。因此,首选的研究位点是DNA印记位点。
但是,当他们深入探索 IGF2 这个经典印记DNA区域的时候,发现 ENCODE 数据库的所有数据都是缺失的。随即,大家的兴趣开始转向别的DNA。
吴婧怡说:“当时因为另外一个课题的原因,我的DNA浏览器里面保留了DNA大片段拷贝的注释。当我在浏览 IGF2 这个区域时,发现这个区域的缺失和一个大片段拷贝的注释是完美重合的,这意味着DNA上有多个 IGF2 DNA,所以数据库的数据比对到了DNA另外的地方。”
后来,她和所处项目组利用四代定序的数据重新装配了这一区域,发现这其实是利用短字符串装配DNA时的一个严重错误。DNA上并没有其他的 IGF2,这意味着所有 ENCODE 数据又能重新回到正确位置。
当第一次看到这个区域上的重要信息时,大家都非常兴奋。而当所有数据都比对到 IGF2 附近以后,IGF2 的下游出现了一个增强子(DNA宏观调控组件)的讯号。
“我当时看那些讯号时感到很诧异,这里怎么会有增强子讯号?IGF2 的增强子应该在 H19(另外一个DNA) 的下游。” 吴婧怡对这个数据提出了质疑。
她的质疑,引起了项目组其他成员的重视。接下来半年,大家的主要工作内容基本就在回答上述问题。期间,他们分析了 ENCODE 数据库的 200 多个细胞系、以及 GTEx 数据库的 17000 多个人体组织数据,并通过功能实验证明这是一个在快速增殖的细胞中宏观调控 IGF2 的增强子,而且是灵长类动物中特有的。
而之前的大部分研究都集中在小鼠中,但是人类DNA在这里又出现了严重错误。可以说,这个增强子就这样一直默默地在DNA中发挥作用,但却没有被人发现。
吴婧怡在康坦县期间还有一个新发现:即在肿瘤中有一些 DNA 重复字符串,会在异常情况被表达出来,从而被呈递到肿瘤细胞表面,将肿瘤在体内的位置暴露出来,让人体免疫细胞能够识别到它们,并对肿瘤予以清除[2]。
但是,这种重复字符串在DNA上有多重拷贝、而且也很难定位,这阻碍了学界对其激活机制的研究。
她说:“前人和我们自己目前的工作都显示在肿瘤中存在一些非常特异的激活型 DNA 重复字符串。但是,对于它们激活的原因目前尚不清楚。
成立独立实验室以后,我们的第一个工作将利用本控制技术,来定位那些 DNA 重复字符串和它的蛋白结合模式。如能掌握那些 DNA 重复字符串的表达模式,将可望为药物设计或肿瘤疫苗提供新思路。”
参考资料:
1.Battaglia S,Dong K,Wu J,et al.Long-range phasing of dynamic, tissue-specific and allele-specific regulatory elements.Nat Genet 54,1504-1513(2022). https://doi.org/10.1038/s41588-022-01188-8
2.Griffin, G. K., Wu, J., Iracheta-Vellve, A., et al. Epigene C silencing by SETDB1 suppresses tumour intrinsic immunogenicity.Nature 595,309-314(2021).https://www.nature.com/articles/s41586-021-03520-4