•   产品定义        

            动植物基因组de novo即动植物从头测序组装,指不需要任何参考序列信息,直接结合多种测序技术,利用生物信息学分析方法进行拼接、组装,从而获得该物种的基因组。基因组上蕴藏着生命的奥秘,人类从发现DNA、发明DNA测序手段到测学技术的飞速发展,一直都在在孜孜不倦的破译各种生物的基因组,一个完整的、精确的参考基因组能够为人类疾病研究、动植物遗传育种研究等方面打下坚实的基础。        

            而一个高质量基因组的完成,并不是单纯的组装,需要利用多种数据和方法进行分析、评估:首先组装前需要先对将要组装物种的基因组有一个大致的了解,判断其复杂程度,如通过基因组Survey评估物种基因组的大小、杂合和重复序列比例情况;然后基于物种基本信息和三代测序数据进行初步组装,根据实际情况进行去污染、去冗余等处理,再结合Hi-C数据将其挂载成为染色体级别的基因组;后续还需对基因组进行多种维度的评估,确定其是否为一个高质量基因组;接着对该基因组进行基因结构和功能注释;最后将该物种基因组与关注的近缘物种进行比较基因组分析。

     图2 GAAP(组装深度评估系统)

     ◎HiFAP(基因组高保真注释软件)

            在MAKER 软件整合的基因集基础上利用自研的HiFAP软件进行进一步的多种证据整合,得到质量更高的基因集。

     图3 HiFAP(基因组高保真注释软件)

    ◎UC-HiC(高复杂度基因组挂载系统)

            相较于常规Hi-C挂载方法,UC-HiC能解决大/超大基因组内存限制,减少其运行分析时间,并可利用多次聚类,提升挂载率。

    ◎FIGAS(基因组自动化系统)

    核心软件构架化

     

    分析流程全自动化

     

    全部操作可视化

     

    全部任务云端部署

     

     图5 FIGAS(基因组自动化系统)

    SGDB(标准基因组数据库)

    ·与FIGAS接口对齐,一键化数据清洗与入库;兼容任意来源基因组和注释文件

    ·采用业界通用的web解决方案:Java+Vue+MySQL;支持多并发,稳定性高,秒级查询

    ·利用docker容器技术,实现环境无缝迁移,能够快速部署

    ·对于非公开数据,可以线下部署数据库供内部使用

    ·集成了常用生信工具Primer3、Blast和Jbrowse,供用户便利使用

          测序方案

    参考基因组需求       测序个体数
    1

     

     

       方案一 

      文库 测序量
     二代测序 350-500bp WGS文库  100X 
    Hi-C文库  100X 
    转录组文库  6-10G 
     三代PacBio测序  HiFi文库 30X(按cell算) 

     

     分析内容

     图1  动植物基因组de novo分析流程

      产品优势

            通过大量的文献调研和项目经验的积累,本公司通过解析、研发和测试,开发了一系列针对组装高质量动植物基因组的自研方法,在基因组组装、注释质量、分析时间以及结果展示等方面进行了深入的优化。

     

     

    GAAP(组装深度评估系统)

            从序列连续性、组装准确性、完整均一性、碱基错误率和组装完整性多个维度对基因组进行评估,让基因组组装的质量一目了然。

     图4 UC-HiC(高复杂度基因挂载系统)

     图6 SGDB(标准基因组数据库)

       方案二

      文库 测序量
     二代测序 350-500bp WGS文库  100X 
    Hi-C文库  100X 
    转录组文库  6-10G 
     三代ONT测序

     50-100kb文库

    100X(按cell算) 

     

  • 图1 某物种K-mer Depth和K-mer种类数频率分布图

      基因组组装与染色体挂载

             使用三代数据进行初步组装,并利用Hi-C 将Contig/Scaffold挂载到不同的染色体上,提升基因组质量,为染色体高维结构的分析提供了可能。

    图2 染色体Hi-C互作图谱及contig分布

      基因组评估

             将该基因组与NT数据库比对,其二三代数据与转录组数据与基因组进行比对,并通过BUSCO等方法,综合的评估基因组组装效果。

    图3 基因组GC-Depth 分布图

    表2 基因组Busco评估

    Type

    BUSCOs num

    Percentage(%)

    Complete BUSCOs (C)

    4,430

     96.64

    Complete and single-copy BUSCOs (S)

    4,308

     93.98

    Complete and duplicated BUSCOs (D)

    122

     2.66

    Fragmented BUSCOs (F)

    42

     0.92

    Missing BUSCOs (M)

    112

     2.44

    Total BUSCO groups searched

    4,584

     100.00

    Type

    BUSCOs num

    Percentage(%)

     

    图4 基于注释的基因组圈图

    图5 基因组差异

    图6 基因组进化过程中的WGD

      基因组特征评估

            通过基因组survey评估物种基因组大小、杂合和重复序列比例情况,以便后续的测序和基因组组装分析。

      基因组注释

             通过基因结构预测和重复序列注释,我们能够获得基因组上基因和重复序列分布和结构信息,为功能注释和进化分析工作提供重要的基础。

      基因组进化研究

             比较基因组学是基因组学的一个分支,其基于基因组图谱和测序技术对已知的基因特征和基因组结构进行比较以了解基因的功能、表达机制和不同物种亲缘关系。基因组特征可能包括DNA序列、基因、基因顺序、调控序列和其他基因组结构标志。

    表1 基因组特征统计情况(K-mer=17)

    Sample K-mer number K-mer Depth Genome Size (Mb) Revised Genome Size (Mb) Heterozygous Ratio (%) Repeat (%)
    物种拉丁名 53,219,108,042 55 927 915 0.65 51.30

     

  • Q怎么查询基因组的大小?

    方法一:基于流式细胞术(Flow Cytometry)的实验方法,已测物种基因组大小见网站:

    植物:http://data.kew.org/cvalues/CvalServlet?querytype=2

    动物:http://www.genomesize.com/search.php

    换算关系:1pg=978Mb

    方法二:从NCBI、CNGBDdb、Ensembl、JGI 等数据库中查找。

    方法三:使用本公司物种信息查询网站https://taxon.onemore-tech.com 

     

    QPacBio 测序和ONT测序怎么选择?

          测序获得的序列读长是基因组组装的关键因素,PacBio与Nanopore测序虽然存在一定的测序错误,但当达到特定的测序深度时,绝大多数错误可以通过自身的校正被修正,因此都可以获得相对高质量的的基因组,也成为了目前基因组组装的首选。

     

          利用PacBio测序组装的基因组近年已经发表了很多文章,基于此的组装软件目前也比较多。在PacBio通量提高后,使用HiFi模式获得长读长、高准确度的CCS序列,可以大大提升组装连续性和准确率。而Nanopore的优势在于其超长的读长,特别是其Ultra-long测序能够产生超长测序片段,轻松跨越基因组中大片段重复区域,能够显著提升物种基因组组装效果,填补基因组中gap 。

    图1 PacBio和ONT的区别

  •  

    1. Marks RA, Hotaling S, Frandsen PB, VanBuren R. Representation and participation across 20 years of plant genom sequencing. Nat Plants. 2021;7(12):1571-1578. doi:10.1038/s41477-021-01031-8
    2. Marchant DB, Chen G, Cai S, et al. Dynamic genome evolution in a model fern. Nat Plants. 2022;8(9):1038-1051. doi:10.1038/s41477-022-01226-7
    3. Yang T, Liu R, Luo Y, et al. Improved pea reference genome and pan-genome highlight genomic features and evolutionary charac- istics. Nat Genet. 2022;54(10):1553-1563. doi:10.1038/s41588-022-01172-2
    4. Zhu F, Yin ZT, Wang Z, et al. Three chromosome-level duck genome assemblies provide insights into genomic variation during domestication. Nta Commun . 2021;12(1):5932. Published 2021 Oct 11. doi:10.1038/s41467-021-26272-1
    5. Dudchenko O, Batra SS, Omer AD, et al. De novo assembly of the Aedes aegypti genome using Hi-C yields chromosome-length scaffolds. Science. 2017;356(6333):92-95. doi:10.1126/science.aal3327
    6. Chiou KL, Janiak MC, Schneider-Crease IA, et al. Genomic signatures of high-altitude adaptation and chromosomal polymorphism in geladas. Nat Ecol Evol. 2022;6(5):630-643. doi:10.1038/s41559-022-01703-4
    7. Haufler CH. Ever since Klekowski: testing a set of radical hypotheses revives the genetics of ferns and lycophytes. Am J Bot. 2014;101(12):2036-2042. doi:10.3732/ajb.1400317
    8. Tian HF, Hu Q, Lu HY, Li Z. Chromosome-Scale, Haplotype-Resolved Genome Assembly of Non-Sex-Reversal Females of Swamp Eel Using High-Fidelity Long Reads and Hi-C Data. Front Genet. 2022;13:903185. Published 2022 May 18. doi:10.3389/fgene.2022.903185
    9. Cheng H, Concepcion GT, Feng X, Zhang H, Li H. Haplotype-resolved de novo assembly using phased assembly graphs withhifiasm. Nat Methods. 2021;18(2):170-175. doi:10.1038/s41592-020-01056-5