基因组组装与注释 · 工具链选型调研

最适合本项目的生物信息学软件与工具
Mugilogobius chulae 染色体级基因组组装与注释

面向 HiFi + ONT(R10) + Hi-C 的 ~1.08 Gb 硬骨鱼基因组,系统比较组装、清理、挂载、补洞、质控与注释各环节的主流工具,对照 Earth BioGenome Project / VGP 权威流程与已发表 benchmark,给出针对本项目的明确推荐。

PacBio HiFi ~91 Gb (~84×)ONT R10.4.1 Q18.3 ~87 GbHi-C ~61 Gb (~56×) Survey ~46 Gb当前 v1:N50 45.6 Mb · BUSCO 98.8% · QV 37.79

0摘要与核心结论

本报告为诸氏鲻虾虎鱼(Mugilogobius chulae,~1.08 Gb 二倍体硬骨鱼)的染色体级从头基因组项目,调研当前(2024–2026)最适合各环节的生物信息学工具。结论的总基调是:本项目已采用的核心组装链(hifiasm → purge_dups → YaHS)与当前最权威的国际计划推荐高度一致,无需推倒重来;真正的增量价值在于用对 ONT 超长数据、克制地对待"补洞"、并补齐注释阶段的工具选型

核心结论(TL;DR)

  1. 组装链已是最优解。 两项独立同行评议 benchmark 一致把 hifiasm 列为真核 HiFi 组装首选13;EBP V4(2026-01)与 VGP/Galaxy 流程明确推荐 hifiasm + purge_dups + YaHS45。本项目 v1 与之完全吻合。
  2. 近缘鱼先例独立印证。 2024–2026 年发表的同科虾虎鱼基因组(rock goby、Rhinogobius)用的正是 hifiasm → purge_dups → YaHS + BRAKER3 + RepeatModeler/RepeatMasker + InterProScan,与本报告推荐高度一致2829。注:M. chulae 已有 2021 旧基因组(contig N50 仅 261 kb),本项目是质量升级(见第 1 节)。
  3. v1 已基本达到 EBP "6.C.Q40" 标准。 scaffold N50 45.6 Mb、BUSCO C 98.8%、Dup 0.7% 均达标;唯一差距是 QV 37.79 略低于 Q40 目标,值得在定稿前评估是否提升411
  4. ONT R10 的最佳用法不是 --ul 混入,而是另跑一版 Verkko 做对比。 本项目已实测 hifiasm --ul 会使重复率从 3.7% 升到 6.2%;而 Verkko 专为 HiFi+ONT 超长读设计,HiFi-only 的 benchmark 劣势不代表其原生模式能力34
  5. 长读"补洞"应保持克制。 TGS-GapCloser 因二倍体 benchmark 差被本项目弃用,这与 VGP/EBP "重质量、不盲目补洞" 的立场一致;RagTag 参考引导仅宜做排序/patch 辅助,不应把参考偏倚带入最终定稿4
  6. 质控建议 BUSCO + compleasm 双跑。 compleasm 用 miniprot 单轮替代 BUSCO 两轮 MetaEuk,更快且完整度评估更准(T2T-CHM13 上 99.6% vs 95.7%,且 557/562 特异基因有注释支撑)10
  7. 注释阶段(下一步) 的端到端推荐工具链见 第 11 节,基于第二轮专项调研,覆盖重复→结构→功能→ncRNA→质控。

1项目背景与数据资产

明确"为什么是这套数据、现在到了哪一步",后续工具选型都围绕这一现状展开。

表 1.1 测序数据资产
数据类型平台 / 化学数据量覆盖度(按 1.08 Gb)主要用途
PacBio HiFiHiFi(CCS,>99% 准确度)~91 Gb~84×主组装、碱基准确度基础
ONT 超长读R10.4.1 Q18.3(Q20+ 化学)~87 Gb~80×跨重复 / 相位 / T2T 潜力
Hi-C染色质构象捕获~61 Gb~56×染色体级挂载
Illumina Survey短读~46 Gb~43×k-mer 基因组调查 / QV / polishing 备选
数据覆盖度达标VGP 推荐每单倍型至少 30× HiFi + 30× Hi-C(二倍体合计 60×)5。本项目 HiFi ~84×、Hi-C ~56×,满足甚至超过 VGP 推荐——数据本身不是瓶颈。

当前组装 v1 对照 EBP「6.C.Q40」标准

表 1.2 v1 指标 vs Earth BioGenome Project 质量标准411
指标EBP 6.C.Q40 目标本项目 v1达标
contig 连续性NG50 > 1 Mbscaffold N50 45.6 Mb
(contig 级亦远超 1 Mb)
达标
染色体挂载>90% 序列上染色体179 scaffolds,YaHS 挂载达标
碱基准确度Q40(<1/10⁴ 错误)QV 37.79略低
基因完整度>90% 完整单拷贝 BUSCOBUSCO C 98.8%达标
假重复<5% false duplicationBUSCO Dup 0.7%达标

结论:v1 在连续性、完整度、去冗余三方面均达到或超过 EBP 标准,唯一需要关注的是碱基准确度 QV 37.79 略低于 Q40(详见 第 6 节第 11 节 的 polishing 讨论)。

项目定位:这是一次"质量升级"而非首测M. chulae 已有一篇已发表基因组(Communications Biology 2021,~1.002 Gb、22 条染色体,BioProject PRJNA59808427),但属 PacBio RSII CLR 时代contig N50 仅 261 kb(碎)。本项目用 HiFi+ONT+Hi-C 把 contig N50 提升到 数十 Mb 量级——"由碎到染色体级 T2T 级的质量飞跃"正是本项目对外的核心卖点,发表定位应据此表述。

2长读 contig 组装

候选:hifiasm(HiFi / --ul / --hic)· Verkko · Flye · NextDenovo · LJA · HiCanu。

在 PacBio HiFi 时代,主流真核组装器已收敛到少数几款。一项 2024 年发表于 Genome Research 的 11 款 HiFi 组装软件横向评测(测试水稻、马铃薯、莲雾、人类及 34 个合成数据集)给出明确结论:"hifiasm 与 hifiasm-meta 应作为真核基因组与宏基因组 HiFi 组装的首选",hifiasm 综合性能排名第一、HiCanu 第二1。独立的 GigaScience 2023 评测也得出 LJA 与 hifiasm 性能优于其它选项、且这种优势"与数据集无关"的一致结论3

更细致地看准确度/完整度/连续性的三方权衡:在人类基因组上,只有 HiCanu、hifiasm、LJA、Verkko 四款能达到接近 100% 的完整度(其余仅约 50%,因为它们产出的是共识序列而非相位组装);在这四款里,HiCanu/LJA/Verkko 的碱基准确度略高于 hifiasm,但 hifiasm 的连续性(N50 36.4 Mb)远高于其余三者(HiCanu 4.5 Mb、LJA 299 kb、Verkko 190.5 kb,均为 HiFi-only 模式)13。对追求染色体级连续性的本项目,这个权衡明确指向 hifiasm。

表 2 长读 contig 组装器横向对比(活跃度见第 12 节
工具输入 / 算法相位能力大计划采用已发表 benchmark 结论本项目适用
hifiasmchhylp123/hifiasmHiFi(可选 +UL / +Hi-C)· overlap 图原生单倍型相位VGP / EBP / Galaxy / Sanger-ToL真核 HiFi 综合第一;连续性最高1首选 ✓
Verkkomarbl/verkkoHiFi + ONT 超长 · de Bruijn 图相位(T2T 级)VGP / T2T / EBP(Verkko2)HiFi-only 模式弱于 HiCanu;原生 HiFi+UL 模式为 T2T 级34V3 对比首选
HiCanumarbl/canuHiFi · overlap 图部分较早期 VGP综合第二;准确度高但连续性远低于 hifiasm1可选对比
LJAAntonBankevich/LJAHiFi · de Bruijn 图有限研究级与 hifiasm 并列优秀;准确度高、连续性较低3可选对比
Flyemikolmogorov/Flye噪声长读(CLR/ONT)· repeat 图广泛(非 HiFi 首选)"对噪声长读全面最优"的说法未通过验证(1-2)2仅 ONT 旁证
NextDenovoNextomics/NextDenovo噪声长读 · correct+assemble植物界常用仅在单倍体表现好,二倍体/四倍体上失败1不适用
推荐主组装继续用 hifiasm(纯 HiFi)——这是本项目 v1 的做法,与权威 benchmark 和 EBP/VGP 一致。ONT R10.4.1 超长数据应另跑一版 Verkko(HiFi+UL 原生模式)做对比(见第 5 节第 11 节),而非以 --ul 混入 hifiasm。
已证伪 / 避免"NGS 校正的 ONT-only 组装可媲美 HiFi 混合组装"(对抗验证 0-3 否决)、"NextDenovo 适合二倍体"——均不成立1。本项目以 HiFi 为主、ONT 为辅的策略是正确的。

3冗余 / 单倍型清理(purging)

候选:purge_dups · purge_haplotigs · hifiasm 内建 purging。

二倍体杂合区域常被组装成两份"假重复"contig,需在挂载前清理。purge_dups6 是该任务事实标准:EBP 明确建议"即便组装器已做相位,仍可能需要用 purge_dups 从主 contig 移除单倍型重复,再做 scaffolding"4;VGP/Galaxy 流程把 purge_dups 列为去冗余标准步骤5

表 3 purging 工具对比
工具原理依据采用本项目适用
purge_dupsdfguan/purge_dups读深直方图 + 自比对识别 haplotypic duplicate覆盖度 + 序列相似VGP / EBP / ERGA / Sanger-ToL首选 ✓(v1 已用)
purge_haplotigsskingan/purge_haplotigs读深直方图(早期方案)覆盖度早期长读流程历史方案
hifiasm 内建 (-l)组装图内 purge level 0–3图拓扑hifiasm 默认与 purge_dups 互补
推荐沿用 purge_dups(v1 已采用)。注意:"Hi-C 相位时 purge_dups 通常不必要"的说法已被对抗验证 0-3 否决5——不要因为用了 Hi-C 就跳过去冗余。可配合 hifiasm 的 -l purge level 调参,用 BUSCO Dup% 与 Merqury false-dup 验证效果(v1 Dup 0.7% 说明清理到位)。

4Hi-C 染色体级挂载

候选:YaHS · SALSA2 · 3D-DNA/Juicer · HapHiC · pin_hic。

把 contig 排序定向到染色体级,是 Hi-C scaffolding 的任务。当前最权威的推荐很明确:EBP V4 直接写明"用 YaHS 做 Hi-C/Omni-C 挂载,YaHS 优于 SALSA2 等旧工具,因为后者有已知局限"4。VGP/Galaxy 的实测也显示 YaHS 整体优于 SALSA2,且叠加 Bionano 光学图仅带来边际改善5

一项 2024 年 Frontiers in Bioinformatics 的直接挂载评测显示:在 hifiasm 组装上,YaHS 把 N50 从 26.16 Mb 提升到 32.66 Mb,而 3D-DNA 反而把 N50 砸到 3.41 Mb、SALSA2 为 16.70 Mb——YaHS 在两套组装上 N50/N90 均最高7

重要披露:benchmark 物种不匹配上述 Frontiers 评测对象是拟南芥(~135 Mb 模式植物),且其 hifiasm 组装为 HiFi+ONT(非本项目纯 HiFi)。目前不存在针对 ~1 Gb 硬骨鱼的专门 Hi-C 挂载 benchmark,引用这些数字时须明确这一点(详见第 13 节)。
表 4 Hi-C 挂载工具对比
工具算法 / 特点需参考等位感知采用 / benchmark本项目适用
YaHSc-zhou/yahscontig 接触频率图,快速、稳定8EBP 默认推荐;连续性最高47首选 ✓(v1 已用)
HapHiCzengxiaofei/HapHiC无参考、等位感知,染色体分配准Nature Plants 2024;优于依赖参考的 ALLHiC10相位/等位场景备选
SALSA2marbl/SALSA迭代式 scaffolding(早期主流)有已知局限(文档/可视化/无人工校正)4备选
3D-DNA / Juiceraidenlab/3d-dnaJuicebox 交互校正生态直接挂载 benchmark 中 N50 反降7;强在可视化校正仅校正可视化
pin_hicdfguan/pin_hic轻量 Hi-C scaffolding使用面较窄备选
推荐继续用 YaHS(v1 已采用,符合 EBP 默认推荐)。如后续要做单倍型分辨/等位感知的挂载,可评估 HapHiC。无论用哪个,都应在 PretextMap/Juicebox 接触图上人工核查并校正错误挂载(见第 6 节)。

5参考引导 scaffolding 与补洞 / 修补

候选:RagTag · quarTeT · SAMBA · LR_Gapcloser · TGS-GapCloser;以及"该不该做长读补洞"的方法学共识。

这一环节是本项目当前 V3 实验的焦点(正在测 RagTag 用近缘鱼参考做 reference-guided patch/scaffold)。需要分清两类操作:(a) 参考引导排序/补缀(RagTag scaffold/patch、quarTeT)与 (b) 长读填洞(TGS-GapCloser、LR_Gapcloser、SAMBA)。

方法学共识:补洞要克制VGP/EBP 等大计划的主流做法是"重质量、不盲目用长读填洞"——填洞容易在二倍体杂合区引入错误共识、抬高假重复。本项目此前实测 TGS-GapCloser 因二倍体 benchmark 差而弃用,这一判断与权威立场一致,应予保留4
表 5 参考引导 / 补洞工具对比
工具类型作用风险本项目用法
RagTagmalonge/RagTag参考引导correct / scaffold / patch,用近缘参考排序定向、补缀引入参考偏倚(强加参考结构)仅辅助,不入定稿
quarTeTaaranyue/quarTeT端粒/着丝粒 + 拼接TeloExplorer / GapFiller / AssemblyMapper较新,需人工核查端粒分析可用
TGS-GapCloserBGI-Qingdao/TGS-GapCloser长读填洞用长读填 scaffold gap二倍体上 benchmark 差已弃用
LR_Gapcloser / SAMBA长读填洞填洞 / 长读 scaffolding同上,质量风险非必要
推荐RagTag 当作"诊断与辅助"工具而非定稿工具:用它对照近缘鱼参考检查 v1 的排序/方向是否合理、识别可能的错误挂载,但最终参考组装不应是被参考"纠正"过的版本,以免把近缘种的结构差异当成本种真实结构。要真正减少 gap、迈向 T2T,更稳妥的路径是用 ONT 超长读在 Verkko 原生模式下重组装(见第 11 节),而不是在 v1 上做长读填洞。

6组装质量评估

候选:BUSCO · compleasm · Merqury · QUAST · gfastats · Inspector · PretextMap/Juicer · tidk/quarTeT(端粒) · GenomeScope2(k-mer)。

EBP/VGP 的质控"全家桶"已成定式:Merqury(QV/k-mer 完整度)+ BUSCO(基因完整度)+ gfastats(统计量)+ PretextMap(Hi-C 可视化),外加 Meryl + GenomeScope2 做 k-mer 谱5。本项目 v1 已用 BUSCO/QUAST/Merqury/meryl/tidk,覆盖到位。

一个值得引入的增量工具是 compleasm:它重实现了 BUSCO 的逻辑,但用单轮 miniprot 比对替代 BUSCO 的两轮 MetaEuk,速度快 3.4–14.5 倍,且完整度评估更准——在 T2T-CHM13 上 compleasm 报告 99.6% 完整度(BUSCO 为 95.7%),并且 562 个 compleasm 特异的完整基因里有 557 个能被独立注释支持,说明更高的完整度是真实的而非假阳性10

表 6 组装质控工具一览
维度工具评估内容本项目建议
基因完整度BUSCO + compleasm保守单拷贝直系同源完整度(actinopterygii_odb10)双跑互验
碱基准确度Merqury / merquryQV、k-mer 完整度、false duplication已用,关注 QV<Q40
统计量gfastats / QUASTN50/L50/contig 数/gap 等gfastats 为 VGP 标配
挂载正确性PretextMap / JuiceboxHi-C 接触图人工核查与校正定稿前必做
端粒tidk / quarTeT端粒重复(TTAGGG)分布、T2T 程度已用 tidk
k-mer 谱Meryl + GenomeScope2基因组大小/杂合度/重复估计用 Survey 数据
结构错误Inspector长读回比检错(misassembly)可选增强
推荐在现有 BUSCO/QUAST/Merqury/meryl/tidk 基础上,增加 compleasm(双跑互验完整度)+ gfastats(VGP 标准统计)+ PretextMap(接触图校正)。针对 QV 37.79 略低于 Q40:先用 Merqury 区分误差来源,再决定是否用 ONT/Illumina 做 polishing——注意"hifiasm 组装无需任何 polishing"作为绝对结论已被对抗验证否决12,是否 polish 应由 QV 数据驱动。

7重复序列注释

候选:RepeatModeler2 + RepeatMasker · EDTA · Earl Grey · RepeatExplorer2。

重复序列屏蔽(soft-masking)是基因结构注释的前置步骤——不先把转座子(TE)等重复屏蔽掉,基因预测会被大量假阳性污染。硬骨鱼基因组 TE 含量高、且富含 SINE/LINE 等非 LTR 元件,这一点直接影响工具选择。主流范式是两步:de novo 建立物种特异 TE 库 → 用 RepeatMasker 屏蔽/注释

表 7 重复序列注释工具对比
工具本质 / 算法对脊椎动物/鱼适用性已发表评测本项目适用
Earl GreyTobyBaril/EarlGrey全自动策展流程:包裹 RepeatModeler2 建库 + RepeatMasker 屏蔽,叠加 BEAT 共识延伸策展好(脊椎动物友好,自动化程度最高)MCC 0.97、分类准确率 88.5%,优于 RM2/EDTA14首选 ✓
RepeatModeler2 + RepeatMaskerDfam-consortium/RepeatModelerRepeatScout + RECON 双发现算法 + LTRharvest/LTR_retriever;RepeatMasker 负责屏蔽好(曾在斑马鱼 teleost 上基准)PNAS 2020,事实标准基线15稳妥基线
EDTAoushujun/EDTA整合 LTRharvest/LTR_FINDER/TIR-Learner/HelitronScanner 等的元流程:默认设置非 LTR(LINE/SINE)灵敏度仅 ~1%水稻 75/95/93;脊椎动物须补库才可用16不宜作鱼首选
RepeatExplorer2repeatexplorer基于低拷贝 reads(<1×) 的图聚类重复定量,REXdb 植物特异定量用途,分类偏植物Nature Protocols 202017互补(定量)
推荐首选 Earl Grey(自动化、脊椎动物友好、本质是 RepeatModeler2+RepeatMasker 的策展增强版);若偏好经典可控流程,RepeatModeler2 + RepeatMasker(已在斑马鱼等 teleost 验证)是稳妥基线。产出 soft-masked 基因组交给第 8 节的基因结构注释。
避免不要把 EDTA 当作鱼类首选:它为植物设计,对脊椎动物富含的 SINE/LINE 默认灵敏度极低(~1%),除非额外补 Repbase/RepeatModeler2 库16。RepeatExplorer2 是 reads 级重复定量工具,与组装级屏蔽互补而非替代

8基因结构注释

候选:BRAKER3 · Helixer · GALBA · MAKER2 · AUGUSTUS · StringTie/PsiCLASS。

在 soft-masked 基因组上预测基因结构。选型的第一决策点是:有没有(或能不能产出)RNA-seq 证据。这决定了走哪条路线。当前最优工具来自 BRAKER/AUGUSTUS 团队(Stanke 组)与深度学习两个流派。

表 8 基因结构注释工具对比
工具证据类型算法核心脊椎动物准确度 / benchmark本项目适用
BRAKER3Gaius-Augustus/BRAKERRNA-seq + 蛋白库GeneMark-ETP + AUGUSTUS + TSEBRA 合并转录本级 F1 较旧版 +~20 点;横评胜 MAKER2/Funannotate/FINDER18有 RNA-seq 首选 ✓
GALBAGaius-Augustus/GALBA仅蛋白同源(无 RNA-seq)miniprot + AUGUSTUS大脊椎动物 exon F1>90%、gene F1>70%,gene 级超 BRAKER2 ~42 点19无 RNA-seq 首选 ✓
Helixer / Tiberiusweberlab-hhu/Helixer纯 DNA(深度学习从头)CNN+biLSTM(+HMM) 逐碱基预测跨数百真核基因组验证;DNA-only20DL 交叉验证/补充
MAKER2Yandell-Lab/maker证据整合(EST/蛋白/从头)证据驱动注释流水线较早期;横评中被 BRAKER3 超越18传统备选
AUGUSTUSGaius-Augustus/Augustus从头 + 提示HMM 基因预测引擎BRAKER/GALBA 内部预测引擎底层引擎
StringTie / PsiCLASSRNA-seq 转录本组装剪接图转录本重建产出转录本证据(非完整注释)RNA-seq 证据准备
推荐(分两条路线) ① 有 / 可产出 RNA-seq →BRAKER3(整合 RNA-seq + 近缘鱼蛋白库,当前脊椎动物注释最强自动流程)。
② 无 RNA-seq →GALBA(miniprot+AUGUSTUS,专为大型脊椎动物的纯蛋白同源场景设计)。本项目 ~1.08 Gb 正落在 GALBA 验证的大脊椎动物区间(斑马鱼 ~1.35 Gb、鸡 ~1.05 Gb),证据高度相关19
可选增强:GALBA+BRAKER2 经 TSEBRA 合并再加 ~10–13 点;或用 Helixer 做 DNA-only 交叉验证。
对发表的建议发表级注释强烈建议产出多组织 RNA-seq(如肝/脑/肌/性腺等),走 BRAKER3 路线——这是当前脊椎动物基因组论文的主流做法,注释质量与可信度都明显高于纯从头/纯同源。

9功能注释与非编码 RNA

候选:eggNOG-mapper · InterProScan · BlastKOALA/KEGG · DIAMOND;tRNAscan-SE · Infernal+Rfam · barrnap。

拿到基因结构(蛋白序列)后,功能注释赋予基因生物学含义,ncRNA 注释补全非编码部分,最后做注释质控。这几环已有高度成熟的领域标准组合,争议小,重点是"用对组合"而非"选哪个唯一最优"。

9.1 功能注释

表 9.1 功能注释工具(推荐组合使用)
工具注释内容依赖数据库角色
eggNOG-mapper直系同源推断 → GO / KEGG / COG / 描述eggNOG(含鱼类谱系)主力(快、覆盖广)21
InterProScan蛋白结构域 / 家族 / motif(Pfam 等多库)InterPro 成员库主力(结构域/GO)25
DIAMOND + Swiss-Prot/nr同源比对 → 基因命名 / 描述UniProt Swiss-Prot、NCBI nr命名补充
KofamKOALA / BlastKOALAKEGG 通路 / KO 注释KEGG通路分析

9.2 非编码 RNA(ncRNA)

表 9.2 ncRNA 注释标准组合
类型工具说明
tRNAtRNAscan-SE 2.0tRNA 基因预测的事实标准26
其他 ncRNA(miRNA/snoRNA/snRNA 等)Infernal + Rfam协方差模型扫描 Rfam 家族22
rRNAbarrnap(或 RNAmmer)快速 rRNA 检测

9.3 注释质量评估

表 9.3 注释(gene set)质控
工具评估内容本项目建议
BUSCO + compleasm(蛋白模式)基因集完整度(actinopterygii_odb10)双跑互验10
OMArk基于直系同源的一致性 / 污染 / 冗余检查推荐增量23
推荐功能注释用 eggNOG-mapper + InterProScan 双管齐下(前者给同源/通路、后者给结构域),辅以 DIAMOND/Swiss-Prot 命名与 KEGG 通路;ncRNA 用 tRNAscan-SE + Infernal/Rfam + barrnap 标准三件套;注释质控用 BUSCO + compleasm 蛋白模式 + OMArk
证据等级说明本节工具为领域标准组合(争议小),来源以各工具权威文献与官方流程为准;其相对优劣未做本轮三票对抗 benchmark(与第 2、7、8 节不同)——但这些工具在脊椎动物注释中的标准地位是公认的。

10工作流框架与权威参考流程

不重造轮子:直接对标国际大计划已固化的流程。

EBP/VGP/Galaxy 的权威参考流程已高度标准化,且与本项目 v1 路线高度一致:

hifiasm相位 contig
Meryl + GenomeScope2k-mer 谱
purge_dups去单倍型冗余
YaHSHi-C 挂载
Merqury+BUSCO+gfastats+PretextMap质控
表 10 权威流程 / 框架对比
框架形态核心工具对本项目的价值
EBP 推荐 (V4, 2026-01)规范文档hifiasm/Verkko2 + purge_dups + YaHS + Merqury/BUSCO选型与验收的总纲4
VGP-Galaxy pipelineGalaxy 工作流同上 + gfastats + PretextMap可复现的参数基线5
Sanger-ToL / DToLNextflowgenomeassembly + genomenote生产级流水线参照13
nf-core / SnakemakeNextflow / Snakemake社区组装流程工程化与可复现
结论本项目 v1 流程(hifiasm → purge_dups → YaHS + BUSCO/QUAST/Merqury/meryl/tidk)与 EBP/VGP/Galaxy 标准流程高度吻合。可直接把 Sanger-ToL 的 Nextflow 流水线作为参数与验收对照,无需自创流程。

11本项目推荐工具链

两段式落地建议:(A) 组装如何定稿;(B) 注释阶段端到端工具链。先看近缘鱼先例——它们独立印证了本报告的选型。

近缘虾虎鱼基因组先例(方法学参照)

最有说服力的佐证,是看同科(Gobiidae)/同体量的已发表鱼基因组实际用了什么。结论很清楚:2024–2026 年发表的近缘虾虎鱼基因组,用的正是本报告推荐的这套工具链。

表 11 近缘 / 同体量虾虎鱼基因组的已发表工具链
物种体量 / 质量测序组装链注释链来源
Gobius paganellus
rock goby(最现代模板)
813 Mb
contig N50 20.3 Mb
BUSCO 98.8%
HiFi + Hi-C + RNA-seqhifiasm 0.25 → purge_dups → YaHS → PretextView 手工校正RepeatModeler2+RepeatMasker · BRAKER3 · BLASTp/Swiss-ProtSci Data 202629
Rhinogobius duospilus
体量最接近
1.03 Gb
contig N50 6.58 Mb
BUSCO 95%
HiFi + Hi-C + RNA-seqhifiasm → Juicer → 3D-DNA → Juicebox 校正RepeatMasker+de novo · BRAKER3 · InterProScanG3 202628
Scartelaos histophorus
大鳍弹涂鱼
869 Mb
contig N50 9.02 Mb
BUSCO 96.7%
HiFi + Hi-C + RNA-seqhifiasm → Juicer → 3D-DNARepeatModeler2+RepeatMasker · GeneMark+AUGUSTUS+EVM · InterProScan/KEGGFront Mar Sci 202230
两点重要提示① 已发表的虾虎鱼多为 HiFi + Hi-C很少把 ONT 用于最终组装——本项目的 ONT R10 是差异化优势,若用于 V3,参数可参照同时用 PacBio+ONT+Hi-C 的弹涂鱼重组装(J. Adv. Res. 202431)。② 近缘鱼 Hi-C 挂载有两条主流:YaHS(rock goby,最新)与 Juicer+3D-DNA+Juicebox 手工校正(多数)——本项目 v1 选 YaHS 与最新趋势一致,但手工校正接触图这一步建议补上。

(A) 组装定稿

1. 主组装保持 v1 路线。 hifiasm(HiFi) → purge_dups → YaHS 与 EBP/VGP 完全一致,v1 指标已达 EBP 标准,作为当前最终参考是稳妥的45

2. 把 ONT R10 用在刀刃上:另跑一版 Verkko(HiFi+UL 原生模式)做对比。 不要用 hifiasm --ul 混入(已实测使 Dup 3.7%→6.2%)。Verkko 专为该组合设计,HiFi-only 的 benchmark 劣势不代表原生模式能力;用 Merqury/BUSCO/PretextMap 与 v1 直接 PK,胜出者为终版34

3. 补洞克制、参考慎用。 维持弃用 TGS-GapCloser 的决定;RagTag 仅作排序/方向诊断与 patch 辅助,不把参考"纠正"过的版本作为定稿,避免参考偏倚4

4. 全套质控 + 处理 QV。 BUSCO + compleasm 双跑(actinopterygii_odb10)、Merqury QV、gfastats、PretextMap 接触图、tidk/quarTeT 端粒。针对 QV 37.79<Q40,由 Merqury 误差来源决定是否 polishing10

置信度说明核心工具选择有 high 证据支撑;"Verkko 另跑对比"与"补洞取舍"是基于权威立场的工程建议(缺针对硬骨鱼/~1 Gb 的直接 benchmark),属 medium 置信度。

(B) 注释阶段工具链

定稿组装后,按"重复 → 结构 → 功能 → ncRNA → 质控"顺序推进。端到端推荐工具链:

Earl Grey重复建库+软屏蔽
BRAKER3 / GALBA基因结构(有/无 RNA-seq)
eggNOG-mapper + InterProScan功能注释
tRNAscan-SE + Infernal/RfamncRNA
BUSCO+compleasm+OMArk质控

1. 重复屏蔽:Earl Grey(或 RepeatModeler2+RepeatMasker)做 de novo TE 库并产出 soft-masked 基因组;不用 EDTA 作鱼类首选1416

2. 基因结构:能产出 RNA-seq 就走 BRAKER3(RNA-seq+近缘鱼蛋白);否则走 GALBA(纯蛋白同源,正对本项目 ~1 Gb 体量)。可用 Helixer 做 DNA-only 交叉验证1819

3. 功能注释:eggNOG-mapper + InterProScan 组合,DIAMOND/Swiss-Prot 命名、KEGG 通路2125

4. ncRNA:tRNAscan-SE + Infernal/Rfam + barrnap22

5. 注释质控:BUSCO + compleasm 蛋白模式 + OMArk,确认基因集完整度与一致性1023

省心替代:一体化框架若想用经大计划验证的"开箱即用"流程,可考虑 NCBI EGAPx(NCBI 真核注释流程开源版)或 Ensembl / DToL genebuild;中小型项目亦可用 funannotate 一体化封装24。本项目作为学术发表,建议主走 Earl Grey + BRAKER3/GALBA 的可控流程,并参照已发表近缘鱼基因组的参数(见第 12 节)。
置信度说明第 7、8 节(重复、结构)有 high 证据的对抗验证 benchmark 支撑;第 9 节(功能/ncRNA)为领域标准组合(未单独 benchmark)。注释工具演进快(Helixer 已支持可选 RNA-seq、BRAKER/GALBA 持续更新),执行前请核对当前发行版能力。

12核心工具活跃度速览

GitHub stars 量级与最近 release 时间(2024–2026),衡量维护活跃度与社区采用。

下表 stars 与最近 release 经 GitHub API / GitLab tags 核实(核对日期 2026-06-17)。stars 取整。

表 12.1 组装 / Scaffolding / 质控工具活跃度
工具repostars最近 release日期
hifiasmchhylp123/hifiasm~8000.25.02025-03
Verkkomarbl/verkko~400v2.3.22026-03
Flyemikolmogorov/Flye~9002.9.62025-05
NextDenovoNextomics/NextDenovo~4002.5.22023-03
purge_dupsdfguan/purge_dups~300v1.2.62022 *
YaHSc-zhou/yahs~200v1.2.22024-09
SALSA2marbl/SALSA~200v2.32021 *
3D-DNAaidenlab/3d-dna~2002010082021 *
RagTagmalonge/RagTag~600v2.1.02021 *
quarTeTaaranyue/quarTeT~200v1.2.52025-01
Merqurymarbl/merqury~300v1.32021 *
compleasmhuangnengCSU/compleasm~200v0.2.82026-06
BUSCOgitlab ezlab/buscoGitLab6.1.02026-06
gfastatsvgl-hub/gfastats~100v1.3.112025-05
tidktolkit/telomeric-identifier~200v0.2.72025-11
PretextMapsanger-tol/PretextMap~300.2.42026-03
表 12.2 注释工具活跃度
工具repostars最近 release日期
Earl GreyTobyBaril/EarlGrey~200v7.2.62026-06
RepeatModeler2Dfam-consortium/RepeatModeler~2002.0.92026-06
EDTAoushujun/EDTA~500v2.3.02026-03
BRAKER3Gaius-Augustus/BRAKER~500v3.0.82024-02
GALBAGaius-Augustus/GALBA~100v1.0.112023-12
Helixerusadellab/Helixer~300v0.3.62025-10
AUGUSTUSGaius-Augustus/Augustus~300v3.5.02022 *
eggNOG-mappereggnogdb/eggnog-mapper~700v2.1.142026-05
InterProScanebi-pf-team/interproscan~4005.78-109.02026-06
tRNAscan-SEUCSC-LoweLab/tRNAscan-SE~100v2.0.122022 *
InfernalEddyRivasLab/infernal~1001.1.52023-09
barrnaptseemann/barrnap~300v1.10.52026-04
funannotatenextgenusfs/funannotate~400v1.8.172024-03
OMArkDessimozLab/OMArk~100v0.4.12025-12
读表说明* = 最近正式 release 停在 2023 年前(purge_dups / SALSA2 / 3D-DNA / RagTag / Merqury / AUGUSTUS / tRNAscan-SE)——这些是已固化的"事实标准"工具,版本稳定不等于弃维护,仍是行业默认。仓库迁移提示:tidk 现为 tolkit/telomeric-identifier、PretextMap 现由 sanger-tol 维护、Helixer 现为 usadellab/Helixer

13方法学说明与局限

本报告由多源 Web 检索 + 三票对抗式事实核查生成:对每条关键结论独立检索来源、提取可证伪断言、由多个核查者尝试反驳,需多数票通过才采纳。共两轮专项调研——第一轮(组装)抓取 31 个来源、提取 152 条断言、核验 25 条、确认 18、否决 7;第二轮(注释)抓取 25 个来源、核验 25 条、确认 22、否决 3;另对工具 GitHub 活跃度与近缘鱼先例做定向核验(GitHub API + 已发表论文)。各节标注了证据等级:组装与重复/结构注释为对抗验证的 benchmark 结论,功能/ncRNA 为领域标准组合。

必须知晓的局限

  • 物种不匹配:所有已验证 benchmark 均非硬骨鱼(用的是水稻/马铃薯/人类/酵母/拟南芥)。目前不存在针对 ~1 Gb teleost 的专门组装/挂载 benchmark,结论外推到本物种时已尽量 hedge。
  • Verkko HiFi-only 偏倚:Verkko 的劣势结论来自 HiFi-only 模式,其设计用途是 HiFi+ONT 超长——这正是本项目应在 V3 验证的配置。
  • 开发者自评:compleasm/HapHiC 的部分指标为作者自家 benchmark(虽有独立佐证),compleasm 高完整度结论为人类特异。
  • 时效性:长读组装演进快(Verkko2、hifiasm 整合 HiFi+UL+Hi-C),实际执行前应核实工具最新 release。

已证伪的常见误区(不应写入结论)

对抗验证否决(0-3 / 1-2) ① "Hi-C 相位时 purge_dups 不必要"(0-3);② "NGS 校正的 ONT-only 可替代 HiFi"(0-3);③ "hifiasm 组装无需任何 polishing"(0-3);④ "Flye 对噪声长读全面最优"(1-2);⑤ "HapHiC 全面优于 YaHS/3D-DNA/SALSA2"(自报性能,0-3,缺并排数字)。

参考来源

  1. Yu, Wang et al. A comprehensive benchmark of 11 de novo HiFi assemblers. Genome Research 2024, 34(2):326. genome.cshlp.org/content/34/2/326
  2. 同行评测(CLR/ONT 噪声长读部分)。GigaScience 2023, giad100. doi:10.1093/gigascience/giad100
  3. HiFi 组装器 benchmark 预印本(含 N50/完整度/准确度三方权衡)。bioRxiv 2023.06.29.546998. biorxiv.org/.../546998v1
  4. Earth BioGenome Project. Report on Assembly Recommendations (Version 4, Jan 2026). earthbiogenome.org/report-on-assembly-recommendations
  5. Larivière et al. VGP / Galaxy genome assembly pipeline. Nature Biotechnology (PMC10327048). pmc.../PMC10327048
  6. Guan et al. purge_dups. Bioinformatics 2020, 36(9):2896. doi:10.1093/bioinformatics/btaa025
  7. Obinu, Trivedi, Porceddu. Benchmarking of Hi-C tools for scaffolding (plant genomes). Frontiers in Bioinformatics 2024, 4:1462923 (PMC11604747). pmc.../PMC11604747
  8. Zhou et al. YaHS. Bioinformatics 2023, 39(1):btac808. doi:10.1093/bioinformatics/btac808
  9. Huang & Li. compleasm. Bioinformatics 2023, 39(10):btad595 (PMC10558035). pmc.../PMC10558035
  10. Zeng et al. HapHiC: reference-independent, allele-aware Hi-C scaffolding. Nature Plants 2024, 10:1184. doi:10.1038/s41477-024-01755-3
  11. Rhie et al. EBP / VGP quality standards (6.C.Q40). PNAS / Nature (PMC8795494). pmc.../PMC8795494
  12. Long-read sequencing technologies & algorithms review. Genomics 2024. sciencedirect.com/.../S0888754324000636
  13. Sanger Tree of Life pipelines: sanger-tol/genomeassembly · genomenote
  14. Baril, Galbraith & Hayward. Earl Grey: automated TE annotation. Mol Biol Evol 2024, 41(4):msae068 (PMC11003543). pmc.../PMC11003543 · github.com/TobyBaril/EarlGrey
  15. Flynn et al. RepeatModeler2. PNAS 2020, 117(17):9451 (PMC7196820). doi:10.1073/pnas.1921046117
  16. Ou et al. EDTA. Genome Biology 2019 (PMC6913007); 及作者 2024 Response on vertebrate limitations (PMC10762968). PMC6913007 · PMC10762968
  17. Novák et al. RepeatExplorer2. Nature Protocols 2020. doi:10.1038/s41596-020-0400-y
  18. Gabriel et al. BRAKER3. Genome Research 2024, 34(5):769 (PMC11216308 / gr.278090.123). genome.cshlp.org/content/34/5/769
  19. Brůna, Hoff, Stanke et al. GALBA. BMC Bioinformatics 2023 (PMC10472564). doi:10.1186/s12859-023-05449-z
  20. Stiehler et al. Helixer. Bioinformatics 2020, 36(22-23):5291; Gabriel et al. Tiberius. Bioinformatics 2024, 40(12):btae685. Helixer · Tiberius
  21. Cantalapiedra et al. eggNOG-mapper v2. Mol Biol Evol 2021, 38(12):5825. doi:10.1093/molbev/msab293
  22. Rfam / Infernal genome annotation 文档与 Nawrocki & Eddy, Infernal 1.1. docs.rfam.org/.../genome-annotation
  23. Nevers et al. OMArk: proteome quality & consistency. NAR Genomics & Bioinformatics 2025, 7(1):lqae189. doi:10.1093/nargab/lqae189
  24. 一体化注释框架:NCBI EGAPx · Ensembl/DToL genebuild · funannotate
  25. Jones et al. InterProScan 5. Bioinformatics 2014, 30(9):1236. doi:10.1093/bioinformatics/btu031
  26. Chan, Lin, Lowe et al. tRNAscan-SE 2.0.(及 Lowe & Eddy 1997)github.com/UCSC-LoweLab/tRNAscan-SE
  27. 诸氏鲻虾虎鱼现有基因组: Whole-genome sequencing reveals sex determination and liver high-fat storage of yellowstripe goby (M. chulae). Communications Biology 2021 (PMC7782490; BioProject PRJNA598084). doi:10.1038/s42003-020-01541-9
  28. 先例:Rhinogobius duospilus chromosome-level genome. G3: Genes|Genomes|Genetics 2026, jkaf278. academic.oup.com/g3journal/.../jkaf278
  29. 先例(现代模板):Gobius paganellus (rock goby) genome. Scientific Data 2026 (PMC12957465; PRJNA1298813). pmc.../PMC12957465
  30. 先例:Scartelaos histophorus (大鳍弹涂鱼) genome. Frontiers in Marine Science 2022. doi:10.3389/fmars.2022.966275
  31. ONT 参数先例:弹涂鱼 (mudskippers) 重组装 PacBio+ONT+Hi-C+Illumina. Journal of Advanced Research 2024 (PMC10982859). pmc.../PMC10982859