基因组组装与注释 · 工具链选型调研

最适合本项目的生物信息学软件与工具
Mugilogobius chulae 染色体级基因组组装与注释

面向 HiFi + ONT(R10) + Hi-C 的 ~1.08 Gb 硬骨鱼基因组，系统比较组装、清理、挂载、补洞、质控与注释各环节的主流工具，对照 Earth BioGenome Project / VGP 权威流程与已发表 benchmark，给出针对本项目的明确推荐。

PacBio HiFi ~91 Gb (~84×)ONT R10.4.1 Q18.3 ~87 GbHi-C ~61 Gb (~56×) Survey ~46 Gb当前 v1：N50 45.6 Mb · BUSCO 98.8% · QV 37.79

0摘要与核心结论

本报告为诸氏鲻虾虎鱼（Mugilogobius chulae，~1.08 Gb 二倍体硬骨鱼）的染色体级从头基因组项目，调研当前（2024–2026）最适合各环节的生物信息学工具。结论的总基调是：本项目已采用的核心组装链（hifiasm → purge_dups → YaHS）与当前最权威的国际计划推荐高度一致，无需推倒重来；真正的增量价值在于用对 ONT 超长数据、克制地对待"补洞"、并补齐注释阶段的工具选型。

核心结论（TL;DR）

组装链已是最优解。 两项独立同行评议 benchmark 一致把 hifiasm 列为真核 HiFi 组装首选¹³；EBP V4（2026-01）与 VGP/Galaxy 流程明确推荐 hifiasm + purge_dups + YaHS⁴⁵。本项目 v1 与之完全吻合。
近缘鱼先例独立印证。 2024–2026 年发表的同科虾虎鱼基因组（rock goby、Rhinogobius）用的正是 hifiasm → purge_dups → YaHS + BRAKER3 + RepeatModeler/RepeatMasker + InterProScan，与本报告推荐高度一致²⁸²⁹。注：M. chulae 已有 2021 旧基因组（contig N50 仅 261 kb），本项目是质量升级（见第 1 节）。
v1 已基本达到 EBP "6.C.Q40" 标准。 scaffold N50 45.6 Mb、BUSCO C 98.8%、Dup 0.7% 均达标；唯一差距是 QV 37.79 略低于 Q40 目标，值得在定稿前评估是否提升⁴¹¹。
ONT R10 的最佳用法不是 --ul 混入，而是另跑一版 Verkko 做对比。 本项目已实测 hifiasm --ul 会使重复率从 3.7% 升到 6.2%；而 Verkko 专为 HiFi+ONT 超长读设计，HiFi-only 的 benchmark 劣势不代表其原生模式能力³⁴。
长读"补洞"应保持克制。 TGS-GapCloser 因二倍体 benchmark 差被本项目弃用，这与 VGP/EBP "重质量、不盲目补洞" 的立场一致；RagTag 参考引导仅宜做排序/patch 辅助，不应把参考偏倚带入最终定稿⁴。
质控建议 BUSCO + compleasm 双跑。 compleasm 用 miniprot 单轮替代 BUSCO 两轮 MetaEuk，更快且完整度评估更准（T2T-CHM13 上 99.6% vs 95.7%，且 557/562 特异基因有注释支撑）¹⁰。
注释阶段（下一步） 的端到端推荐工具链见第 11 节，基于第二轮专项调研，覆盖重复→结构→功能→ncRNA→质控。

1项目背景与数据资产

明确"为什么是这套数据、现在到了哪一步"，后续工具选型都围绕这一现状展开。

表 1.1　测序数据资产
数据类型	平台 / 化学	数据量	覆盖度(按 1.08 Gb)	主要用途
PacBio HiFi	HiFi（CCS，>99% 准确度）	~91 Gb	~84×	主组装、碱基准确度基础
ONT 超长读	R10.4.1 Q18.3（Q20+ 化学）	~87 Gb	~80×	跨重复 / 相位 / T2T 潜力
Hi-C	染色质构象捕获	~61 Gb	~56×	染色体级挂载
Illumina Survey	短读	~46 Gb	~43×	k-mer 基因组调查 / QV / polishing 备选

数据覆盖度达标VGP 推荐每单倍型至少 30× HiFi + 30× Hi-C（二倍体合计 60×）⁵。本项目 HiFi ~84×、Hi-C ~56×，满足甚至超过 VGP 推荐——数据本身不是瓶颈。

当前组装 v1 对照 EBP「6.C.Q40」标准

表 1.2　v1 指标 vs Earth BioGenome Project 质量标准⁴¹¹
指标	EBP 6.C.Q40 目标	本项目 v1	达标
contig 连续性	NG50 > 1 Mb	scaffold N50 45.6 Mb （contig 级亦远超 1 Mb）	达标
染色体挂载	>90% 序列上染色体	179 scaffolds，YaHS 挂载	达标
碱基准确度	Q40（<1/10⁴ 错误）	QV 37.79	略低
基因完整度	>90% 完整单拷贝 BUSCO	BUSCO C 98.8%	达标
假重复	<5% false duplication	BUSCO Dup 0.7%	达标

结论：v1 在连续性、完整度、去冗余三方面均达到或超过 EBP 标准，唯一需要关注的是碱基准确度 QV 37.79 略低于 Q40（详见第 6 节与第 11 节的 polishing 讨论）。

项目定位：这是一次"质量升级"而非首测M. chulae 已有一篇已发表基因组（Communications Biology 2021，~1.002 Gb、22 条染色体，BioProject PRJNA598084²⁷），但属 PacBio RSII CLR 时代、contig N50 仅 261 kb（碎）。本项目用 HiFi+ONT+Hi-C 把 contig N50 提升到 数十 Mb 量级——"由碎到染色体级 T2T 级的质量飞跃"正是本项目对外的核心卖点，发表定位应据此表述。

2长读 contig 组装

候选：hifiasm（HiFi / --ul / --hic）· Verkko · Flye · NextDenovo · LJA · HiCanu。

在 PacBio HiFi 时代，主流真核组装器已收敛到少数几款。一项 2024 年发表于 Genome Research 的 11 款 HiFi 组装软件横向评测（测试水稻、马铃薯、莲雾、人类及 34 个合成数据集）给出明确结论："hifiasm 与 hifiasm-meta 应作为真核基因组与宏基因组 HiFi 组装的首选"，hifiasm 综合性能排名第一、HiCanu 第二¹。独立的 GigaScience 2023 评测也得出 LJA 与 hifiasm 性能优于其它选项、且这种优势"与数据集无关"的一致结论³。

更细致地看准确度/完整度/连续性的三方权衡：在人类基因组上，只有 HiCanu、hifiasm、LJA、Verkko 四款能达到接近 100% 的完整度（其余仅约 50%，因为它们产出的是共识序列而非相位组装）；在这四款里，HiCanu/LJA/Verkko 的碱基准确度略高于 hifiasm，但 hifiasm 的连续性（N50 36.4 Mb）远高于其余三者（HiCanu 4.5 Mb、LJA 299 kb、Verkko 190.5 kb，均为 HiFi-only 模式）¹³。对追求染色体级连续性的本项目，这个权衡明确指向 hifiasm。

表 2　长读 contig 组装器横向对比（活跃度见第 12 节）
工具	输入 / 算法	相位能力	大计划采用	已发表 benchmark 结论	本项目适用
hifiasmchhylp123/hifiasm	HiFi（可选 +UL / +Hi-C）· overlap 图	原生单倍型相位	VGP / EBP / Galaxy / Sanger-ToL	真核 HiFi 综合第一；连续性最高¹	首选 ✓
Verkkomarbl/verkko	HiFi + ONT 超长 · de Bruijn 图	相位（T2T 级）	VGP / T2T / EBP（Verkko2）	HiFi-only 模式弱于 HiCanu；原生 HiFi+UL 模式为 T2T 级³⁴	V3 对比首选
HiCanumarbl/canu	HiFi · overlap 图	部分	较早期 VGP	综合第二；准确度高但连续性远低于 hifiasm¹	可选对比
LJAAntonBankevich/LJA	HiFi · de Bruijn 图	有限	研究级	与 hifiasm 并列优秀；准确度高、连续性较低³	可选对比
Flyemikolmogorov/Flye	噪声长读（CLR/ONT）· repeat 图	否	广泛（非 HiFi 首选）	"对噪声长读全面最优"的说法未通过验证（1-2）²	仅 ONT 旁证
NextDenovoNextomics/NextDenovo	噪声长读 · correct+assemble	否	植物界常用	仅在单倍体表现好，二倍体/四倍体上失败¹	不适用

推荐主组装继续用 hifiasm（纯 HiFi）——这是本项目 v1 的做法，与权威 benchmark 和 EBP/VGP 一致。ONT R10.4.1 超长数据应另跑一版 Verkko（HiFi+UL 原生模式）做对比（见第 5 节与第 11 节），而非以 --ul 混入 hifiasm。

已证伪 / 避免"NGS 校正的 ONT-only 组装可媲美 HiFi 混合组装"（对抗验证 0-3 否决）、"NextDenovo 适合二倍体"——均不成立¹。本项目以 HiFi 为主、ONT 为辅的策略是正确的。

3冗余 / 单倍型清理（purging）

候选：purge_dups · purge_haplotigs · hifiasm 内建 purging。

二倍体杂合区域常被组装成两份"假重复"contig，需在挂载前清理。purge_dups⁶ 是该任务事实标准：EBP 明确建议"即便组装器已做相位，仍可能需要用 purge_dups 从主 contig 移除单倍型重复，再做 scaffolding"⁴；VGP/Galaxy 流程把 purge_dups 列为去冗余标准步骤⁵。

表 3　purging 工具对比
工具	原理	依据	采用	本项目适用
purge_dupsdfguan/purge_dups	读深直方图 + 自比对识别 haplotypic duplicate	覆盖度 + 序列相似	VGP / EBP / ERGA / Sanger-ToL	首选 ✓（v1 已用）
purge_haplotigsskingan/purge_haplotigs	读深直方图（早期方案）	覆盖度	早期长读流程	历史方案
hifiasm 内建 (-l)	组装图内 purge level 0–3	图拓扑	hifiasm 默认	与 purge_dups 互补

推荐沿用 purge_dups（v1 已采用）。注意："Hi-C 相位时 purge_dups 通常不必要"的说法已被对抗验证 0-3 否决⁵——不要因为用了 Hi-C 就跳过去冗余。可配合 hifiasm 的 -l purge level 调参，用 BUSCO Dup% 与 Merqury false-dup 验证效果（v1 Dup 0.7% 说明清理到位）。

4Hi-C 染色体级挂载

候选：YaHS · SALSA2 · 3D-DNA/Juicer · HapHiC · pin_hic。

把 contig 排序定向到染色体级，是 Hi-C scaffolding 的任务。当前最权威的推荐很明确：EBP V4 直接写明"用 YaHS 做 Hi-C/Omni-C 挂载，YaHS 优于 SALSA2 等旧工具，因为后者有已知局限"⁴。VGP/Galaxy 的实测也显示 YaHS 整体优于 SALSA2，且叠加 Bionano 光学图仅带来边际改善⁵。

一项 2024 年 Frontiers in Bioinformatics 的直接挂载评测显示：在 hifiasm 组装上，YaHS 把 N50 从 26.16 Mb 提升到 32.66 Mb，而 3D-DNA 反而把 N50 砸到 3.41 Mb、SALSA2 为 16.70 Mb——YaHS 在两套组装上 N50/N90 均最高⁷。

重要披露：benchmark 物种不匹配上述 Frontiers 评测对象是拟南芥（~135 Mb 模式植物），且其 hifiasm 组装为 HiFi+ONT（非本项目纯 HiFi）。目前不存在针对 ~1 Gb 硬骨鱼的专门 Hi-C 挂载 benchmark，引用这些数字时须明确这一点（详见第 13 节）。

表 4　Hi-C 挂载工具对比
工具	算法 / 特点	需参考	等位感知	采用 / benchmark	本项目适用
YaHSc-zhou/yahs	contig 接触频率图，快速、稳定⁸	否	否	EBP 默认推荐；连续性最高⁴⁷	首选 ✓（v1 已用）
HapHiCzengxiaofei/HapHiC	无参考、等位感知，染色体分配准	否	是	Nature Plants 2024；优于依赖参考的 ALLHiC¹⁰	相位/等位场景备选
SALSA2marbl/SALSA	迭代式 scaffolding（早期主流）	否	否	有已知局限（文档/可视化/无人工校正）⁴	备选
3D-DNA / Juiceraidenlab/3d-dna	Juicebox 交互校正生态	否	否	直接挂载 benchmark 中 N50 反降⁷；强在可视化校正	仅校正可视化
pin_hicdfguan/pin_hic	轻量 Hi-C scaffolding	否	否	使用面较窄	备选

推荐继续用 YaHS（v1 已采用，符合 EBP 默认推荐）。如后续要做单倍型分辨/等位感知的挂载，可评估 HapHiC。无论用哪个，都应在 PretextMap/Juicebox 接触图上人工核查并校正错误挂载（见第 6 节）。

5参考引导 scaffolding 与补洞 / 修补

候选：RagTag · quarTeT · SAMBA · LR_Gapcloser · TGS-GapCloser；以及"该不该做长读补洞"的方法学共识。

这一环节是本项目当前 V3 实验的焦点（正在测 RagTag 用近缘鱼参考做 reference-guided patch/scaffold）。需要分清两类操作：(a) 参考引导排序/补缀（RagTag scaffold/patch、quarTeT）与 (b) 长读填洞（TGS-GapCloser、LR_Gapcloser、SAMBA）。

方法学共识：补洞要克制VGP/EBP 等大计划的主流做法是"重质量、不盲目用长读填洞"——填洞容易在二倍体杂合区引入错误共识、抬高假重复。本项目此前实测 TGS-GapCloser 因二倍体 benchmark 差而弃用，这一判断与权威立场一致，应予保留⁴。

表 5　参考引导 / 补洞工具对比
工具	类型	作用	风险	本项目用法
RagTagmalonge/RagTag	参考引导	correct / scaffold / patch，用近缘参考排序定向、补缀	引入参考偏倚（强加参考结构）	仅辅助，不入定稿
quarTeTaaranyue/quarTeT	端粒/着丝粒 + 拼接	TeloExplorer / GapFiller / AssemblyMapper	较新，需人工核查	端粒分析可用
TGS-GapCloserBGI-Qingdao/TGS-GapCloser	长读填洞	用长读填 scaffold gap	二倍体上 benchmark 差	已弃用
LR_Gapcloser / SAMBA	长读填洞	填洞 / 长读 scaffolding	同上，质量风险	非必要

推荐把 RagTag 当作"诊断与辅助"工具而非定稿工具：用它对照近缘鱼参考检查 v1 的排序/方向是否合理、识别可能的错误挂载，但最终参考组装不应是被参考"纠正"过的版本，以免把近缘种的结构差异当成本种真实结构。要真正减少 gap、迈向 T2T，更稳妥的路径是用 ONT 超长读在 Verkko 原生模式下重组装（见第 11 节），而不是在 v1 上做长读填洞。

6组装质量评估

候选：BUSCO · compleasm · Merqury · QUAST · gfastats · Inspector · PretextMap/Juicer · tidk/quarTeT(端粒) · GenomeScope2(k-mer)。

EBP/VGP 的质控"全家桶"已成定式：Merqury（QV/k-mer 完整度）+ BUSCO（基因完整度）+ gfastats（统计量）+ PretextMap（Hi-C 可视化），外加 Meryl + GenomeScope2 做 k-mer 谱⁵。本项目 v1 已用 BUSCO/QUAST/Merqury/meryl/tidk，覆盖到位。

一个值得引入的增量工具是 compleasm：它重实现了 BUSCO 的逻辑，但用单轮 miniprot 比对替代 BUSCO 的两轮 MetaEuk，速度快 3.4–14.5 倍，且完整度评估更准——在 T2T-CHM13 上 compleasm 报告 99.6% 完整度（BUSCO 为 95.7%），并且 562 个 compleasm 特异的完整基因里有 557 个能被独立注释支持，说明更高的完整度是真实的而非假阳性¹⁰。

表 6　组装质控工具一览
维度	工具	评估内容	本项目建议
基因完整度	BUSCO + compleasm	保守单拷贝直系同源完整度（actinopterygii_odb10）	双跑互验
碱基准确度	Merqury / merqury	QV、k-mer 完整度、false duplication	已用，关注 QV<Q40
统计量	gfastats / QUAST	N50/L50/contig 数/gap 等	gfastats 为 VGP 标配
挂载正确性	PretextMap / Juicebox	Hi-C 接触图人工核查与校正	定稿前必做
端粒	tidk / quarTeT	端粒重复（TTAGGG）分布、T2T 程度	已用 tidk
k-mer 谱	Meryl + GenomeScope2	基因组大小/杂合度/重复估计	用 Survey 数据
结构错误	Inspector	长读回比检错（misassembly）	可选增强

推荐在现有 BUSCO/QUAST/Merqury/meryl/tidk 基础上，增加 compleasm（双跑互验完整度）+ gfastats（VGP 标准统计）+ PretextMap（接触图校正）。针对 QV 37.79 略低于 Q40：先用 Merqury 区分误差来源，再决定是否用 ONT/Illumina 做 polishing——注意"hifiasm 组装无需任何 polishing"作为绝对结论已被对抗验证否决¹²，是否 polish 应由 QV 数据驱动。

7重复序列注释

候选：RepeatModeler2 + RepeatMasker · EDTA · Earl Grey · RepeatExplorer2。

重复序列屏蔽（soft-masking）是基因结构注释的前置步骤——不先把转座子（TE）等重复屏蔽掉，基因预测会被大量假阳性污染。硬骨鱼基因组 TE 含量高、且富含 SINE/LINE 等非 LTR 元件，这一点直接影响工具选择。主流范式是两步：de novo 建立物种特异 TE 库 → 用 RepeatMasker 屏蔽/注释。

表 7　重复序列注释工具对比
工具	本质 / 算法	对脊椎动物/鱼适用性	已发表评测	本项目适用
Earl GreyTobyBaril/EarlGrey	全自动策展流程：包裹 RepeatModeler2 建库 + RepeatMasker 屏蔽，叠加 BEAT 共识延伸策展	好（脊椎动物友好，自动化程度最高）	MCC 0.97、分类准确率 88.5%，优于 RM2/EDTA¹⁴	首选 ✓
RepeatModeler2 + RepeatMaskerDfam-consortium/RepeatModeler	RepeatScout + RECON 双发现算法 + LTRharvest/LTR_retriever；RepeatMasker 负责屏蔽	好（曾在斑马鱼 teleost 上基准）	PNAS 2020，事实标准基线¹⁵	稳妥基线
EDTAoushujun/EDTA	整合 LTRharvest/LTR_FINDER/TIR-Learner/HelitronScanner 等的元流程	弱：默认设置非 LTR(LINE/SINE)灵敏度仅 ~1%	水稻 75/95/93；脊椎动物须补库才可用¹⁶	不宜作鱼首选
RepeatExplorer2repeatexplorer	基于低拷贝 reads(<1×) 的图聚类重复定量，REXdb 植物特异	定量用途，分类偏植物	Nature Protocols 2020¹⁷	互补(定量)

推荐首选 Earl Grey（自动化、脊椎动物友好、本质是 RepeatModeler2+RepeatMasker 的策展增强版）；若偏好经典可控流程，RepeatModeler2 + RepeatMasker（已在斑马鱼等 teleost 验证）是稳妥基线。产出 soft-masked 基因组交给第 8 节的基因结构注释。

避免不要把 EDTA 当作鱼类首选：它为植物设计，对脊椎动物富含的 SINE/LINE 默认灵敏度极低（~1%），除非额外补 Repbase/RepeatModeler2 库¹⁶。RepeatExplorer2 是 reads 级重复定量工具，与组装级屏蔽互补而非替代。

8基因结构注释

候选：BRAKER3 · Helixer · GALBA · MAKER2 · AUGUSTUS · StringTie/PsiCLASS。

在 soft-masked 基因组上预测基因结构。选型的第一决策点是：有没有（或能不能产出）RNA-seq 证据。这决定了走哪条路线。当前最优工具来自 BRAKER/AUGUSTUS 团队（Stanke 组）与深度学习两个流派。

表 8　基因结构注释工具对比
工具	证据类型	算法核心	脊椎动物准确度 / benchmark	本项目适用
BRAKER3Gaius-Augustus/BRAKER	RNA-seq + 蛋白库	GeneMark-ETP + AUGUSTUS + TSEBRA 合并	转录本级 F1 较旧版 +~20 点；横评胜 MAKER2/Funannotate/FINDER¹⁸	有 RNA-seq 首选 ✓
GALBAGaius-Augustus/GALBA	仅蛋白同源（无 RNA-seq）	miniprot + AUGUSTUS	大脊椎动物 exon F1>90%、gene F1>70%，gene 级超 BRAKER2 ~42 点¹⁹	无 RNA-seq 首选 ✓
Helixer / Tiberiusweberlab-hhu/Helixer	纯 DNA（深度学习从头）	CNN+biLSTM(+HMM) 逐碱基预测	跨数百真核基因组验证；DNA-only²⁰	DL 交叉验证/补充
MAKER2Yandell-Lab/maker	证据整合(EST/蛋白/从头)	证据驱动注释流水线	较早期；横评中被 BRAKER3 超越¹⁸	传统备选
AUGUSTUSGaius-Augustus/Augustus	从头 + 提示	HMM 基因预测引擎	BRAKER/GALBA 内部预测引擎	底层引擎
StringTie / PsiCLASS	RNA-seq 转录本组装	剪接图转录本重建	产出转录本证据(非完整注释)	RNA-seq 证据准备

推荐（分两条路线） ① 有 / 可产出 RNA-seq → 用 BRAKER3（整合 RNA-seq + 近缘鱼蛋白库，当前脊椎动物注释最强自动流程）。
② 无 RNA-seq → 用 GALBA（miniprot+AUGUSTUS，专为大型脊椎动物的纯蛋白同源场景设计）。本项目 ~1.08 Gb 正落在 GALBA 验证的大脊椎动物区间（斑马鱼 ~1.35 Gb、鸡 ~1.05 Gb），证据高度相关¹⁹。
可选增强：GALBA+BRAKER2 经 TSEBRA 合并再加 ~10–13 点；或用 Helixer 做 DNA-only 交叉验证。

对发表的建议发表级注释强烈建议产出多组织 RNA-seq（如肝/脑/肌/性腺等），走 BRAKER3 路线——这是当前脊椎动物基因组论文的主流做法，注释质量与可信度都明显高于纯从头/纯同源。

9功能注释与非编码 RNA

候选：eggNOG-mapper · InterProScan · BlastKOALA/KEGG · DIAMOND；tRNAscan-SE · Infernal+Rfam · barrnap。

拿到基因结构（蛋白序列）后，功能注释赋予基因生物学含义，ncRNA 注释补全非编码部分，最后做注释质控。这几环已有高度成熟的领域标准组合，争议小，重点是"用对组合"而非"选哪个唯一最优"。

9.1 功能注释

表 9.1　功能注释工具（推荐组合使用）
工具	注释内容	依赖数据库	角色
eggNOG-mapper	直系同源推断 → GO / KEGG / COG / 描述	eggNOG（含鱼类谱系）	主力（快、覆盖广）²¹
InterProScan	蛋白结构域 / 家族 / motif（Pfam 等多库）	InterPro 成员库	主力（结构域/GO）²⁵
DIAMOND + Swiss-Prot/nr	同源比对 → 基因命名 / 描述	UniProt Swiss-Prot、NCBI nr	命名补充
KofamKOALA / BlastKOALA	KEGG 通路 / KO 注释	KEGG	通路分析

9.2 非编码 RNA（ncRNA）

表 9.2　ncRNA 注释标准组合
类型	工具	说明
tRNA	tRNAscan-SE 2.0	tRNA 基因预测的事实标准²⁶
其他 ncRNA（miRNA/snoRNA/snRNA 等）	Infernal + Rfam	协方差模型扫描 Rfam 家族²²
rRNA	barrnap（或 RNAmmer）	快速 rRNA 检测

9.3 注释质量评估

表 9.3　注释（gene set）质控
工具	评估内容	本项目建议
BUSCO + compleasm（蛋白模式）	基因集完整度（actinopterygii_odb10）	双跑互验¹⁰
OMArk	基于直系同源的一致性 / 污染 / 冗余检查	推荐增量²³

推荐功能注释用 eggNOG-mapper + InterProScan 双管齐下（前者给同源/通路、后者给结构域），辅以 DIAMOND/Swiss-Prot 命名与 KEGG 通路；ncRNA 用 tRNAscan-SE + Infernal/Rfam + barrnap 标准三件套；注释质控用 BUSCO + compleasm 蛋白模式 + OMArk。

证据等级说明本节工具为领域标准组合（争议小），来源以各工具权威文献与官方流程为准；其相对优劣未做本轮三票对抗 benchmark（与第 2、7、8 节不同）——但这些工具在脊椎动物注释中的标准地位是公认的。

10工作流框架与权威参考流程

不重造轮子：直接对标国际大计划已固化的流程。

EBP/VGP/Galaxy 的权威参考流程已高度标准化，且与本项目 v1 路线高度一致：

hifiasm相位 contig

Meryl + GenomeScope2k-mer 谱

purge_dups去单倍型冗余

YaHSHi-C 挂载

Merqury+BUSCO+gfastats+PretextMap质控

表 10　权威流程 / 框架对比
框架	形态	核心工具	对本项目的价值
EBP 推荐 (V4, 2026-01)	规范文档	hifiasm/Verkko2 + purge_dups + YaHS + Merqury/BUSCO	选型与验收的总纲⁴
VGP-Galaxy pipeline	Galaxy 工作流	同上 + gfastats + PretextMap	可复现的参数基线⁵
Sanger-ToL / DToL	Nextflow	genomeassembly + genomenote	生产级流水线参照¹³
nf-core / Snakemake	Nextflow / Snakemake	社区组装流程	工程化与可复现

结论本项目 v1 流程（hifiasm → purge_dups → YaHS + BUSCO/QUAST/Merqury/meryl/tidk）与 EBP/VGP/Galaxy 标准流程高度吻合。可直接把 Sanger-ToL 的 Nextflow 流水线作为参数与验收对照，无需自创流程。

11本项目推荐工具链

两段式落地建议：(A) 组装如何定稿；(B) 注释阶段端到端工具链。先看近缘鱼先例——它们独立印证了本报告的选型。

近缘虾虎鱼基因组先例（方法学参照）

最有说服力的佐证，是看同科（Gobiidae）/同体量的已发表鱼基因组实际用了什么。结论很清楚：2024–2026 年发表的近缘虾虎鱼基因组，用的正是本报告推荐的这套工具链。

表 11　近缘 / 同体量虾虎鱼基因组的已发表工具链
物种	体量 / 质量	测序	组装链	注释链	来源
Gobius paganellus rock goby（最现代模板）	813 Mb contig N50 20.3 Mb BUSCO 98.8%	HiFi + Hi-C + RNA-seq	hifiasm 0.25 → purge_dups → YaHS → PretextView 手工校正	RepeatModeler2+RepeatMasker · BRAKER3 · BLASTp/Swiss-Prot	Sci Data 2026²⁹
Rhinogobius duospilus 体量最接近	1.03 Gb contig N50 6.58 Mb BUSCO 95%	HiFi + Hi-C + RNA-seq	hifiasm → Juicer → 3D-DNA → Juicebox 校正	RepeatMasker+de novo · BRAKER3 · InterProScan	G3 2026²⁸
Scartelaos histophorus 大鳍弹涂鱼	869 Mb contig N50 9.02 Mb BUSCO 96.7%	HiFi + Hi-C + RNA-seq	hifiasm → Juicer → 3D-DNA	RepeatModeler2+RepeatMasker · GeneMark+AUGUSTUS+EVM · InterProScan/KEGG	Front Mar Sci 2022³⁰

两点重要提示① 已发表的虾虎鱼多为 HiFi + Hi-C，很少把 ONT 用于最终组装——本项目的 ONT R10 是差异化优势，若用于 V3，参数可参照同时用 PacBio+ONT+Hi-C 的弹涂鱼重组装（J. Adv. Res. 2024³¹）。② 近缘鱼 Hi-C 挂载有两条主流：YaHS（rock goby，最新）与 Juicer+3D-DNA+Juicebox 手工校正（多数）——本项目 v1 选 YaHS 与最新趋势一致，但手工校正接触图这一步建议补上。

(A) 组装定稿

1. 主组装保持 v1 路线。 hifiasm(HiFi) → purge_dups → YaHS 与 EBP/VGP 完全一致，v1 指标已达 EBP 标准，作为当前最终参考是稳妥的⁴⁵。

2. 把 ONT R10 用在刀刃上：另跑一版 Verkko（HiFi+UL 原生模式）做对比。 不要用 hifiasm --ul 混入（已实测使 Dup 3.7%→6.2%）。Verkko 专为该组合设计，HiFi-only 的 benchmark 劣势不代表原生模式能力；用 Merqury/BUSCO/PretextMap 与 v1 直接 PK，胜出者为终版³⁴。

3. 补洞克制、参考慎用。 维持弃用 TGS-GapCloser 的决定；RagTag 仅作排序/方向诊断与 patch 辅助，不把参考"纠正"过的版本作为定稿，避免参考偏倚⁴。

4. 全套质控 + 处理 QV。 BUSCO + compleasm 双跑（actinopterygii_odb10）、Merqury QV、gfastats、PretextMap 接触图、tidk/quarTeT 端粒。针对 QV 37.79<Q40，由 Merqury 误差来源决定是否 polishing¹⁰。

置信度说明核心工具选择有 high 证据支撑；"Verkko 另跑对比"与"补洞取舍"是基于权威立场的工程建议（缺针对硬骨鱼/~1 Gb 的直接 benchmark），属 medium 置信度。

(B) 注释阶段工具链

定稿组装后，按"重复 → 结构 → 功能 → ncRNA → 质控"顺序推进。端到端推荐工具链：

Earl Grey重复建库+软屏蔽

BRAKER3 / GALBA基因结构(有/无 RNA-seq)

eggNOG-mapper + InterProScan功能注释

tRNAscan-SE + Infernal/RfamncRNA

BUSCO+compleasm+OMArk质控

1. 重复屏蔽：Earl Grey（或 RepeatModeler2+RepeatMasker）做 de novo TE 库并产出 soft-masked 基因组；不用 EDTA 作鱼类首选¹⁴¹⁶。

2. 基因结构：能产出 RNA-seq 就走 BRAKER3（RNA-seq+近缘鱼蛋白）；否则走 GALBA（纯蛋白同源，正对本项目 ~1 Gb 体量）。可用 Helixer 做 DNA-only 交叉验证¹⁸¹⁹。

3. 功能注释：eggNOG-mapper + InterProScan 组合，DIAMOND/Swiss-Prot 命名、KEGG 通路²¹²⁵。

4. ncRNA：tRNAscan-SE + Infernal/Rfam + barrnap²²。

5. 注释质控：BUSCO + compleasm 蛋白模式 + OMArk，确认基因集完整度与一致性¹⁰²³。

省心替代：一体化框架若想用经大计划验证的"开箱即用"流程，可考虑 NCBI EGAPx（NCBI 真核注释流程开源版）或 Ensembl / DToL genebuild；中小型项目亦可用 funannotate 一体化封装²⁴。本项目作为学术发表，建议主走 Earl Grey + BRAKER3/GALBA 的可控流程，并参照已发表近缘鱼基因组的参数（见第 12 节）。

置信度说明第 7、8 节（重复、结构）有 high 证据的对抗验证 benchmark 支撑；第 9 节（功能/ncRNA）为领域标准组合（未单独 benchmark）。注释工具演进快（Helixer 已支持可选 RNA-seq、BRAKER/GALBA 持续更新），执行前请核对当前发行版能力。

12核心工具活跃度速览

GitHub stars 量级与最近 release 时间（2024–2026），衡量维护活跃度与社区采用。

下表 stars 与最近 release 经 GitHub API / GitLab tags 核实（核对日期 2026-06-17）。stars 取整。

表 12.1　组装 / Scaffolding / 质控工具活跃度
工具	repo	stars	最近 release	日期
hifiasm	chhylp123/hifiasm	~800	0.25.0	2025-03
Verkko	marbl/verkko	~400	v2.3.2	2026-03
Flye	mikolmogorov/Flye	~900	2.9.6	2025-05
NextDenovo	Nextomics/NextDenovo	~400	2.5.2	2023-03
purge_dups	dfguan/purge_dups	~300	v1.2.6	2022 *
YaHS	c-zhou/yahs	~200	v1.2.2	2024-09
SALSA2	marbl/SALSA	~200	v2.3	2021 *
3D-DNA	aidenlab/3d-dna	~200	201008	2021 *
RagTag	malonge/RagTag	~600	v2.1.0	2021 *
quarTeT	aaranyue/quarTeT	~200	v1.2.5	2025-01
Merqury	marbl/merqury	~300	v1.3	2021 *
compleasm	huangnengCSU/compleasm	~200	v0.2.8	2026-06
BUSCO	gitlab ezlab/busco	GitLab	6.1.0	2026-06
gfastats	vgl-hub/gfastats	~100	v1.3.11	2025-05
tidk	tolkit/telomeric-identifier	~200	v0.2.7	2025-11
PretextMap	sanger-tol/PretextMap	~30	0.2.4	2026-03

表 12.2　注释工具活跃度
工具	repo	stars	最近 release	日期
Earl Grey	TobyBaril/EarlGrey	~200	v7.2.6	2026-06
RepeatModeler2	Dfam-consortium/RepeatModeler	~200	2.0.9	2026-06
EDTA	oushujun/EDTA	~500	v2.3.0	2026-03
BRAKER3	Gaius-Augustus/BRAKER	~500	v3.0.8	2024-02
GALBA	Gaius-Augustus/GALBA	~100	v1.0.11	2023-12
Helixer	usadellab/Helixer	~300	v0.3.6	2025-10
AUGUSTUS	Gaius-Augustus/Augustus	~300	v3.5.0	2022 *
eggNOG-mapper	eggnogdb/eggnog-mapper	~700	v2.1.14	2026-05
InterProScan	ebi-pf-team/interproscan	~400	5.78-109.0	2026-06
tRNAscan-SE	UCSC-LoweLab/tRNAscan-SE	~100	v2.0.12	2022 *
Infernal	EddyRivasLab/infernal	~100	1.1.5	2023-09
barrnap	tseemann/barrnap	~300	v1.10.5	2026-04
funannotate	nextgenusfs/funannotate	~400	v1.8.17	2024-03
OMArk	DessimozLab/OMArk	~100	v0.4.1	2025-12

读表说明* = 最近正式 release 停在 2023 年前（purge_dups / SALSA2 / 3D-DNA / RagTag / Merqury / AUGUSTUS / tRNAscan-SE）——这些是已固化的"事实标准"工具，版本稳定不等于弃维护，仍是行业默认。仓库迁移提示：tidk 现为 tolkit/telomeric-identifier、PretextMap 现由 sanger-tol 维护、Helixer 现为 usadellab/Helixer。

13方法学说明与局限

本报告由多源 Web 检索 + 三票对抗式事实核查生成：对每条关键结论独立检索来源、提取可证伪断言、由多个核查者尝试反驳，需多数票通过才采纳。共两轮专项调研——第一轮（组装）抓取 31 个来源、提取 152 条断言、核验 25 条、确认 18、否决 7；第二轮（注释）抓取 25 个来源、核验 25 条、确认 22、否决 3；另对工具 GitHub 活跃度与近缘鱼先例做定向核验（GitHub API + 已发表论文）。各节标注了证据等级：组装与重复/结构注释为对抗验证的 benchmark 结论，功能/ncRNA 为领域标准组合。

必须知晓的局限

物种不匹配：所有已验证 benchmark 均非硬骨鱼（用的是水稻/马铃薯/人类/酵母/拟南芥）。目前不存在针对 ~1 Gb teleost 的专门组装/挂载 benchmark，结论外推到本物种时已尽量 hedge。
Verkko HiFi-only 偏倚：Verkko 的劣势结论来自 HiFi-only 模式，其设计用途是 HiFi+ONT 超长——这正是本项目应在 V3 验证的配置。
开发者自评：compleasm/HapHiC 的部分指标为作者自家 benchmark（虽有独立佐证），compleasm 高完整度结论为人类特异。
时效性：长读组装演进快（Verkko2、hifiasm 整合 HiFi+UL+Hi-C），实际执行前应核实工具最新 release。

已证伪的常见误区（不应写入结论）

对抗验证否决（0-3 / 1-2） ① "Hi-C 相位时 purge_dups 不必要"（0-3）；② "NGS 校正的 ONT-only 可替代 HiFi"（0-3）；③ "hifiasm 组装无需任何 polishing"（0-3）；④ "Flye 对噪声长读全面最优"（1-2）；⑤ "HapHiC 全面优于 YaHS/3D-DNA/SALSA2"（自报性能，0-3，缺并排数字）。

★参考来源

Yu, Wang et al. A comprehensive benchmark of 11 de novo HiFi assemblers. Genome Research 2024, 34(2):326. genome.cshlp.org/content/34/2/326
同行评测（CLR/ONT 噪声长读部分）。GigaScience 2023, giad100. doi:10.1093/gigascience/giad100
HiFi 组装器 benchmark 预印本（含 N50/完整度/准确度三方权衡）。bioRxiv 2023.06.29.546998. biorxiv.org/.../546998v1
Earth BioGenome Project. Report on Assembly Recommendations (Version 4, Jan 2026). earthbiogenome.org/report-on-assembly-recommendations
Larivière et al. VGP / Galaxy genome assembly pipeline. Nature Biotechnology (PMC10327048). pmc.../PMC10327048
Guan et al. purge_dups. Bioinformatics 2020, 36(9):2896. doi:10.1093/bioinformatics/btaa025
Obinu, Trivedi, Porceddu. Benchmarking of Hi-C tools for scaffolding (plant genomes). Frontiers in Bioinformatics 2024, 4:1462923 (PMC11604747). pmc.../PMC11604747
Zhou et al. YaHS. Bioinformatics 2023, 39(1):btac808. doi:10.1093/bioinformatics/btac808
Huang & Li. compleasm. Bioinformatics 2023, 39(10):btad595 (PMC10558035). pmc.../PMC10558035
Zeng et al. HapHiC: reference-independent, allele-aware Hi-C scaffolding. Nature Plants 2024, 10:1184. doi:10.1038/s41477-024-01755-3
Rhie et al. EBP / VGP quality standards (6.C.Q40). PNAS / Nature (PMC8795494). pmc.../PMC8795494
Long-read sequencing technologies & algorithms review. Genomics 2024. sciencedirect.com/.../S0888754324000636
Sanger Tree of Life pipelines: sanger-tol/genomeassembly · genomenote
Baril, Galbraith & Hayward. Earl Grey: automated TE annotation. Mol Biol Evol 2024, 41(4):msae068 (PMC11003543). pmc.../PMC11003543 · github.com/TobyBaril/EarlGrey
Flynn et al. RepeatModeler2. PNAS 2020, 117(17):9451 (PMC7196820). doi:10.1073/pnas.1921046117
Ou et al. EDTA. Genome Biology 2019 (PMC6913007); 及作者 2024 Response on vertebrate limitations (PMC10762968). PMC6913007 · PMC10762968
Novák et al. RepeatExplorer2. Nature Protocols 2020. doi:10.1038/s41596-020-0400-y
Gabriel et al. BRAKER3. Genome Research 2024, 34(5):769 (PMC11216308 / gr.278090.123). genome.cshlp.org/content/34/5/769
Brůna, Hoff, Stanke et al. GALBA. BMC Bioinformatics 2023 (PMC10472564). doi:10.1186/s12859-023-05449-z
Stiehler et al. Helixer. Bioinformatics 2020, 36(22-23):5291; Gabriel et al. Tiberius. Bioinformatics 2024, 40(12):btae685. Helixer · Tiberius
Cantalapiedra et al. eggNOG-mapper v2. Mol Biol Evol 2021, 38(12):5825. doi:10.1093/molbev/msab293
Rfam / Infernal genome annotation 文档与 Nawrocki & Eddy, Infernal 1.1. docs.rfam.org/.../genome-annotation
Nevers et al. OMArk: proteome quality & consistency. NAR Genomics & Bioinformatics 2025, 7(1):lqae189. doi:10.1093/nargab/lqae189
一体化注释框架：NCBI EGAPx · Ensembl/DToL genebuild · funannotate
Jones et al. InterProScan 5. Bioinformatics 2014, 30(9):1236. doi:10.1093/bioinformatics/btu031
Chan, Lin, Lowe et al. tRNAscan-SE 2.0.（及 Lowe & Eddy 1997）github.com/UCSC-LoweLab/tRNAscan-SE
诸氏鲻虾虎鱼现有基因组： Whole-genome sequencing reveals sex determination and liver high-fat storage of yellowstripe goby (M. chulae). Communications Biology 2021 (PMC7782490; BioProject PRJNA598084). doi:10.1038/s42003-020-01541-9
先例：Rhinogobius duospilus chromosome-level genome. G3: Genes|Genomes|Genetics 2026, jkaf278. academic.oup.com/g3journal/.../jkaf278
先例（现代模板）：Gobius paganellus (rock goby) genome. Scientific Data 2026 (PMC12957465; PRJNA1298813). pmc.../PMC12957465
先例：Scartelaos histophorus (大鳍弹涂鱼) genome. Frontiers in Marine Science 2022. doi:10.3389/fmars.2022.966275
ONT 参数先例：弹涂鱼 (mudskippers) 重组装 PacBio+ONT+Hi-C+Illumina. Journal of Advanced Research 2024 (PMC10982859). pmc.../PMC10982859