0摘要与核心结论
本报告为诸氏鲻虾虎鱼(Mugilogobius chulae,~1.08 Gb 二倍体硬骨鱼)的染色体级从头基因组项目,调研当前(2024–2026)最适合各环节的生物信息学工具。结论的总基调是:本项目已采用的核心组装链(hifiasm → purge_dups → YaHS)与当前最权威的国际计划推荐高度一致,无需推倒重来;真正的增量价值在于用对 ONT 超长数据、克制地对待"补洞"、并补齐注释阶段的工具选型。
核心结论(TL;DR)
- 组装链已是最优解。 两项独立同行评议 benchmark 一致把 hifiasm 列为真核 HiFi 组装首选13;EBP V4(2026-01)与 VGP/Galaxy 流程明确推荐 hifiasm + purge_dups + YaHS45。本项目 v1 与之完全吻合。
- 近缘鱼先例独立印证。 2024–2026 年发表的同科虾虎鱼基因组(rock goby、Rhinogobius)用的正是 hifiasm → purge_dups → YaHS + BRAKER3 + RepeatModeler/RepeatMasker + InterProScan,与本报告推荐高度一致2829。注:M. chulae 已有 2021 旧基因组(contig N50 仅 261 kb),本项目是质量升级(见第 1 节)。
- v1 已基本达到 EBP "6.C.Q40" 标准。 scaffold N50 45.6 Mb、BUSCO C 98.8%、Dup 0.7% 均达标;唯一差距是 QV 37.79 略低于 Q40 目标,值得在定稿前评估是否提升411。
- ONT R10 的最佳用法不是
--ul混入,而是另跑一版 Verkko 做对比。 本项目已实测 hifiasm--ul会使重复率从 3.7% 升到 6.2%;而 Verkko 专为 HiFi+ONT 超长读设计,HiFi-only 的 benchmark 劣势不代表其原生模式能力34。 - 长读"补洞"应保持克制。 TGS-GapCloser 因二倍体 benchmark 差被本项目弃用,这与 VGP/EBP "重质量、不盲目补洞" 的立场一致;RagTag 参考引导仅宜做排序/patch 辅助,不应把参考偏倚带入最终定稿4。
- 质控建议 BUSCO + compleasm 双跑。 compleasm 用 miniprot 单轮替代 BUSCO 两轮 MetaEuk,更快且完整度评估更准(T2T-CHM13 上 99.6% vs 95.7%,且 557/562 特异基因有注释支撑)10。
- 注释阶段(下一步) 的端到端推荐工具链见 第 11 节,基于第二轮专项调研,覆盖重复→结构→功能→ncRNA→质控。
1项目背景与数据资产
明确"为什么是这套数据、现在到了哪一步",后续工具选型都围绕这一现状展开。
| 数据类型 | 平台 / 化学 | 数据量 | 覆盖度(按 1.08 Gb) | 主要用途 |
|---|---|---|---|---|
| PacBio HiFi | HiFi(CCS,>99% 准确度) | ~91 Gb | ~84× | 主组装、碱基准确度基础 |
| ONT 超长读 | R10.4.1 Q18.3(Q20+ 化学) | ~87 Gb | ~80× | 跨重复 / 相位 / T2T 潜力 |
| Hi-C | 染色质构象捕获 | ~61 Gb | ~56× | 染色体级挂载 |
| Illumina Survey | 短读 | ~46 Gb | ~43× | k-mer 基因组调查 / QV / polishing 备选 |
当前组装 v1 对照 EBP「6.C.Q40」标准
| 指标 | EBP 6.C.Q40 目标 | 本项目 v1 | 达标 |
|---|---|---|---|
| contig 连续性 | NG50 > 1 Mb | scaffold N50 45.6 Mb (contig 级亦远超 1 Mb) | 达标 |
| 染色体挂载 | >90% 序列上染色体 | 179 scaffolds,YaHS 挂载 | 达标 |
| 碱基准确度 | Q40(<1/10⁴ 错误) | QV 37.79 | 略低 |
| 基因完整度 | >90% 完整单拷贝 BUSCO | BUSCO C 98.8% | 达标 |
| 假重复 | <5% false duplication | BUSCO Dup 0.7% | 达标 |
结论:v1 在连续性、完整度、去冗余三方面均达到或超过 EBP 标准,唯一需要关注的是碱基准确度 QV 37.79 略低于 Q40(详见 第 6 节 与 第 11 节 的 polishing 讨论)。
2长读 contig 组装
候选:hifiasm(HiFi / --ul / --hic)· Verkko · Flye · NextDenovo · LJA · HiCanu。
在 PacBio HiFi 时代,主流真核组装器已收敛到少数几款。一项 2024 年发表于 Genome Research 的 11 款 HiFi 组装软件横向评测(测试水稻、马铃薯、莲雾、人类及 34 个合成数据集)给出明确结论:"hifiasm 与 hifiasm-meta 应作为真核基因组与宏基因组 HiFi 组装的首选",hifiasm 综合性能排名第一、HiCanu 第二1。独立的 GigaScience 2023 评测也得出 LJA 与 hifiasm 性能优于其它选项、且这种优势"与数据集无关"的一致结论3。
更细致地看准确度/完整度/连续性的三方权衡:在人类基因组上,只有 HiCanu、hifiasm、LJA、Verkko 四款能达到接近 100% 的完整度(其余仅约 50%,因为它们产出的是共识序列而非相位组装);在这四款里,HiCanu/LJA/Verkko 的碱基准确度略高于 hifiasm,但 hifiasm 的连续性(N50 36.4 Mb)远高于其余三者(HiCanu 4.5 Mb、LJA 299 kb、Verkko 190.5 kb,均为 HiFi-only 模式)13。对追求染色体级连续性的本项目,这个权衡明确指向 hifiasm。
| 工具 | 输入 / 算法 | 相位能力 | 大计划采用 | 已发表 benchmark 结论 | 本项目适用 |
|---|---|---|---|---|---|
| hifiasmchhylp123/hifiasm | HiFi(可选 +UL / +Hi-C)· overlap 图 | 原生单倍型相位 | VGP / EBP / Galaxy / Sanger-ToL | 真核 HiFi 综合第一;连续性最高1 | 首选 ✓ |
| Verkkomarbl/verkko | HiFi + ONT 超长 · de Bruijn 图 | 相位(T2T 级) | VGP / T2T / EBP(Verkko2) | HiFi-only 模式弱于 HiCanu;原生 HiFi+UL 模式为 T2T 级34 | V3 对比首选 |
| HiCanumarbl/canu | HiFi · overlap 图 | 部分 | 较早期 VGP | 综合第二;准确度高但连续性远低于 hifiasm1 | 可选对比 |
| LJAAntonBankevich/LJA | HiFi · de Bruijn 图 | 有限 | 研究级 | 与 hifiasm 并列优秀;准确度高、连续性较低3 | 可选对比 |
| Flyemikolmogorov/Flye | 噪声长读(CLR/ONT)· repeat 图 | 否 | 广泛(非 HiFi 首选) | "对噪声长读全面最优"的说法未通过验证(1-2)2 | 仅 ONT 旁证 |
| NextDenovoNextomics/NextDenovo | 噪声长读 · correct+assemble | 否 | 植物界常用 | 仅在单倍体表现好,二倍体/四倍体上失败1 | 不适用 |
--ul 混入 hifiasm。3冗余 / 单倍型清理(purging)
候选:purge_dups · purge_haplotigs · hifiasm 内建 purging。
二倍体杂合区域常被组装成两份"假重复"contig,需在挂载前清理。purge_dups6 是该任务事实标准:EBP 明确建议"即便组装器已做相位,仍可能需要用 purge_dups 从主 contig 移除单倍型重复,再做 scaffolding"4;VGP/Galaxy 流程把 purge_dups 列为去冗余标准步骤5。
| 工具 | 原理 | 依据 | 采用 | 本项目适用 |
|---|---|---|---|---|
| purge_dupsdfguan/purge_dups | 读深直方图 + 自比对识别 haplotypic duplicate | 覆盖度 + 序列相似 | VGP / EBP / ERGA / Sanger-ToL | 首选 ✓(v1 已用) |
| purge_haplotigsskingan/purge_haplotigs | 读深直方图(早期方案) | 覆盖度 | 早期长读流程 | 历史方案 |
| hifiasm 内建 (-l) | 组装图内 purge level 0–3 | 图拓扑 | hifiasm 默认 | 与 purge_dups 互补 |
-l purge level 调参,用 BUSCO Dup% 与 Merqury false-dup 验证效果(v1 Dup 0.7% 说明清理到位)。4Hi-C 染色体级挂载
候选:YaHS · SALSA2 · 3D-DNA/Juicer · HapHiC · pin_hic。
把 contig 排序定向到染色体级,是 Hi-C scaffolding 的任务。当前最权威的推荐很明确:EBP V4 直接写明"用 YaHS 做 Hi-C/Omni-C 挂载,YaHS 优于 SALSA2 等旧工具,因为后者有已知局限"4。VGP/Galaxy 的实测也显示 YaHS 整体优于 SALSA2,且叠加 Bionano 光学图仅带来边际改善5。
一项 2024 年 Frontiers in Bioinformatics 的直接挂载评测显示:在 hifiasm 组装上,YaHS 把 N50 从 26.16 Mb 提升到 32.66 Mb,而 3D-DNA 反而把 N50 砸到 3.41 Mb、SALSA2 为 16.70 Mb——YaHS 在两套组装上 N50/N90 均最高7。
| 工具 | 算法 / 特点 | 需参考 | 等位感知 | 采用 / benchmark | 本项目适用 |
|---|---|---|---|---|---|
| YaHSc-zhou/yahs | contig 接触频率图,快速、稳定8 | 否 | 否 | EBP 默认推荐;连续性最高47 | 首选 ✓(v1 已用) |
| HapHiCzengxiaofei/HapHiC | 无参考、等位感知,染色体分配准 | 否 | 是 | Nature Plants 2024;优于依赖参考的 ALLHiC10 | 相位/等位场景备选 |
| SALSA2marbl/SALSA | 迭代式 scaffolding(早期主流) | 否 | 否 | 有已知局限(文档/可视化/无人工校正)4 | 备选 |
| 3D-DNA / Juiceraidenlab/3d-dna | Juicebox 交互校正生态 | 否 | 否 | 直接挂载 benchmark 中 N50 反降7;强在可视化校正 | 仅校正可视化 |
| pin_hicdfguan/pin_hic | 轻量 Hi-C scaffolding | 否 | 否 | 使用面较窄 | 备选 |
5参考引导 scaffolding 与补洞 / 修补
候选:RagTag · quarTeT · SAMBA · LR_Gapcloser · TGS-GapCloser;以及"该不该做长读补洞"的方法学共识。
这一环节是本项目当前 V3 实验的焦点(正在测 RagTag 用近缘鱼参考做 reference-guided patch/scaffold)。需要分清两类操作:(a) 参考引导排序/补缀(RagTag scaffold/patch、quarTeT)与 (b) 长读填洞(TGS-GapCloser、LR_Gapcloser、SAMBA)。
| 工具 | 类型 | 作用 | 风险 | 本项目用法 |
|---|---|---|---|---|
| RagTagmalonge/RagTag | 参考引导 | correct / scaffold / patch,用近缘参考排序定向、补缀 | 引入参考偏倚(强加参考结构) | 仅辅助,不入定稿 |
| quarTeTaaranyue/quarTeT | 端粒/着丝粒 + 拼接 | TeloExplorer / GapFiller / AssemblyMapper | 较新,需人工核查 | 端粒分析可用 |
| TGS-GapCloserBGI-Qingdao/TGS-GapCloser | 长读填洞 | 用长读填 scaffold gap | 二倍体上 benchmark 差 | 已弃用 |
| LR_Gapcloser / SAMBA | 长读填洞 | 填洞 / 长读 scaffolding | 同上,质量风险 | 非必要 |
6组装质量评估
候选:BUSCO · compleasm · Merqury · QUAST · gfastats · Inspector · PretextMap/Juicer · tidk/quarTeT(端粒) · GenomeScope2(k-mer)。
EBP/VGP 的质控"全家桶"已成定式:Merqury(QV/k-mer 完整度)+ BUSCO(基因完整度)+ gfastats(统计量)+ PretextMap(Hi-C 可视化),外加 Meryl + GenomeScope2 做 k-mer 谱5。本项目 v1 已用 BUSCO/QUAST/Merqury/meryl/tidk,覆盖到位。
一个值得引入的增量工具是 compleasm:它重实现了 BUSCO 的逻辑,但用单轮 miniprot 比对替代 BUSCO 的两轮 MetaEuk,速度快 3.4–14.5 倍,且完整度评估更准——在 T2T-CHM13 上 compleasm 报告 99.6% 完整度(BUSCO 为 95.7%),并且 562 个 compleasm 特异的完整基因里有 557 个能被独立注释支持,说明更高的完整度是真实的而非假阳性10。
| 维度 | 工具 | 评估内容 | 本项目建议 |
|---|---|---|---|
| 基因完整度 | BUSCO + compleasm | 保守单拷贝直系同源完整度(actinopterygii_odb10) | 双跑互验 |
| 碱基准确度 | Merqury / merqury | QV、k-mer 完整度、false duplication | 已用,关注 QV<Q40 |
| 统计量 | gfastats / QUAST | N50/L50/contig 数/gap 等 | gfastats 为 VGP 标配 |
| 挂载正确性 | PretextMap / Juicebox | Hi-C 接触图人工核查与校正 | 定稿前必做 |
| 端粒 | tidk / quarTeT | 端粒重复(TTAGGG)分布、T2T 程度 | 已用 tidk |
| k-mer 谱 | Meryl + GenomeScope2 | 基因组大小/杂合度/重复估计 | 用 Survey 数据 |
| 结构错误 | Inspector | 长读回比检错(misassembly) | 可选增强 |
7重复序列注释
候选:RepeatModeler2 + RepeatMasker · EDTA · Earl Grey · RepeatExplorer2。
重复序列屏蔽(soft-masking)是基因结构注释的前置步骤——不先把转座子(TE)等重复屏蔽掉,基因预测会被大量假阳性污染。硬骨鱼基因组 TE 含量高、且富含 SINE/LINE 等非 LTR 元件,这一点直接影响工具选择。主流范式是两步:de novo 建立物种特异 TE 库 → 用 RepeatMasker 屏蔽/注释。
| 工具 | 本质 / 算法 | 对脊椎动物/鱼适用性 | 已发表评测 | 本项目适用 |
|---|---|---|---|---|
| Earl GreyTobyBaril/EarlGrey | 全自动策展流程:包裹 RepeatModeler2 建库 + RepeatMasker 屏蔽,叠加 BEAT 共识延伸策展 | 好(脊椎动物友好,自动化程度最高) | MCC 0.97、分类准确率 88.5%,优于 RM2/EDTA14 | 首选 ✓ |
| RepeatModeler2 + RepeatMaskerDfam-consortium/RepeatModeler | RepeatScout + RECON 双发现算法 + LTRharvest/LTR_retriever;RepeatMasker 负责屏蔽 | 好(曾在斑马鱼 teleost 上基准) | PNAS 2020,事实标准基线15 | 稳妥基线 |
| EDTAoushujun/EDTA | 整合 LTRharvest/LTR_FINDER/TIR-Learner/HelitronScanner 等的元流程 | 弱:默认设置非 LTR(LINE/SINE)灵敏度仅 ~1% | 水稻 75/95/93;脊椎动物须补库才可用16 | 不宜作鱼首选 |
| RepeatExplorer2repeatexplorer | 基于低拷贝 reads(<1×) 的图聚类重复定量,REXdb 植物特异 | 定量用途,分类偏植物 | Nature Protocols 202017 | 互补(定量) |
8基因结构注释
候选:BRAKER3 · Helixer · GALBA · MAKER2 · AUGUSTUS · StringTie/PsiCLASS。
在 soft-masked 基因组上预测基因结构。选型的第一决策点是:有没有(或能不能产出)RNA-seq 证据。这决定了走哪条路线。当前最优工具来自 BRAKER/AUGUSTUS 团队(Stanke 组)与深度学习两个流派。
| 工具 | 证据类型 | 算法核心 | 脊椎动物准确度 / benchmark | 本项目适用 |
|---|---|---|---|---|
| BRAKER3Gaius-Augustus/BRAKER | RNA-seq + 蛋白库 | GeneMark-ETP + AUGUSTUS + TSEBRA 合并 | 转录本级 F1 较旧版 +~20 点;横评胜 MAKER2/Funannotate/FINDER18 | 有 RNA-seq 首选 ✓ |
| GALBAGaius-Augustus/GALBA | 仅蛋白同源(无 RNA-seq) | miniprot + AUGUSTUS | 大脊椎动物 exon F1>90%、gene F1>70%,gene 级超 BRAKER2 ~42 点19 | 无 RNA-seq 首选 ✓ |
| Helixer / Tiberiusweberlab-hhu/Helixer | 纯 DNA(深度学习从头) | CNN+biLSTM(+HMM) 逐碱基预测 | 跨数百真核基因组验证;DNA-only20 | DL 交叉验证/补充 |
| MAKER2Yandell-Lab/maker | 证据整合(EST/蛋白/从头) | 证据驱动注释流水线 | 较早期;横评中被 BRAKER3 超越18 | 传统备选 |
| AUGUSTUSGaius-Augustus/Augustus | 从头 + 提示 | HMM 基因预测引擎 | BRAKER/GALBA 内部预测引擎 | 底层引擎 |
| StringTie / PsiCLASS | RNA-seq 转录本组装 | 剪接图转录本重建 | 产出转录本证据(非完整注释) | RNA-seq 证据准备 |
② 无 RNA-seq → 用 GALBA(miniprot+AUGUSTUS,专为大型脊椎动物的纯蛋白同源场景设计)。本项目 ~1.08 Gb 正落在 GALBA 验证的大脊椎动物区间(斑马鱼 ~1.35 Gb、鸡 ~1.05 Gb),证据高度相关19。
可选增强:GALBA+BRAKER2 经 TSEBRA 合并再加 ~10–13 点;或用 Helixer 做 DNA-only 交叉验证。
9功能注释与非编码 RNA
候选:eggNOG-mapper · InterProScan · BlastKOALA/KEGG · DIAMOND;tRNAscan-SE · Infernal+Rfam · barrnap。
拿到基因结构(蛋白序列)后,功能注释赋予基因生物学含义,ncRNA 注释补全非编码部分,最后做注释质控。这几环已有高度成熟的领域标准组合,争议小,重点是"用对组合"而非"选哪个唯一最优"。
9.1 功能注释
| 工具 | 注释内容 | 依赖数据库 | 角色 |
|---|---|---|---|
| eggNOG-mapper | 直系同源推断 → GO / KEGG / COG / 描述 | eggNOG(含鱼类谱系) | 主力(快、覆盖广)21 |
| InterProScan | 蛋白结构域 / 家族 / motif(Pfam 等多库) | InterPro 成员库 | 主力(结构域/GO)25 |
| DIAMOND + Swiss-Prot/nr | 同源比对 → 基因命名 / 描述 | UniProt Swiss-Prot、NCBI nr | 命名补充 |
| KofamKOALA / BlastKOALA | KEGG 通路 / KO 注释 | KEGG | 通路分析 |
9.2 非编码 RNA(ncRNA)
| 类型 | 工具 | 说明 |
|---|---|---|
| tRNA | tRNAscan-SE 2.0 | tRNA 基因预测的事实标准26 |
| 其他 ncRNA(miRNA/snoRNA/snRNA 等) | Infernal + Rfam | 协方差模型扫描 Rfam 家族22 |
| rRNA | barrnap(或 RNAmmer) | 快速 rRNA 检测 |
9.3 注释质量评估
| 工具 | 评估内容 | 本项目建议 |
|---|---|---|
| BUSCO + compleasm(蛋白模式) | 基因集完整度(actinopterygii_odb10) | 双跑互验10 |
| OMArk | 基于直系同源的一致性 / 污染 / 冗余检查 | 推荐增量23 |
10工作流框架与权威参考流程
不重造轮子:直接对标国际大计划已固化的流程。
EBP/VGP/Galaxy 的权威参考流程已高度标准化,且与本项目 v1 路线高度一致:
| 框架 | 形态 | 核心工具 | 对本项目的价值 |
|---|---|---|---|
| EBP 推荐 (V4, 2026-01) | 规范文档 | hifiasm/Verkko2 + purge_dups + YaHS + Merqury/BUSCO | 选型与验收的总纲4 |
| VGP-Galaxy pipeline | Galaxy 工作流 | 同上 + gfastats + PretextMap | 可复现的参数基线5 |
| Sanger-ToL / DToL | Nextflow | genomeassembly + genomenote | 生产级流水线参照13 |
| nf-core / Snakemake | Nextflow / Snakemake | 社区组装流程 | 工程化与可复现 |
11本项目推荐工具链
两段式落地建议:(A) 组装如何定稿;(B) 注释阶段端到端工具链。先看近缘鱼先例——它们独立印证了本报告的选型。
近缘虾虎鱼基因组先例(方法学参照)
最有说服力的佐证,是看同科(Gobiidae)/同体量的已发表鱼基因组实际用了什么。结论很清楚:2024–2026 年发表的近缘虾虎鱼基因组,用的正是本报告推荐的这套工具链。
| 物种 | 体量 / 质量 | 测序 | 组装链 | 注释链 | 来源 |
|---|---|---|---|---|---|
| Gobius paganellus rock goby(最现代模板) | 813 Mb contig N50 20.3 Mb BUSCO 98.8% | HiFi + Hi-C + RNA-seq | hifiasm 0.25 → purge_dups → YaHS → PretextView 手工校正 | RepeatModeler2+RepeatMasker · BRAKER3 · BLASTp/Swiss-Prot | Sci Data 202629 |
| Rhinogobius duospilus 体量最接近 | 1.03 Gb contig N50 6.58 Mb BUSCO 95% | HiFi + Hi-C + RNA-seq | hifiasm → Juicer → 3D-DNA → Juicebox 校正 | RepeatMasker+de novo · BRAKER3 · InterProScan | G3 202628 |
| Scartelaos histophorus 大鳍弹涂鱼 | 869 Mb contig N50 9.02 Mb BUSCO 96.7% | HiFi + Hi-C + RNA-seq | hifiasm → Juicer → 3D-DNA | RepeatModeler2+RepeatMasker · GeneMark+AUGUSTUS+EVM · InterProScan/KEGG | Front Mar Sci 202230 |
(A) 组装定稿
1. 主组装保持 v1 路线。 hifiasm(HiFi) → purge_dups → YaHS 与 EBP/VGP 完全一致,v1 指标已达 EBP 标准,作为当前最终参考是稳妥的45。
2. 把 ONT R10 用在刀刃上:另跑一版 Verkko(HiFi+UL 原生模式)做对比。 不要用 hifiasm --ul 混入(已实测使 Dup 3.7%→6.2%)。Verkko 专为该组合设计,HiFi-only 的 benchmark 劣势不代表原生模式能力;用 Merqury/BUSCO/PretextMap 与 v1 直接 PK,胜出者为终版34。
3. 补洞克制、参考慎用。 维持弃用 TGS-GapCloser 的决定;RagTag 仅作排序/方向诊断与 patch 辅助,不把参考"纠正"过的版本作为定稿,避免参考偏倚4。
4. 全套质控 + 处理 QV。 BUSCO + compleasm 双跑(actinopterygii_odb10)、Merqury QV、gfastats、PretextMap 接触图、tidk/quarTeT 端粒。针对 QV 37.79<Q40,由 Merqury 误差来源决定是否 polishing10。
(B) 注释阶段工具链
定稿组装后,按"重复 → 结构 → 功能 → ncRNA → 质控"顺序推进。端到端推荐工具链:
1. 重复屏蔽:Earl Grey(或 RepeatModeler2+RepeatMasker)做 de novo TE 库并产出 soft-masked 基因组;不用 EDTA 作鱼类首选1416。
2. 基因结构:能产出 RNA-seq 就走 BRAKER3(RNA-seq+近缘鱼蛋白);否则走 GALBA(纯蛋白同源,正对本项目 ~1 Gb 体量)。可用 Helixer 做 DNA-only 交叉验证1819。
3. 功能注释:eggNOG-mapper + InterProScan 组合,DIAMOND/Swiss-Prot 命名、KEGG 通路2125。
4. ncRNA:tRNAscan-SE + Infernal/Rfam + barrnap22。
5. 注释质控:BUSCO + compleasm 蛋白模式 + OMArk,确认基因集完整度与一致性1023。
12核心工具活跃度速览
GitHub stars 量级与最近 release 时间(2024–2026),衡量维护活跃度与社区采用。
下表 stars 与最近 release 经 GitHub API / GitLab tags 核实(核对日期 2026-06-17)。stars 取整。
| 工具 | repo | stars | 最近 release | 日期 |
|---|---|---|---|---|
| hifiasm | chhylp123/hifiasm | ~800 | 0.25.0 | 2025-03 |
| Verkko | marbl/verkko | ~400 | v2.3.2 | 2026-03 |
| Flye | mikolmogorov/Flye | ~900 | 2.9.6 | 2025-05 |
| NextDenovo | Nextomics/NextDenovo | ~400 | 2.5.2 | 2023-03 |
| purge_dups | dfguan/purge_dups | ~300 | v1.2.6 | 2022 * |
| YaHS | c-zhou/yahs | ~200 | v1.2.2 | 2024-09 |
| SALSA2 | marbl/SALSA | ~200 | v2.3 | 2021 * |
| 3D-DNA | aidenlab/3d-dna | ~200 | 201008 | 2021 * |
| RagTag | malonge/RagTag | ~600 | v2.1.0 | 2021 * |
| quarTeT | aaranyue/quarTeT | ~200 | v1.2.5 | 2025-01 |
| Merqury | marbl/merqury | ~300 | v1.3 | 2021 * |
| compleasm | huangnengCSU/compleasm | ~200 | v0.2.8 | 2026-06 |
| BUSCO | gitlab ezlab/busco | GitLab | 6.1.0 | 2026-06 |
| gfastats | vgl-hub/gfastats | ~100 | v1.3.11 | 2025-05 |
| tidk | tolkit/telomeric-identifier | ~200 | v0.2.7 | 2025-11 |
| PretextMap | sanger-tol/PretextMap | ~30 | 0.2.4 | 2026-03 |
| 工具 | repo | stars | 最近 release | 日期 |
|---|---|---|---|---|
| Earl Grey | TobyBaril/EarlGrey | ~200 | v7.2.6 | 2026-06 |
| RepeatModeler2 | Dfam-consortium/RepeatModeler | ~200 | 2.0.9 | 2026-06 |
| EDTA | oushujun/EDTA | ~500 | v2.3.0 | 2026-03 |
| BRAKER3 | Gaius-Augustus/BRAKER | ~500 | v3.0.8 | 2024-02 |
| GALBA | Gaius-Augustus/GALBA | ~100 | v1.0.11 | 2023-12 |
| Helixer | usadellab/Helixer | ~300 | v0.3.6 | 2025-10 |
| AUGUSTUS | Gaius-Augustus/Augustus | ~300 | v3.5.0 | 2022 * |
| eggNOG-mapper | eggnogdb/eggnog-mapper | ~700 | v2.1.14 | 2026-05 |
| InterProScan | ebi-pf-team/interproscan | ~400 | 5.78-109.0 | 2026-06 |
| tRNAscan-SE | UCSC-LoweLab/tRNAscan-SE | ~100 | v2.0.12 | 2022 * |
| Infernal | EddyRivasLab/infernal | ~100 | 1.1.5 | 2023-09 |
| barrnap | tseemann/barrnap | ~300 | v1.10.5 | 2026-04 |
| funannotate | nextgenusfs/funannotate | ~400 | v1.8.17 | 2024-03 |
| OMArk | DessimozLab/OMArk | ~100 | v0.4.1 | 2025-12 |
tolkit/telomeric-identifier、PretextMap 现由 sanger-tol 维护、Helixer 现为 usadellab/Helixer。13方法学说明与局限
本报告由多源 Web 检索 + 三票对抗式事实核查生成:对每条关键结论独立检索来源、提取可证伪断言、由多个核查者尝试反驳,需多数票通过才采纳。共两轮专项调研——第一轮(组装)抓取 31 个来源、提取 152 条断言、核验 25 条、确认 18、否决 7;第二轮(注释)抓取 25 个来源、核验 25 条、确认 22、否决 3;另对工具 GitHub 活跃度与近缘鱼先例做定向核验(GitHub API + 已发表论文)。各节标注了证据等级:组装与重复/结构注释为对抗验证的 benchmark 结论,功能/ncRNA 为领域标准组合。
必须知晓的局限
- 物种不匹配:所有已验证 benchmark 均非硬骨鱼(用的是水稻/马铃薯/人类/酵母/拟南芥)。目前不存在针对 ~1 Gb teleost 的专门组装/挂载 benchmark,结论外推到本物种时已尽量 hedge。
- Verkko HiFi-only 偏倚:Verkko 的劣势结论来自 HiFi-only 模式,其设计用途是 HiFi+ONT 超长——这正是本项目应在 V3 验证的配置。
- 开发者自评:compleasm/HapHiC 的部分指标为作者自家 benchmark(虽有独立佐证),compleasm 高完整度结论为人类特异。
- 时效性:长读组装演进快(Verkko2、hifiasm 整合 HiFi+UL+Hi-C),实际执行前应核实工具最新 release。
已证伪的常见误区(不应写入结论)
★参考来源
- Yu, Wang et al. A comprehensive benchmark of 11 de novo HiFi assemblers. Genome Research 2024, 34(2):326. genome.cshlp.org/content/34/2/326
- 同行评测(CLR/ONT 噪声长读部分)。GigaScience 2023, giad100. doi:10.1093/gigascience/giad100
- HiFi 组装器 benchmark 预印本(含 N50/完整度/准确度三方权衡)。bioRxiv 2023.06.29.546998. biorxiv.org/.../546998v1
- Earth BioGenome Project. Report on Assembly Recommendations (Version 4, Jan 2026). earthbiogenome.org/report-on-assembly-recommendations
- Larivière et al. VGP / Galaxy genome assembly pipeline. Nature Biotechnology (PMC10327048). pmc.../PMC10327048
- Guan et al. purge_dups. Bioinformatics 2020, 36(9):2896. doi:10.1093/bioinformatics/btaa025
- Obinu, Trivedi, Porceddu. Benchmarking of Hi-C tools for scaffolding (plant genomes). Frontiers in Bioinformatics 2024, 4:1462923 (PMC11604747). pmc.../PMC11604747
- Zhou et al. YaHS. Bioinformatics 2023, 39(1):btac808. doi:10.1093/bioinformatics/btac808
- Huang & Li. compleasm. Bioinformatics 2023, 39(10):btad595 (PMC10558035). pmc.../PMC10558035
- Zeng et al. HapHiC: reference-independent, allele-aware Hi-C scaffolding. Nature Plants 2024, 10:1184. doi:10.1038/s41477-024-01755-3
- Rhie et al. EBP / VGP quality standards (6.C.Q40). PNAS / Nature (PMC8795494). pmc.../PMC8795494
- Long-read sequencing technologies & algorithms review. Genomics 2024. sciencedirect.com/.../S0888754324000636
- Sanger Tree of Life pipelines: sanger-tol/genomeassembly · genomenote
- Baril, Galbraith & Hayward. Earl Grey: automated TE annotation. Mol Biol Evol 2024, 41(4):msae068 (PMC11003543). pmc.../PMC11003543 · github.com/TobyBaril/EarlGrey
- Flynn et al. RepeatModeler2. PNAS 2020, 117(17):9451 (PMC7196820). doi:10.1073/pnas.1921046117
- Ou et al. EDTA. Genome Biology 2019 (PMC6913007); 及作者 2024 Response on vertebrate limitations (PMC10762968). PMC6913007 · PMC10762968
- Novák et al. RepeatExplorer2. Nature Protocols 2020. doi:10.1038/s41596-020-0400-y
- Gabriel et al. BRAKER3. Genome Research 2024, 34(5):769 (PMC11216308 / gr.278090.123). genome.cshlp.org/content/34/5/769
- Brůna, Hoff, Stanke et al. GALBA. BMC Bioinformatics 2023 (PMC10472564). doi:10.1186/s12859-023-05449-z
- Stiehler et al. Helixer. Bioinformatics 2020, 36(22-23):5291; Gabriel et al. Tiberius. Bioinformatics 2024, 40(12):btae685. Helixer · Tiberius
- Cantalapiedra et al. eggNOG-mapper v2. Mol Biol Evol 2021, 38(12):5825. doi:10.1093/molbev/msab293
- Rfam / Infernal genome annotation 文档与 Nawrocki & Eddy, Infernal 1.1. docs.rfam.org/.../genome-annotation
- Nevers et al. OMArk: proteome quality & consistency. NAR Genomics & Bioinformatics 2025, 7(1):lqae189. doi:10.1093/nargab/lqae189
- 一体化注释框架:NCBI EGAPx · Ensembl/DToL genebuild · funannotate
- Jones et al. InterProScan 5. Bioinformatics 2014, 30(9):1236. doi:10.1093/bioinformatics/btu031
- Chan, Lin, Lowe et al. tRNAscan-SE 2.0.(及 Lowe & Eddy 1997)github.com/UCSC-LoweLab/tRNAscan-SE
- 诸氏鲻虾虎鱼现有基因组: Whole-genome sequencing reveals sex determination and liver high-fat storage of yellowstripe goby (M. chulae). Communications Biology 2021 (PMC7782490; BioProject PRJNA598084). doi:10.1038/s42003-020-01541-9
- 先例:Rhinogobius duospilus chromosome-level genome. G3: Genes|Genomes|Genetics 2026, jkaf278. academic.oup.com/g3journal/.../jkaf278
- 先例(现代模板):Gobius paganellus (rock goby) genome. Scientific Data 2026 (PMC12957465; PRJNA1298813). pmc.../PMC12957465
- 先例:Scartelaos histophorus (大鳍弹涂鱼) genome. Frontiers in Marine Science 2022. doi:10.3389/fmars.2022.966275
- ONT 参数先例:弹涂鱼 (mudskippers) 重组装 PacBio+ONT+Hi-C+Illumina. Journal of Advanced Research 2024 (PMC10982859). pmc.../PMC10982859