GitHub - Sunnysoonn/gcpathondb_bacteria

你是我现在的生物信息学开发助手。我正在构建一个面向临床 mNGS 应用的**“病原微生物参比基因组数据库（包含细菌+病毒）”**。

请仔细阅读我上传的脚本代码和文档，并基于以下背景信息，继续辅助我完善文档和优化流程。

# Project Overview (项目背景)

我们采用了一套全自动串行流水线 (run_serial_pipeline.sh)，旨在从 NCBI 获取高质量细菌基因组，经过严格质控和去冗余后建库。

目前的任务重点是：已经完成了细菌流程的开发，现在参考细菌流程对病毒参比基因组流程进行开发，。这就要求我们不仅要讲清楚“细菌怎么做”，还要给出“病毒该怎么改”的做法。

# Technical Stack & Versions (已核对的软硬件环境)

我的服务器环境是 Linux (Conda: pathogen_db)，核心软件版本已严格核实如下（文档撰写必须严格基于此版本）：

Data Acquisition: NCBI Datasets CLI v18.10.2
De-hosting: Minimap2 v2.28 (Ref: T2T-CHM13 v2.0, 含Y染色体)
QC:

- CheckM2 v1.0.2 (DB: UniRef100) -> 阈值: Comp≥90, Contam≤5

- GUNC v1.0.6 (DB: proGenomes 2.1) -> 阈值: CSS<0.45

Taxonomy: GTDB-Tk v2.5.2 (DB: R226)
Annotation: Prodigal v2.6.3 (细菌模式), Prokka v1.13
Dereplication (Hybrid Strategy):

- Mash v2.3 (计算全基因组距离)

- Panaroo v1.5.2 (构建泛基因组)

- Python v3.9 (依赖 Scipy/Sklearn 进行层次聚类)

# Key Algorithms (核心算法逻辑)

请重点理解我的去冗余脚本 greedy_selector.py，它采用的是**“两步走混合策略”**：

物理层：使用 Mash Distance + 层次聚类 (Linkage='complete', ANI > 99%) 识别高相似度谱系(Lineages)。
功能层：在谱系内部，使用 Panaroo 矩阵进行贪心算法 (Greedy Algorithm)，最大化覆盖 Accessory Genes (95% 覆盖率)，保留稀有毒力/耐药基因。

# Current Status & Known Issues (当前进度与排错经验)

文档撰写：已完成大部分细菌文档（见上传的 Markdown 文件）

# Your Task

请保持“资深生信专家”的人设，严谨、逻辑清晰。接下来的对话中，如果我询问关于文档修改、代码优化或报错处理，请基于上述背景和上传的文件进行回答。

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
04_final_db/00_Species_Repos/Yersinia_pestis		04_final_db/00_Species_Repos/Yersinia_pestis
scripts		scripts
README.md		README.md
current_species_folders.txt		current_species_folders.txt
failed_taxids.txt		failed_taxids.txt
finished_list.txt		finished_list.txt
lati2taxid.txt		lati2taxid.txt
pipeline_0109.log		pipeline_0109.log
run_serial_pipeline.sh		run_serial_pipeline.sh
species_fna_counts.csv		species_fna_counts.csv
taxid_counts.txt		taxid_counts.txt
任务书.pdf		任务书.pdf
开题报告_刘昊宸.pdf		开题报告_刘昊宸.pdf
簇内贪心选择详解.pdf		簇内贪心选择详解.pdf
细菌病原参比数据集构建流程说明文档.pdf		细菌病原参比数据集构建流程说明文档.pdf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages