Featured image of post 基于 CAFE 的基因家族回溯与功能注释

基于 CAFE 的基因家族回溯与功能注释

本流程旨在从 CAFE 输出结果 中识别显著扩张或收缩的基因家族,并通过回溯至基因家族构建与功能注释阶段,确定这些家族的成员组成与潜在功能,从而为基因家族进化分析提供生物学解释。

基于 CAFE 的基因家族回溯与功能注释标准流程

代码可参考 :
 https://github.com/ZyYang0124/Myscripts/blob/main/CAFE/extract_cafe_matrix_results.py

一、流程目标

本流程旨在从 CAFE 输出结果 中识别显著扩张或收缩的基因家族,并通过回溯至基因家族构建与功能注释阶段,确定这些家族的成员组成与潜在功能,从而为基因家族进化分析提供生物学解释。


二、总体思路

CAFE 仅输出家族编号(如 OG0000001)及其在各物种中的拷贝变化(ΔCopy),但该编号并不携带生物学意义。 因此,需要通过以下路径逐级回溯:

1
CAFE 输出 → Orthogroups 表 → 基因 ID 列表 → 功能注释文件 → 家族功能解释

最终形成一份包含家族变化、成员组成与注释信息的整合表。


三、输入文件

文件类型来源主要内容
Base_change.tabCAFE 输出每个基因家族在各物种的拷贝数变化(扩张/收缩)
Orthogroups.tsvOrthoFinder(或其他聚类软件)每个 orthogroup 的成员基因列表(按物种划分)
注释文件(.tsv / .gff3 / .faa各物种功能注释结果每个基因的功能描述、GO、KEGG 等信息

四、标准分析步骤

步骤 1:筛选显著变化的家族

  1. Base_change.tab 中选定目标物种;
  2. 根据数值阈值(如 ΔCopy ≥ 3 为扩张,ΔCopy ≤ -3 为收缩)筛选对应的家族;
  3. 输出扩张和收缩家族的编号列表。

建议同时记录阈值与物种,以确保结果可复现。


步骤 2:回溯基因家族构成

  1. Orthogroups.tsv 文件中查找上述家族编号;
  2. 提取对应家族的所有成员基因;
  3. 按物种分列整理,获得“家族–基因ID”对应表;
  4. 记录每个家族在各物种的成员数量分布。

若多个物种均有显著变化,可分别整理或联合分析。


步骤 3:提取目标物种的基因列表

  1. 从“家族–基因ID表”中提取目标物种的基因ID;
  2. 生成每个物种的基因列表文件;
  3. 确保基因命名与注释文件中一致(如含物种前缀或转录本编号)。

步骤 4:匹配功能注释信息

  1. 依据基因列表,在物种的注释结果中查找对应条目;
  2. 提取功能描述、蛋白结构域、GO、KEGG 等注释信息;
  3. 整理为“基因–功能”对应表;
  4. 若注释文件来源多样(如 eggNOG、InterProScan 等),建议合并后统一字段。

步骤 5:家族功能整合与生物学解释

  1. 将注释结果与家族编号对应;

  2. 汇总为以下字段:

    Orthogroup变化方向ΔCopy物种成员数基因列表主要功能注释
  3. 对家族进行分类(如代谢相关、感知相关、转录调控相关等);

  4. 若家族成员功能一致性较高,可直接推断其主要功能;

  5. 若差异较大,可进一步检查序列同源性或蛋白结构域。


步骤 6:可选的后续分析

分析方向内容工具建议
功能富集基于家族成员的 GO/KEGG 富集分析GOATOOLS、KOBAS、clusterProfiler
蛋白结构域统计检查扩张家族中结构域分布模式InterProScan、Pfam
系统发育可视化在进化树上标注家族变化情况iTOL、ETE3
关联基因表达检查扩张家族基因的表达特征RNA-seq 数据分析

五、输出成果

  1. 显著扩张与收缩家族列表;
  2. 各家族的成员基因清单;
  3. 基因功能注释表;
  4. 家族功能整合汇总表;
  5. (可选)富集分析与可视化结果。

六、质量控制与注意事项

  1. 编号一致性 确保 CAFE 与 Orthogroups.tsv 的家族编号完全对应;
  2. 注释文件准确性 使用统一来源或经过人工校正的注释信息;
  3. 阈值设定 ΔCopy 的阈值应结合家族大小与树的分支长度调整;
  4. 功能判定 若功能注释模糊,应辅以 BLAST 比对或结构域信息验证;
  5. 数据记录 每步操作应记录参数、文件版本和日期,保证溯源性。

七、流程摘要图

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
CAFE 输出 (Base_change.tab)
筛选显著扩张/收缩家族
回溯 Orthogroups.tsv
获取家族成员基因ID
匹配注释信息(GFF/FAA/TSV)
整合功能表并解释生物学意义
(可选)富集与可视化分析

comments powered by Disqus
Built with Hugo
Theme Stack designed by Jimmy