CAFE on Yonder Mountain

比较基因组学分析2：基因家族的扩张与收缩

Fri, 21 Nov 2025 00:00:00 +0000

1. 背景与目的

基因家族扩张与收缩是基因组进化中的重要现象。通过比较不同物种的基因家族大小，可以揭示基因在进化过程中经历的增减变化，进而理解物种如何适应不同生态环境以及其独特的进化机制。基因家族扩张往往与新功能获得、适应性特征的进化相关；而收缩可能反映某些功能的丧失或选择压力的变化。

2. CAFE5 简介

CAFE5（Computational Analysis of Gene Family Evolution）是一种常用的基因家族进化分析工具，它基于系统发育树和基因家族大小数据，利用最大似然法推测基因家族在各个分支上经历的扩张与收缩事件。该方法不仅可以量化基因家族变化，还可以判断这些变化是否显著，从而帮助研究者识别潜在的功能相关基因家族。

 Orthogroups.GeneCount.tsv 时间树（tree.txt）
│ │
└──────────────┬──────────────┘
▼
CAFE5 输入处理
│
▼
CAFE5 分析
│
▼
输出 Gamma_* 文件
│
▼
筛选显著扩张/收缩家族
(Gamma_family_results.txt + Gamma_change.tab)
│
▼
┌───────────────────────────┐
│ │
sig_change_tsv.py sig_change_map_to_tree.py
输出 Gamma_change_sig.tsv 输出 cleaned_tree_sig_only.txt
│ │
▼ ▼
后续统计/功能分析 树上可视化显著家族扩张/收缩

3. 输入数据准备

在使用CAFE5时，至少需要准备两个输入文件：

Orthogroups.GeneCount.tsv：基因家族的计数文件。
tree.txt：系统发育树文件，包含物种分化时间。

3.1 从 OrthoFinder 的 Orthogroups.GeneCount.tsv 生成 CAFE5 输入文件

Orthogroups.GeneCount.tsv 文件用于记录每个基因家族（Orthogroup）在不同物种中的基因拷贝数，是 CAFE5 分析的核心输入之一。该文件通常来自 OrthoFinder 或 OrthoMCL 等软件，其中每一行对应一个基因家族，每一列对应一个物种的基因数量。为了让 CAFE5 正确读取，我们需要对原始文件进行一些格式检查和整理。

cp ../1_OrthoFinder/Results_Apr18/Orthogroups/Orthogroups.GeneCount.tsv 11.18.cafe
sed 's/_//g' Orthogroups.GeneCount.tsv | awk 'BEGIN{OFS="\t"} {$NF=""; print}' | awk '{print "(null)\t"$$0}' | sed '1s/(null)/Desc/' > cafe.input.tsv

生成之后还需要剔除不同物种间拷贝数差异过大的基因家族，否则会报错，可以使用官方提供的脚本：https://github.com/hahnlab/cafe_tutorial/blob/main/python_scripts/cafetutorial_clade_and_size_filter.py

python /home/salticidae/install/CAFE5-master/scripts/cafetutorial_clade_and_size_filter.py -i cafe.input.tsv -o gene_family_filter.txt -s

3.2 生成时间树

时间树的构建见博客xxx

4. 运行 cafe5

CAFE5的运行命令如下：

cafe5 -i gene_family_filter.txt -t cafe.input.tree -o out_gamma_k1 -c 80 -k 1 -p

一般运行 k=1~5，根据其输出的 Base/Gamma_results.txt 文件判断哪个拟合程度最好。

lnL（似然值）：越小越好。表征模型拟合度，-lnL 越小、模型越好。
Alpha：是否存在谱系异质性。Alpha 越大，表示更强的“家族进化速率的变异”；如果 Alpha ≈ 0，则说明 Gamma 模型没必要。
失败家族（failure rates >20%）：太多失败说明模型可能不稳定，或某些家族数据异常。

5. 结果解读

Gamma_asr.tre # 每个基因家族的树文件
Gamma_branch_probabilities.tab # 每个分支计算的概率
Gamma_category_likelihoods.txt
Gamma_change.tab # 每一个基因家族在每个节点的收缩与扩张数目
Gamma_clade_results.txt # 每个节点基因家族的扩张/收缩数目
Gamma_count.tab # 每一个基因家族在每个节点的数目
Gamma_family_likelihoods.txt
Gamma_family_results.txt # 基因家族变化的p值和是否显著的结果
Gamma_report.cafe
Gamma_results.txt # 模型，最终似然值，最终Lambda值等参数信息

5.1 每个节点显著收缩/扩张的基因家族数目可视化

将显著扩张/收缩的基因家族数目体现在树上，需要三个文件：

Gamma_family_results.txt
Gamma_clade_results.txt
Gamma_asr.tre

从cafe5的输出文件 Gamma_asr.tre 中获得树文件，写入 id_tree.txt

去掉节点多余的内容：

sed -E 's/(<[0-9]+>)[^:,;)]+/\1/g' id_tree.txt > cleaned_tree.txt

运行脚本 sig0.05_change_map_to_tree.py

从 Gamma_family_results.txt 读入显著家族只保留 “y” 的基因家族；
从 Gamma_change.tab 选取显著家族对应的行；
每个节点分别统计：所有显著家族的扩张数，所有显著家族的收缩数；
最后将其 map 到树上：写入 cleaned_tree_sig0.05_only.txt

cat > sig0.05_change_map_to_tree.py << 'EOF'
#!/usr/bin/env python3
import re
import pandas as pd
# -----------------------------
# 1. 读取显著家族列表
# -----------------------------
sig_fams = set()
with open("Gamma_family_results.txt") as f:
next(f) # 跳过标题
for line in f:
parts = line.strip().split()
if len(parts) >= 3 and parts[2].lower() == "y":
sig_fams.add(parts[0])
print(f"显著家族数: {len(sig_fams)}")
# -----------------------------
# 2. 读取 CAFE family × node 变化矩阵
# -----------------------------
df = pd.read_csv("Gamma_change.tab", sep="\t")
node_cols = df.columns[1:] # 第一列是 FamilyID
# 仅显著家族
df_sig = df[df["FamilyID"].isin(sig_fams)]
print(f"显著家族矩阵形状: {df_sig.shape}")
# -----------------------------
# 3. 统计显著扩张/收缩的“家族数量”
# -----------------------------
node_change = {}
for node in node_cols:
changes = df_sig[node]
inc = (changes > 0).sum() # 扩张家族数量
dec = (changes < 0).sum() # 收缩家族数量
node_change[node] = (int(inc), int(dec))
print("每个节点显著扩张/收缩数量统计完毕。")
# -----------------------------
# 4. 读取树
# -----------------------------
with open("cleaned_tree.txt") as f:
tree = f.read()
# -----------------------------
# 5. 替换树中的节点名称
# -----------------------------
for node, (inc, dec) in node_change.items():
if inc == 0 and dec == 0:
continue # 两者都不显著则跳过
new_label = node
if inc > 0:
new_label += f"+{inc}"
if dec > 0:
new_label += f"-{dec}"
tree = re.sub(re.escape(node), new_label, tree)
# -----------------------------
# 6. 输出
# -----------------------------
with open("cleaned_tree_sig0.05_only.txt", "w") as f:
f.write(tree)
print("写入完成：cleaned_tree_sig0.05_only.txt")
EOF
python3 sig0.05_change_map_to_tree.py

5.2 过滤每个节点基因家族的扩张/收缩数目文件中不显著的基因家族

运行过滤脚本 sig0.05_change_tsv.py

以 Gamma_family_results.txt 里显著家族为准，从 Gamma_change.tab 中去掉不显著家族；
输出一个新的 Gamma_change_sig0.05.tsv。

cat > sig0.05_change_tsv.py << 'EOF'
#!/usr/bin/env python3
import pandas as pd
# -----------------------------
# 1. 读取显著家族列表
# -----------------------------
sig_fams = set()
with open("Gamma_family_results.txt") as f:
next(f) # 跳过标题
for line in f:
parts = line.strip().split()
if len(parts) >= 3 and parts[2].lower() == "y":
sig_fams.add(parts[0])
print(f"显著家族数: {len(sig_fams)}")
# -----------------------------
# 2. 读取 Gamma_change.tab
# -----------------------------
df = pd.read_csv("Gamma_change.tab", sep="\t")
# -----------------------------
# 3. 筛选显著家族
# -----------------------------
df_sig = df[df["FamilyID"].isin(sig_fams)]
# -----------------------------
# 4. 输出新的显著家族矩阵
# -----------------------------
output_file = "Gamma_change_sig0.05.tsv"
df_sig.to_csv(output_file, sep="\t", index=False)
print(f"完成，已生成 {output_file}，仅包含显著家族")
EOF
python3 sig0.05_change_tsv.py

基于 CAFE 的基因家族回溯与功能注释

Tue, 04 Nov 2025 00:00:00 +0000

基于 CAFE 的基因家族回溯与功能注释标准流程

代码可参考 :
https://github.com/ZyYang0124/Myscripts/blob/main/CAFE/extract_cafe_matrix_results.py

一、流程目标

本流程旨在从 CAFE 输出结果 中识别显著扩张或收缩的基因家族，并通过回溯至基因家族构建与功能注释阶段，确定这些家族的成员组成与潜在功能，从而为基因家族进化分析提供生物学解释。

二、总体思路

CAFE 仅输出家族编号（如 OG0000001）及其在各物种中的拷贝变化（ΔCopy），但该编号并不携带生物学意义。因此，需要通过以下路径逐级回溯：

1

CAFE 输出 → Orthogroups 表 → 基因 ID 列表 → 功能注释文件 → 家族功能解释

最终形成一份包含家族变化、成员组成与注释信息的整合表。

三、输入文件

文件类型	来源	主要内容
`Base_change.tab`	CAFE 输出	每个基因家族在各物种的拷贝数变化（扩张/收缩）
`Orthogroups.tsv`	OrthoFinder（或其他聚类软件）	每个 orthogroup 的成员基因列表（按物种划分）
注释文件（`.tsv` / `.gff3` / `.faa`）	各物种功能注释结果	每个基因的功能描述、GO、KEGG 等信息

四、标准分析步骤

步骤 1：筛选显著变化的家族

从 Base_change.tab 中选定目标物种；
根据数值阈值（如 ΔCopy ≥ 3 为扩张，ΔCopy ≤ -3 为收缩）筛选对应的家族；
输出扩张和收缩家族的编号列表。

建议同时记录阈值与物种，以确保结果可复现。

步骤 2：回溯基因家族构成

在 Orthogroups.tsv 文件中查找上述家族编号；
提取对应家族的所有成员基因；
按物种分列整理，获得“家族–基因ID”对应表；
记录每个家族在各物种的成员数量分布。

若多个物种均有显著变化，可分别整理或联合分析。

步骤 3：提取目标物种的基因列表

从“家族–基因ID表”中提取目标物种的基因ID；
生成每个物种的基因列表文件；
确保基因命名与注释文件中一致（如含物种前缀或转录本编号）。

步骤 4：匹配功能注释信息

依据基因列表，在物种的注释结果中查找对应条目；
提取功能描述、蛋白结构域、GO、KEGG 等注释信息；
整理为“基因–功能”对应表；
若注释文件来源多样（如 eggNOG、InterProScan 等），建议合并后统一字段。

步骤 5：家族功能整合与生物学解释

将注释结果与家族编号对应；
汇总为以下字段：

Orthogroup 变化方向 ΔCopy 物种成员数基因列表主要功能注释
对家族进行分类（如代谢相关、感知相关、转录调控相关等）；
若家族成员功能一致性较高，可直接推断其主要功能；
若差异较大，可进一步检查序列同源性或蛋白结构域。

步骤 6：可选的后续分析

分析方向	内容	工具建议
功能富集	基于家族成员的 GO/KEGG 富集分析	GOATOOLS、KOBAS、clusterProfiler
蛋白结构域统计	检查扩张家族中结构域分布模式	InterProScan、Pfam
系统发育可视化	在进化树上标注家族变化情况	iTOL、ETE3
关联基因表达	检查扩张家族基因的表达特征	RNA-seq 数据分析

五、输出成果

显著扩张与收缩家族列表；
各家族的成员基因清单；
基因功能注释表；
家族功能整合汇总表；
（可选）富集分析与可视化结果。

六、质量控制与注意事项

编号一致性 确保 CAFE 与 Orthogroups.tsv 的家族编号完全对应；
注释文件准确性 使用统一来源或经过人工校正的注释信息；
阈值设定 ΔCopy 的阈值应结合家族大小与树的分支长度调整；
功能判定 若功能注释模糊，应辅以 BLAST 比对或结构域信息验证；
数据记录 每步操作应记录参数、文件版本和日期，保证溯源性。

七、流程摘要图

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13


CAFE 输出 (Base_change.tab)
 ↓
筛选显著扩张/收缩家族
 ↓
回溯 Orthogroups.tsv
 ↓
获取家族成员基因ID
 ↓
匹配注释信息（GFF/FAA/TSV）
 ↓
整合功能表并解释生物学意义
 ↓
（可选）富集与可视化分析