<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Bycatch on Yonder Mountain</title><link>https://zyyang0124.github.io/tags/bycatch/</link><description>Recent content in Bycatch on Yonder Mountain</description><generator>Hugo -- gohugo.io</generator><language>en-us</language><lastBuildDate>Tue, 04 Nov 2025 00:00:00 +0000</lastBuildDate><atom:link href="https://zyyang0124.github.io/tags/bycatch/index.xml" rel="self" type="application/rss+xml"/><item><title>使用 Mesquite 在基因组组装中搜索 Sanger 测序遗留基因</title><link>https://zyyang0124.github.io/p/bycatch/</link><pubDate>Tue, 04 Nov 2025 00:00:00 +0000</pubDate><guid>https://zyyang0124.github.io/p/bycatch/</guid><description>&lt;img src="https://zyyang0124.github.io/p/bycatch/1.JPG" alt="Featured image of post 使用 Mesquite 在基因组组装中搜索 Sanger 测序遗留基因" /&gt;&lt;p&gt;感谢 Wayne P. Maddison 对流程实现的帮助&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="前言"&gt;前言
&lt;/h2&gt;&lt;p&gt;系统发育研究常受限于高通量测序（NGS）数据难以覆盖国外物种，导致取样范围不足，影响结果的代表性与说服力。然而，NCBI 等公共数据库中往往已有这些物种的 Sanger 测序数据。针对这一问题，可采用下文策略：从已有的 NGS 数据中“钓取”（bycatch）目标基因的同源序列，将其与 NCBI 下载的 Sanger 序列进行整合，从而构建取样更全面、更具代表性的系统发育树。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="1-前提条件"&gt;1. 前提条件
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;确保已安装 BLAST
&lt;ul&gt;
&lt;li&gt;本流程依赖 BLAST 工具。&lt;/li&gt;
&lt;li&gt;BLAST 可能已包含在 Mesquite 安装目录下的 apps 文件夹中。&lt;/li&gt;
&lt;li&gt;若未包含，则需在您的计算机上单独安装 BLAST。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;准备基因组组装 FASTA 文件
&lt;ul&gt;
&lt;li&gt;将包含目标基因可能存在的 contig 组装结果（FASTA 格式）放入一个专用目录中。&lt;/li&gt;
&lt;li&gt;这些 FASTA 文件是后续 BLAST 搜索的目标数据库。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;准备目标序列
&lt;ul&gt;
&lt;li&gt;下载高质量的目标序列&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="2-主要操作步骤"&gt;2. 主要操作步骤
&lt;/h2&gt;&lt;h3 id="21-启动-mesquite"&gt;2.1 启动 Mesquite
&lt;/h3&gt;&lt;h3 id="22-将-fasta-文件转换为-blast-可用数据库"&gt;2.2 将 FASTA 文件转换为 BLAST 可用数据库
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;在 Mesquite 的 Log 窗口中，选择菜单：&lt;code&gt;Utilities &amp;gt; Make BLASTable Files from FASTA&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;在弹出的对话框中，选择包含组装 FASTA 文件的目录。&lt;/li&gt;
&lt;li&gt;Mesquite 将为该目录中的每个 FASTA 文件生成对应的 BLAST 数据库。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="23-加载目标序列target-sequence"&gt;2.3 加载目标序列（Target Sequence）
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;在 Mesquite 中打开一个包含&lt;strong&gt;目标基因序列&lt;/strong&gt;的文件。&lt;/li&gt;
&lt;li&gt;该目标序列应为高质量的已知序列，来自您的研究物种或其近缘种（关系越近，bycatch 结果越好）。&lt;/li&gt;
&lt;li&gt;后续将用此序列对上述组装数据库进行 BLAST 比对。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="24-在矩阵编辑器中选中目标序列行"&gt;2.4 在矩阵编辑器中选中目标序列行
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;在 &lt;code&gt;Character Matrix Editor&lt;/code&gt; 中，点击选中代表目标序列的那一行。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="25-启动本地-blast-搜索"&gt;2.5 启动本地 BLAST 搜索
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;选择菜单：&lt;code&gt;Matrix &amp;gt; Search &amp;gt; Top BLAST Matches&lt;/code&gt;，然后选择 &lt;code&gt;BLAST Local Server&lt;/code&gt;。&lt;/li&gt;
&lt;li&gt;点击 OK，将弹出 BLAST 配置对话框。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="26-配置-blast-搜索参数"&gt;2.6 配置 BLAST 搜索参数
&lt;/h3&gt;&lt;p&gt;该对话框为通用 BLAST 设置界面，部分选项在此用途下不适用，具体设置如下：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;a. “Additional BLAST options”（附加 BLAST 选项）中，无需手动指定最大 E 值（eValue）或字长（word size），这些将在下一步对话框中设置。&lt;/li&gt;
&lt;li&gt;b. 取消勾选 &lt;code&gt;BLAST databases in default location&lt;/code&gt;（BLAST 数据库位于默认位置）。&lt;/li&gt;
&lt;li&gt;c. 在 &lt;code&gt;Path to folder&lt;/code&gt;（数据库文件夹路径）中，选择第 2.2 中生成 BLAST 数据库的同一目录（即&lt;strong&gt;您的组装 FASTA 所在目录&lt;/strong&gt;）。&lt;/li&gt;
&lt;li&gt;d. &lt;code&gt;Databases to search&lt;/code&gt;（要搜索的数据库）默认为 *，表示搜索该目录下所有数据库。如只需搜索部分数据库，可在此处输入具体的数据库名称列表。&lt;/li&gt;
&lt;li&gt;e. 关于序列标题（header）格式的注意事项：
&lt;ul&gt;
&lt;li&gt;某些组装软件（如 CLC）在 FASTA 序列标题中包含物种名，例如：&amp;gt;MySpecies Specimen 2 | NODE 348830&amp;hellip;&lt;/li&gt;
&lt;li&gt;而其他软件（如 SPAdes）则不包含，例如：&amp;gt;NODE 348830&amp;hellip;&lt;/li&gt;
&lt;li&gt;如果您的组装 FASTA 标题中不包含物种名，建议勾选 &lt;code&gt;Prepend database name to hit names&lt;/code&gt;（在命中序列名前添加数据库名）。因为数据库名源自 FASTA 文件名，而文件名通常包含物种信息，此举有助于后续识别来源。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="27-设置比对与序列导入选项"&gt;2.7 设置比对与序列导入选项
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;建议勾选 &lt;code&gt;reverse complement if needed and align imported sequences&lt;/code&gt;（如需则反向互补，并对导入序列进行比对），以便直观查看结果。&lt;/li&gt;
&lt;li&gt;是否允许内部插入空位（gaps）？
&lt;ul&gt;
&lt;li&gt;如果目标序列为蛋白质编码区（如 COI 基因），不要勾选 &lt;code&gt;allow new internal gaps&lt;/code&gt;；&lt;/li&gt;
&lt;li&gt;如果目标序列包含非编码区，则建议勾选此项。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="28-执行-blast-搜索并导入结果"&gt;2.8 执行 BLAST 搜索并导入结果
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;点击 OK 后，Mesquite 将调用 BLAST 对指定数据库进行搜索；&lt;/li&gt;
&lt;li&gt;自动提取满足条件的 contig 序列，并将其作为新行添加到当前矩阵中。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="29-修剪命中序列"&gt;2.9 修剪命中序列
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;根据目标参考序列，对命中的序列进行修剪&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="210-处理同一物种的多个命中"&gt;2.10 处理同一物种的多个命中
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;若某物种有多个 contig 被命中（例如一个 contig 覆盖基因前端，另一个覆盖后端），Mesquite 会为每个 contig 添加独立行。&lt;/li&gt;
&lt;li&gt;此时，您可能希望将这些行合并为一条完整序列。Mesquite 将此操作称为 &lt;code&gt;Merge Taxa&lt;/code&gt;（合并分类单元）。&lt;/li&gt;
&lt;li&gt;合并方式有两种入口：
&lt;ul&gt;
&lt;li&gt;在 &lt;code&gt;Character Matrix Editor&lt;/code&gt; 中：&lt;code&gt;Matrix &amp;gt; Taxon Utilities &amp;gt; Merge Taxa&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;或在 &lt;code&gt;List of Taxa&lt;/code&gt; 窗口中：&lt;code&gt;List &amp;gt; Taxon Utilities &amp;gt; Merge Taxa&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;手动合并选定行
&lt;ul&gt;
&lt;li&gt;先在矩阵中选中需要合并的多行；&lt;/li&gt;
&lt;li&gt;选择 &lt;code&gt;Taxon Utilities &amp;gt; Merge Selected Taxa&lt;/code&gt;；&lt;/li&gt;
&lt;li&gt;系统将提供多种合并策略供选择。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;按名称自动匹配合并
&lt;ul&gt;
&lt;li&gt;选择 &lt;code&gt;Taxon Utilities &amp;gt; Merge Taxa by Name Matching&lt;/code&gt;；&lt;/li&gt;
&lt;li&gt;系统会弹出对话框，询问名称中哪些部分需一致才能视为同一物种（例如前缀、文件名主体等）。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;选择合并策略
&lt;ul&gt;
&lt;li&gt;无论采用手动还是自动匹配方式，下一步都会出现合并选项对话框。&lt;/li&gt;
&lt;li&gt;推荐选择：&lt;code&gt;blend&lt;/code&gt;：在无冲突位置合并碱基，冲突处标记；或 &lt;code&gt;refuse&lt;/code&gt;（拒绝合并重叠区）：保留重叠区域供人工检查。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="211-导出数据"&gt;2.11 导出数据
&lt;/h3&gt;</description></item></channel></rss>