一.Ratatosk
GitHub - DecodeGenetics/Ratatosk: Hybrid error correction of long reads using colored de Bruijn graphs
Ratatosk: hybrid error correction of long reads enables accurate variant calling and assembly | Genome Biology | Full Text
1.1 mamba安装
mamba install Ratatosk
1.2 使用 -- correct
重要提示:来自同一对的输入(短)读数必须具有相同的名称。不允许使用 /1 或 /2 后缀。
## 矫正示例
Ratatosk correct -v -c 16 -s 2dai/bowtie/map_pair_hits.1.fq 2dai/bowtie/map_pair_hits.2.fq -l map_gene.fa -o out_long_reads && seqtk seq -a out_long_reads.fastq > out_long_reads.fa
1.2.1正常参数
必需参数(带参数)
| 选项 |
描述 |
-s, --in-short |
输入短读数文件(FASTA/FASTQ,支持 .gz) |
|
或短读数文件列表(每行一个文件) |
-l, --in-long |
输入待纠错的长读数文件(FASTA/FASTQ,支持 .gz) |
|
或长读数文件列表(每行一个文件) |
-o, --out-long |
输出纠错后的长读数文件 |
可选参数(带参数)
| 选项 |
描述 |
-c, --cores |
使用的核心数(默认:1) |
-S, --subsampling |
短读数子采样率(默认:自动) |
-t, --trim-split |
修剪并分割质量分数 < t 的碱基(默认:不修剪/分割) |
|
如果使用,只输出长度 >= 63 的子读数 |
-u, --in-unmapped-short |
输入未映射的短读数文件(FASTA/FASTQ,支持 .gz) |
|
或未映射短读数文件列表(每行一个文件) |
-a, --in-accurate-long |
输入高质量长读数文件(FASTA/FASTQ,支持 .gz) |
|
或高质量长读数文件列表(每行一个文件) |
|
(这些读数不会被纠正,但会协助输入读数的纠正) |
-g, --in-graph |
加载使用 index 命令准备的图文件 |
-d, --in-unitig-data |
加载使用 index 命令准备的 unitig 数据文件 |
-Q, --max-base-qual |
输入长读数的最大碱基质量(默认:40) |
可选参数(无参数)
| 选项 |
描述 |
-G, --gzip-out |
输出文件使用 gzip 压缩 |
-O, --force-io-order |
强制保持长读数输入/输出顺序 |
-v, --verbose |
打印信息 |
1.2.2高级参数
可选参数(带参数)
| 选项 |
描述 |
-m, --min-conf-snp-corr |
纠正 SNP 的最小置信度阈值(默认:0.9) |
-M, --min-conf-color2 |
第二遍着色顶点的最小置信度阈值(默认:0) |
-C, --min-len-color2 |
第二遍着色顶点的长读数最小长度(默认:3000) |
-i, --insert-sz |
输入配对端短读数的插入大小(默认:500) |
-k, --k1 |
第一遍短 k-mer 的长度(默认:31) |
-K, --k2 |
第二遍长 k-mer 的长度(默认:63) |
-w, --max-len-weak1 |
第一遍不纠正非固态区域 >= w 碱基(默认:1000) |
-W, --max-len-weak2 |
第二遍不纠正非固态区域 >= w 碱基(默认:5000) |
可选参数(无参数)
| 选项 |
描述 |
-1, --1st-pass-only |
仅执行第一遍纠正(默认:false) |
-2, --2nd-pass-only |
仅执行第二遍纠正(默认:false) |
-F, --no-snp-correction |
禁用 SNP 检测和纠正 |
-I, --no-graph-index |
禁用图索引输出 |
1.2.3实验性参数
可选参数(带参数)
| 选项 |
描述 |
-L, --in-long_raw |
输入来自第一遍的长读数文件(FASTA/FASTQ,支持 .gz) |
|
或长读数文件列表(每行一个文件) |
-p, --in-short-phase |
输入短读数相位文件(仅适用于二倍体) |
|
或短读数相位文件列表(每行一个文件) |
-P, --in-long-phase |
输入长读数相位文件(仅适用于二倍体) |
|
或长读数相位文件列表(每行一个文件) |