Easy353使用,快速简便提取被子植物353基因集 每日精选
被子植物353基因集(Angiosperms353 gene set, AGS) 是这样一组通用的低拷贝基因集合。川大余岩老师团队开发的easy353程序可以高效地从高通量测序数据中过滤reads并从头组装,提取出AGS353序列。
运行原理简要如图,详细内容可阅读原文献进行了解:
【资料图】
https://doi.org/10.1093/molbev/msac261
了解、下载easy353:https://github.com/plant720/Easy353
用相同方法挖掘更多基因,可以使用GeneMiner扩展版: https://github.com/happywithxpl/GeneMiner
Easy353有两种版本:命令行操作版本和gui交互窗口版本。
窗口界面易于操作,本着能不麻烦绝不去找事的原则,选择使用这个版本。提供了win和macOS,根据自己的操作系统按需下载,解压即可使用。https://github.com/plant720/Easy353/release
参数界面分了三个部分:Basic、General、Advance三个部分,下面逐一介绍。
Basic
Unpaired fq file:输入单端测序的结果。
Paired fq file 1/2:分别输入双端测序的结果文件。
(上面两个根据测序方式选择输入)
Taxonomy:参考序列类群范围。(选择关系最近的类群,否则很难得到结果;参考序列会自动下载,数据来自邱园的项目https://treeoflife.kew.org/,没有网络的话会报错)
Output dir:设置输出文件夹。
General
Exclude file和Exclude:用于指定不使用哪些参考物种序列。(一般不用)
Filtering Kmer:设定过滤时的Kmer长度。越长就越难匹配到参考序列上,但是太短了匹配上的reads就会非常多,会出现错误。默认为31。
Assembly Kmer:设定组装的Kmer长度。默认为41。
(测的乘数较高的话默认参数应该足够了,推荐的乘数为20×以上,乘数不够或者没有较近关系的类群参考,可以适当降低Kmer设定,过滤Kmer不应低于21,组装Kmer不应短于31,越低结果错误的风险越大)
Filtering thread:过滤运行线程,gui版本为1,电脑能双线程的话可以尝试,不过要么没用要么很卡,反正我没试过。
Assembly thread:组装运行线程,默认为4。
Advanced
Step length:获取Kmer的步长,比如一个reads为AATTCCGG,我设定Kmer长度为5,步长为1的话得到以下Kmer:AATTC、ATTCC、TTCCG、TCCGG,设定步长为2的话就是:AATTC、TTCCG。举的例子可能不好,但大致就是这个意思,步长短获取的Kmer就多,约容易获取匹配,如果测序覆盖度够高可以适当调高来减少运行时间。
Ref number:当参考物种较多时,设定转化为哈希表的最大参考数,用于减少运行时间。
Change seed: The setting for the number of seed changes, default value is 32. Actually, change seed is the amount of times the assembly's beginning point can be changed. The seeds are high-abundance K-mers selected from filtered reads that serve as the beginning point for de novo assembly. When the assembled gene's length is less than the set value, Easy353 will alter the assembly beginning point.(不能理解,但感觉对结果影响不是很大,默认值应该就OK了)
Kmer limit:用于删除丰度低或错误的Kmer,只有出现次数大于限定设置的Kmer才回用于组装,如果测的数据集覆盖率很高,可以使用更大的值来保证质量。
Min/Max length ratio:组装基因与参考基因长度比的上下限设定。默认为0.8-2.0范围。
输出会有三个文件夹
353_genes_of_species:从邱园的官网上下载的参考物种序列。
easy353_result:其中filtered_reads_for_genes为过滤后的每个基因对应的Kmer;而target_genes包含组装结果,组装不成功的基因会放置在单独的文件夹中,assemble_log.csv文件包含结果记录。
reference_of_353_genes:将参考物种序列按照基因编号进行分组。
运行速度较快,平均每个物种一小时内(联想拯救者的运算速度还是可以的),easy353_result文件重命名备份,另两个文件夹作为参考序列保留,以免同样的内容反复下载浪费流量。