生物信息百Jia软件(21):hisat2

-回复 -浏览
楼主 2019-01-14 14:38:15
举报 只看此人 收藏本贴 楼主

编者按
现在的软件更新实在太快了,光是转录组用来比对的软件就有很多,bowtie,

tophat,star,现在又有hisat以及hisat2,这款软件居然不叫tophat3。又得重新学习,好在万变不离其宗,短序列比对如何变化,都离不开基本的规律,因此,学习原理还是很重要的。

一、功能分类:

转录组短序列比对

二、软件官网:

http://ccb.jhu.edu/software/hisat2/index.shtml

三、软件介绍:

hisat是Hierarchical Indexing for Spliced Alignment of Transcripts,分层次索引的用于转录本是spliced比对工具。
hisat2也是一款短序列比对的工具,主要用于RNAseq数据的比对。Hisat2是hisat比对工具的升级版。而hisat是tophat2的替代工具。tophat是一款非常有名的工具了。在很长一段时期内,RNAseq分析都是按照《Nature Protocol》上那边经典的tophat+cufflinks的分析流程来。后来这套方法逐渐被各种R分析的包取代,现在更多采用DEseq,edgeR等R扩展包来分析RNAseq的数据,将reads比对参考基因组上,然后对每个基因比对的reads进行记数。然后得到一个矩阵,接下来利用R包进行数据分析。因为经过多年分析芯片数据,R语言已经累计了大量分析表达数据的内容,在分析RNAseq数据也是可以轻松转换的。

不过作者在2016年的时候,突然又发了一篇Protocol,推出一套hisat+StringTie + Ballgown的组合方法。其中hisat用于短序列比对,替代原有的tophat,StringTie用于拼接和定量,替代原有的cufflinks,balldown是一个R包,用于最后的差异表达计算以及可视化。完美替换之前的流程。目前这套方法称为RNAseq数据分析新的一套方案。

具体文章见链接 https://www.nature.com/articles/nprot.2016.095
HISAT2使用改进的BWT算法,所以速度更快,资源占用更少。直接下载编译好的版本直接解压缩就行了。

四、下载安装:

wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.1.0-Linux_x86_64.zip
unzip hisat2-2.1.0-Linux_x86_64.zip

五、软件使用:

和其他短序列比对工具一样,首先建立索然,然后比对。如果熟悉bowtie和tophat,那么上手hisat就非常容易了。
建立索引可以使用hisat2-build,如果从网站上下载就可以直接进行比对。

这里面注意一个特殊的地方是hisat2建立索引使,支持加入一些额外的信息,例如--snp,--haplotype,--exon等。加入这些信息之后,在比对的时候就会将这些信息考虑进去提高比对的效率。例如加上SNP信息,在比对到SNP位点就会将SNP信息考虑进去,本来如果是6个错配,这条reads没有满足最少5个错配的设置,应该算比对不上,但是如果软件识别其中2个错配属于SNP位点,那么就应该算作比对上了。

hisat2安装目录中有很多extract开头的python小程序可以将原始文件转换为hisat2-build能使用的文件。

hisat2-buildp 4 genome.fa genome

-sra-acc,这个选项接SRA的 accession ID,一次可以输入多个,用逗号分隔,HISAT会自动从NCBI的SRA数据库下载并转换这些数据进行比对。
-x hisat2的索引前缀,hisat2-build 建立的索引;
-1 reads1文件
-2 reads2文件
-S 输出结果文件,sam格式
这些是必须选项。很多时候直接使用这四个选项就可以运行软件。如果不是pairend reads,使用-U选项。
input选项,控制输入文件,比如指定输入文件类型,-q,-qseq,-f等,--phred33,--phred64指定质量值体系,这些选项都不较容易。
Alignment,设置一些比对默认,默认都是关闭的,用处不大
Spliced Alignment,这个里面包含了很多内容,用来控制RNAseq比对时split reads比对的细节。
Scoring控制比对罚分,也就是对于错配以及gap如何打分,不同短序列比对软件差异主要在这里,所以,对于不是完美匹配的reads,有的软件认为是有效比对,有的则当成没有比对上。
Reporting,只有一个选项-k,处理多重比对,最多输出的数目,默认是5。也就是一条reads最多只能匹配到五个位置。
Paired-end,设置insertsize范围以及pairend reads方向,matepair文库或者链特异性文库需要重新设置。
Output,输出选项,可以控制输入结果内容以及各式。其中--rg-id,--rg设置sam文件中RG标签内容,如果后续使用在GATK软件,需要这些内容
Performance,性能选项,-p设置多线程可以显著提高比对速度。
Other,没法分类的都放到这里,这里面这些都没什么大的作用,

六、使用案例:

hisat2-buildp 4 genome.fa genome
hisat2 -x genome - read.1.fq.gz -2 read.2.fq.gz -S all.sam

七、注意事项:

1、hisat2需要重新建立索引,与bowtie2和tophat2的索引不同;

我要推荐
转发到