TopHat, Cufflinks, cummeRbund
RNA-seqデータの解析のための準備。流れとしては
NGSから得られたfastqファイルをTophatでマッピング
↓
Cufflinksに付属するcuffdiffで複数サンプルのマッピング結果の発現量の定量と発現量の差を解析
↓
RのcummeRbundを使って解析結果を可視化
という感じ。
まず研究室のクラスタマシンにRNA-seqのデータ解析に使うツールであるTopHatとCufflinksをインストールした。
Tophat
Cufflinks
それぞれのサイトの"Getting Started"のとおりにやれば普通にできる。ただしどちらもコンパイル済みのバイナリファイルを使用した。ソースからコンパイルしようとしたらエラーが出たので。
実際の使い方はこちらを参考にした。
RNA-seq Analysis With R/Bioconductor
これ以上ないぐらい親切に書かれている。
一つ気をつけたいのが、Tophatで使用するbowtieのインデックスファイルと、Cufflinksで使用するトランスクリプトームのリファレンスファイルとで、染色体名が同じである必要があるということ。これが違っているとcummeRbundによる解析の際にfpkm値が全部0になって悲しい思いをすることになる。
これを避ける最も簡単な方法は、トランスクリプトームのリファレンスファイルが含まれるIlluminaのiGenomesで配布されている圧縮ファイルの中のbowtieのインデックスファイルを使うこと。
http://cufflinks.cbcb.umd.edu/igenomes.html
少なくとも酵母ゲノムでは、bowtieのサイトで配布されているインデックスファイルの染色体名はchrI, chrII,...となっているのに対し、iGenomeで配布されているものはI, II,...となっているので、bowtieをインストールしたときに一緒にダウンロードしておいたインデックスファイルをTophat実行時に流用してしまうと後で痛い目を見ることになる。
cuffdiffによる発現量差解析まで終わったら、手元のPCでの解析に移る。
RにはRStudioという便利なIDEがあるのでそれを使う。
RStudio
cummeRbundのインストールおよびサンプルデータによる使い方の解説はこちらを参考にした。
RでNGSデータ(RNA-Seqによる発現データ)を可視化する