bamファイルからtophatの結果を取り出す
tophatによって生成されたbamファイルに対してsamtoolsのflagstatを使えばいろんな情報が出てくる。
$ samtools flagstat accepted_hit.bam
出力は以下のようになる。
4423480 + 0 in total (QC-passed reads + QC-failed reads) 0 + 0 duplicates 4423480 + 0 mapped (100.00%:nan%) 4423480 + 0 paired in sequencing 2295943 + 0 read1 2127537 + 0 read2 3592608 + 0 properly paired (81.22%:nan%) 3652162 + 0 with itself and mate mapped 771318 + 0 singletons (17.44%:nan%) 26412 + 0 with mate mapped to a different chr 1522 + 0 with mate mapped to a different chr (mapQ>=5)
どうやってbamファイルからこの情報を取り出しているのかは以下を参照。
http://davetang.org/wiki/tiki-index.php?page=SAMTools#Simple_stats_using_SAMTools_flagstat
田中一光とデザインの前後左右 @ 21_21 DESIGN SIGHT
東京ミッドタウンの21_21 DESIGN SIGHTでやってるデザイナーの田中一光の展示に行ってきた。
http://www.2121designsight.jp/program/ikko_tanaka/
田中一光が手がけた本の装丁とポスターの展示が主。企業ロゴも数多く作ってた。デジタルで拡大縮小自在なデータが作れなかった昔は、色々なサイズが必要なロゴなんかはネガフィルムを作っておいて、それを必要な大きさに引き伸ばして現像して使ってたらしい。なるほど...
10年前に亡くなった人なので、街に貼ってあった記憶があるポスターはない。けど第八回産経観世能のポスターは以前東京都庭園美術館でやってた「二十世紀のポスター タイポグラフィ」展で見たので知っていた。
Cyclo "id"
- アーティスト: cyclo.
- 出版社/メーカー: p*dis
- 発売日: 2011/05/26
- メディア: CD
- 購入: 1人 クリック: 12回
- この商品を含むブログ (3件) を見る
池田亮司の音楽は何かのライブパフォーマンスをUstreamで見て、「さすがにこれは音楽じゃねえだろ...」と思ってたんだけど、東京都現代美術館でやってた「アートと音楽展」に展示されてた"data.matrix"を見たら考えが変わった。どう変わったのかを言葉に出来ないんだけどとにかくいいなと思ったので、ミュージアムショップに売ってたこの作品を買った。
内容としてはノイズがリズムよく流れてくるとしか言いようがない。2枚目のディスクにはムービーも入っててちょっとおもしろい。ムービーの方も無数の点がリズムよく動くとしか言えない内容だけど。
一日中聴きたくなるようなものではないけど、とりあえず通しで聴けば心がタブラ・ラサな感じになるのでたまに聴く。
ggplot便利
ggplot、Rの標準関数より綺麗なグラフを描けるけど機能が多すぎてこれどうやればいいんじゃみたいなことが多々あった。まあググれば全部出てくるけど、せっかくなので自分が使った機能をまとめておく。
参考:
index.ggplot2 0.9.3
公式サイト。各関数の使用例も豊富で親切だと思う。英語。
ggplot2 の自分用メモ集を作ろう
日本語でかなり多くの情報がまとめられている。すごく便利
my.plot = ggplot(my.data, aes(value_1,value_2)) #my.dataっていうデータフレームのvalue_1とvalue_2を使ってグラフ描画するからよろしく、みたいな
ggplotはまずggplot()を使ってデータを格納する。その後グラフの形式とか軸の形式なんかを足していくという形でグラフを作っていく。
my.plot = my.plot + geom_point() #散布図形式のグラフにするよ、という宣言みたいな my.plot = my.plot + ylim(0,350) + xlim(0,600) #x,y軸の最大、最小値決定 my.plot = my.plot + xlab("X axis label") + ylab("Y axis label") #x,y軸ラベルの設定。これを書かなければそれぞれvalue_1、value_2と表示される。 my.plot = my.plot +geom_point(aes(colour=my.data$significant)) #点を色分けする。この場合はもとのデータフレームのsignificantという列で分類する。 my.plot = my.plot +geom_point(aes(size=2)) #点のサイズを変える。 my.plot = my.plot + labs(colour="significance") #凡例のラベルを変える。これを書かなければmy.data$significantと表示される。 my.plot = my.plot + theme(axis.title.x = element_text(size=15),axis.title.y = element_text(size=15)) #軸ラベルのフォントサイズ調節。 my.plot = my.plot + theme(axis.text.x = element_text(size=15),axis.text.y = element_text(size=15)) #軸目盛りのフォントサイズ調節。 my.plot = my.plot + theme(legend.title = element_text(size=15),legend.text = element_text(size=15)) #凡例タイトルとラベルのフォントサイズ調節。 my.plot = my.plot + scale_y_log10() + scale_x_log10() #軸を常用対数表示する。これをやると上のxlim、ylimの設定は消える。 my.plot #グラフを描画する。
点の色分けに関してはここらへんも参照。
リンク先は数値でしか分類してないけど、文字列でも分類できる。
点のカラーセットを変えたいときはこちらが参考になった。
それから、点が密集していて目立たせたい点が他の点に埋もれてしまっている場合は、もとのデータフレームの下の方に目立たせたい点のデータ行を移動させればよい。当たり前だけどデータフレームの下の方ほどあとに描画されるので。
今回の場合、significantという列(yesかnoのどちらかが入ってる)がyesになっている点が埋もれてほしくなかったので、
my.data.sorted = my.data[sort.list(my.data$significant),]
などとしたものを使用した。
TopHat, Cufflinks, cummeRbund
RNA-seqデータの解析のための準備。流れとしては
NGSから得られたfastqファイルをTophatでマッピング
↓
Cufflinksに付属するcuffdiffで複数サンプルのマッピング結果の発現量の定量と発現量の差を解析
↓
RのcummeRbundを使って解析結果を可視化
という感じ。
まず研究室のクラスタマシンにRNA-seqのデータ解析に使うツールであるTopHatとCufflinksをインストールした。
Tophat
Cufflinks
それぞれのサイトの"Getting Started"のとおりにやれば普通にできる。ただしどちらもコンパイル済みのバイナリファイルを使用した。ソースからコンパイルしようとしたらエラーが出たので。
実際の使い方はこちらを参考にした。
RNA-seq Analysis With R/Bioconductor
これ以上ないぐらい親切に書かれている。
一つ気をつけたいのが、Tophatで使用するbowtieのインデックスファイルと、Cufflinksで使用するトランスクリプトームのリファレンスファイルとで、染色体名が同じである必要があるということ。これが違っているとcummeRbundによる解析の際にfpkm値が全部0になって悲しい思いをすることになる。
これを避ける最も簡単な方法は、トランスクリプトームのリファレンスファイルが含まれるIlluminaのiGenomesで配布されている圧縮ファイルの中のbowtieのインデックスファイルを使うこと。
http://cufflinks.cbcb.umd.edu/igenomes.html
少なくとも酵母ゲノムでは、bowtieのサイトで配布されているインデックスファイルの染色体名はchrI, chrII,...となっているのに対し、iGenomeで配布されているものはI, II,...となっているので、bowtieをインストールしたときに一緒にダウンロードしておいたインデックスファイルをTophat実行時に流用してしまうと後で痛い目を見ることになる。
cuffdiffによる発現量差解析まで終わったら、手元のPCでの解析に移る。
RにはRStudioという便利なIDEがあるのでそれを使う。
RStudio
cummeRbundのインストールおよびサンプルデータによる使い方の解説はこちらを参考にした。
RでNGSデータ(RNA-Seqによる発現データ)を可視化する
有線接続しているWin7機を無線LANアクセスポイントにする
Windowsでもできたんだね。
まずはここを参考に
http://www.atmarkit.co.jp/fwin2k/win7/12wlan/12wlan_02.html
管理者権限で起動したコマンドプロンプトで
netsh wlan show hostednetwork
して状況を確認。「ホストされたネットワークの状態」は「未開始」になってた。
次に
netsh wlan set hostednetwork mode=allow ssid=<アクセス・ポイント名> key=<パスフレーズ> keyusage=persistent
netsh wlan start hostednetwork
で開始。
基本的にこれでいいはずだけど、Nexus7で繋ごうとしたらできなかったので調べたら以下のページがヒット。
http://www.akakagemaru.info/port/internet-softap.html
要するにIPv6プロトコルを切れとのこと。
コンパネの「ネットワークと共有センター」のネットワーク一覧のさっき設定したネットワークと有線ネットワークそれぞれについて、
「ローカルエリア接続」とか「ワイヤレス ネットワーク接続」とかそういう文字列クリック
↓
プロパティ
↓
「インターネット プロトコル バージョン6 (TCP/IPv6)」のチェックを外す
をすればOK.
ダークナイト・ライジング(原題:The Dark Knight Rises)見た(ネタバレあり)
面白かったけど長すぎでしょ。いや無駄なシーンそんななかったと思うから必要なんだと思うけどケツが痛くなった。
以下箇条書きで感想
・ラストは実は自動操縦にセットしてあってバットマンは脱出済み→「クリーン・スレート」でブルースとセリーナの個人情報を抹消して二人で海外逃亡、って流れっぽいですね。
・自動操縦プログラムは半年前にアップデートしてあった
・(俺は気づかなかったけど)ラストでブルースと一緒にいる女性は紛失した真珠のネックレスをつけてる
・ジョン・ブレイクの本名ロビンはうおおおお!ってなった。
・アン・ハサウェイ美人
・そういや劇中で一回もキャットウーマンって言われてない、というか一般人に存在が全く知られてないな
・タリア役の人の顔の微妙さ。レイチェルよりはマシだったけど・・・
・スケアクロウさんの使い方マジ笑った。皆勤賞おめでとうございます。
・せっかくだから今回もバットマンにボコボコにされればよかったのに。
・ザ・バット、下から見たら完全にゴキブリだし、真下からの攻撃にめっちゃ弱そう
・ブルースが監獄から脱出してからゴッサムに帰ってくるまで省略し過ぎでなんのこっちゃ状態だった。なんの説明もなしに封鎖されたゴッサム・シティに入れてるのはどうなのよ・・・
・ベインの退場のさせ方ひどいと思う。あれでいいのかよ
・タリアはほぼバットマンが殺したようなもんだよね。ラーズもそうだし不憫な影の同盟一家・・・
・アメリカ人にとって原子爆弾ってただの超強力な兵器でしかないんだな。沖合で爆発させたから安心だねってものでもないでしょ・・・