講義資料 - アグリバイオインフォマティクス教育研究ユニット - 東京大学

講義室後ろにあるUSBメモリ
中のhogeフォルダをデスクトッ
プにコピーしておいてください。
機能ゲノム学 第1回
東京大学大学院農学生命科学研究科
アグリバイオインフォマティクス教育研究ユニット
門田幸二
[email protected]
May 14, 2014
前回(4/30)のhogeフォルダが
デスクトップに残っているかも
しれないのでご注意ください。
1
NGS速習コース開催([email protected])
申込み受付は6/2の11:00(おそらくそれで枠がいっぱ
いになるので)2週間全て
参加可能な本当にやる気
のあるヒトのみ募集。
全国から募集(アグリバイ
オの講義とは無関係)
May 14, 2014
2
講義予定

第1回(2014年5月14日)



第2回(2014年5月21日)



クラスタリング(データ変換や距離の定義など)、実験デザイン、分布
教科書の3.2節周辺
第3回(2014年5月28日)



原理、各種データベース、生データ取得、遺伝子発現行列作成(データ正規化)
教科書の1.2節、2.2節周辺
発現変動解析(多重比較問題)、各種プロット(M-A plotや平均-分散プロット)
教科書の3.2節と4.2節周辺
第4回(2014年6月4日)

機能解析(Gene Ontology解析やパスウェイ解析)、分類など
授業の目標・概要
細胞中で発現している全転写物(トランスクリプトーム)の解析技術
は、マイクロアレイから次世代シーケンサ(RNA-seq)に移行しつつ
あります。RNA-seqデータ解析の多くは、マイクロアレイの知識を
前提としています。また、ニュートリゲノミクス(食品系)分野では、
マイクロアレイは現在でも主流派です。マイクロアレイデータを主な
例として、各種トランスクリプトーム解析手法について解説します。
May 14, 2014
教科書
3
Contents(第1回)

イントロダクション





発現DBからのプローブレベルデータ取得



マイクロアレイの原理や特徴(長所・短所)
データ解析例とバイオインフォマティクス要素技術
発現データベース(DB)
Affymetrix GeneChipの用語:CELファイル、プローブセット、summarization…
GEOウェブサイト経由
R経由(教科書の§2.2.1)
前処理法の適用(プローブレベルデータ → 発現行列データ)


MAS法、RMA法、RMX法(RobLoxBioC)、IRON法(教科書の§2.2.2~2.2.4)
データの正規化(グローバル正規化、quantile正規化)
May 14, 2014
4
トランスクリプトームとは


ある特定の状態の組織や細胞中に存在する全RNA(転写物、
transcripts)の総体
様々なトランスクリプトーム解析技術
 マイクロアレイ

cDNAマイクロアレイ、Affymetrix GeneChip、タイリングアレイなど
 配列決定に基づく方法

EST、SAGE、CAGE、次世代シーケンサ(RNA-seq)など
 (電気泳動に基づく方法)

Differential Display、AFLP、HiCEPなど
調べたい組織でどの遺伝子がどの程度発現しているのかを一度に観察
May 14, 2014
5
トランスクリプトームとは

ある状態のあるサンプル(例:目)のあるゲノムの領域
遺伝子1
遺伝子2
遺伝子3
ヒト
遺伝子4
遺伝子全体(ゲノム)
・どの染色体上のどの領域にどの遺伝子が
あるかは調べる個体(例:ヒト)が同じなら不
変(目だろうが心臓だろうが…)
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
転写物全体(トランスクリプトーム)
May 14, 2014
・遺伝子1は沢山転写されている(発現している)
・遺伝子4はごくわずかしか転写されてない
・…
6
トランスクリプトームとは
光刺激

ある状態のあるサンプル(例:目)のあるゲノムの領域
遺伝子1
遺伝子2
遺伝子3
ヒト
遺伝子4
遺伝子全体(ゲノム)
・どの染色体上のどの領域にどの遺伝子が
あるかは調べる個体(例:ヒト)が同じなら不
変(目だろうが心臓だろうが…)
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
転写物全体(トランスクリプトーム)
・遺伝子2は光刺激に応答して発現亢進
・遺伝子4も光刺激に応答して発現亢進
May 14, 2014
7
トランスクリプトーム情報を得る手段

光刺激前(T1)の目のトランスクリプトーム
遺伝子1

遺伝子2
遺伝子3
遺伝子4
これがいわゆる
「遺伝子発現行列」
光刺激後(T2)の目のトランスクリプトーム
遺伝子1
遺伝子2
遺伝子3
遺伝子4
・マイクロアレイ
・RNA-seq
May 14, 2014
8
トランスクリプトーム取得(マイクロアレイ)

よく研究されている生き物は多数の遺伝子
(の配列情報)がわかっている
遺伝子1
遺伝子2
遺伝子3
Image
courtesy of
Affymetrix
わかっている遺伝子(の配列
の相補鎖)を搭載した”チップ”
・メーカーによって搭載されている遺伝子の
種類が異なる
→搭載されていない遺伝子(未知遺伝子含
む、例:遺伝子4)の発現情報は測定不可…
May 14, 2014
光刺激前(T1)の目の
トランスクリプトーム
遺伝子4
蛍光標識
ハイブリダイゼーション
(二本鎖形成)
9
マイクロアレイデータ → 遺伝子発現行列

光刺激前(T1)の目のトランスクリプトーム
光刺激後(T2)の目の
トランスクリプトーム
蛍光標識
ハイブリダイゼーション
(二本鎖形成)
専用の検出器で各
遺伝子に対応する
領域の蛍光シグナ
ル強度を測定
ハイブリダイゼーション
と
シグナル検出
正規化
May 14, 2014
10
ステレオタイプなイメージ

マイクロアレイの長所
 取り扱いやすいデータ量(~100Mb程度)
 長年の実績:解析手法がほぼ確立。(Windows
Rのみで解析可能)
 検査用チップが利用可能(MammaPrintなど)

マイクロアレイの短所
 解析可能範囲が搭載転写物に限定
 プローブが3’末端に偏っている(3’発現解析用アレイ)
 ダイナミックレンジが狭い
5’…GTCCATTATTTTGTATTCTTTTCCAAGCTCCTTATTGG…3’
GTATTCTTTTCCAAGCTCCTTATTG
May 14, 2014
 プローブ
11
http://www.excite.co.jp/News/entertainment_g/20120127/Postseven_82409.html
参考
マイクロアレイの実用例

MammaPrint:乳癌予後予測検査サービス(2008年)




乳癌手術を受けた患者の転移・再発の可能性に関する情報提供
70遺伝子の活性を測定
不必要な補助化学療法などを避けることが可能(ローリスク群)
安全に登山をするための新たなバイオマーカー、heme oxigenase-1
(HO-1)の発見



背景:エベレスト頂上は酸素濃度が薄く、通常は10秒程度で意識を失うらしい。三
浦雄一郎氏(登山家)がなぜ酸素ボンベなしでエベレスト頂上で数十秒もコメント
できるのか?
実験:低酸素室滞在前後の白血球の遺伝子発現変化をマイクロアレイで調査した
結果、エベレスト登頂経験者はHO-1が低酸素刺激で特異的に変化(発現上昇)
結論:HO-1は、生体が低酸素に曝されたときに血管を拡張したり、低酸素による
酸化ストレス傷害に対して抗酸化作用を示したりする。エベレスト登頂経験者は
HO-1濃度を高めて高度への順化を行うために、低酸素時にも血管が拡張しやす
く末梢循環が保たれているのだろう。
ただし、HO-1が搭載されていないマイクロアレイでは測定不可能!
May 14, 2014
12
http://www.jmac.or.jp/ja/home-ja/news/133-news20131017.html 参考
マイクロアレイの実用例
主に産業界の活動
HO-1が搭載されていないマイクロアレイでは測定不可能!
May 14, 2014
13
ステレオタイプなイメージ

RNA-seqの短所
 取り扱いづらいデータ量(数百Gb?!)
 Windows
userは自力解析が困難(ほとんどがLinux用)
 ダイナミックレンジが広いがために?!変な結果に遭遇。
 ゼロカウントデータの取り扱い

RNA-seqの長所
 (多少のoff-targetは含むが)全発現転写物の解析が可能
 転写物レベル
 ダイナミックレンジが広い
 解像度:遺伝子レベル
May 14, 2014
14
マイクロアレイ

機能(遺伝子セット)解析が主目的の場合にはまだ主役
 Gene


Ontology解析やパスウェイ解析
実績のある市販アレイに搭載されている遺伝子のみでも「この栄養素はこの
パスウェイに効いている」的な新規知見が得られればよい、という思想
「個別の遺伝子の変動解析」というよりは「遺伝子セットの変動解析」
 同一アレイを用いている限り全体的な情報量が豊富


公共データベース(GEO, ArrayExpressなど)
3’発現解析用アレイが未だに使われる所以
 異なるアレイであっても同一生物種であればマージ可能

May 14, 2014
virtualArray (Heider and Alt, BMC Bioinformatics, 14:75, 2013)など
15
意義

全体的にはマイクロアレイ → RNA-seq
転写物全体の配列情報を取得可能(RefSeqのようなmultifasta形式のファイルをゲットできるイメージ)
 選択的スプライシングの全体像の理解
 発現変動exonや転写物の同定

発行日: 2013年9月30日
・データ解析の基本的な考え方はマイクロアレイと同じ
・食品系の研究(Neutrigenomics)はアレイが未だ主流
May 14, 2014
16
データ解析もいろいろ
発現変動遺伝子同定
クラスタリング
遺伝子発現行列
機能解析
・Gene Ontology(GO)
・パスウェイ解析
分類(診断)
遺伝子ネットワーク推定
May 14, 2014
17
バイオインフォマティクス要素技術

相関係数やエントロピーなどの応用例を紹介
二群間比較
分類(診断)
組織特異的遺伝子
クラスタリング
Sequence logo
同一ピーク同定
基本スキルのみでいろいろなことができます
May 14, 2014
18
参考
クラスタリングの考えを同一ピーク認識に応用
②ピーク間
距離を計算
①分子量
でソート
May 14, 2014
②’クラスター間距離が
最短のものをマージ
2
9
33
3
12
4
1
52
4
19
Contents(第1回)

イントロダクション





発現DBからのプローブレベルデータ取得



マイクロアレイの原理や特徴(長所・短所)
データ解析例とバイオインフォマティクス要素技術
発現データベース(DB)
Affymetrix GeneChipの用語:CELファイル、プローブセット、summarization…
GEOウェブサイト経由
R経由(教科書の§2.2.1)
前処理法の適用(プローブレベルデータ → 発現行列データ)


MAS法、RMA法、RMX法(RobLoxBioC)、IRON法(教科書の§2.2.2~2.2.4)
データの正規化(グローバル正規化、quantile正規化)
May 14, 2014
20
発現データベース(DB)
(Rで)マイクロアレイデータ解析です
May 14, 2014
21
公共DBを眺めることを
通じて、3’発現アレイと
いわれる所以を知ろう
May 14, 2014
22
発現DB
多くのジャーナルが生データの公
共DB(GEOまたはArrayExpress)
への登録を義務付けている。
May 14, 2014
23
どれだけのデータが登録され
ているかを眺めるのはここ
May 14, 2014
24
どれだけのデータが登録され
ているかを眺めるのはここ
2つのDB間で用語の統一はなされていない…
May 14, 2014
25
発現DB
DataSets, Series, Platforms,
Samplesの説明はここ
May 14, 2014
26
遺伝子発現DB
Platformsは、大まかには
アレイの種類数。(今は
シーケンサーも登録されて
いる。例:GPL11154)
May 14, 2014
27
Platformの例

Affymetrix GeneChip

Affymetrix Human Genome U133 Plus 2.0 Array: GPL570


Affymetrix Human Genome U133A Array: GPL96


2004年6月リリース、31,099 probesets、10,000枚以上
同じメーカー、同じ生物
種でも様々なバージョ
ンのアレイが存在する
Illumina BeadChip

Illumina HumanHT-12 V4.0 expression beadchip: GPL10558


2010年6月リリース、47,323 probes、18,000枚以上
Illumina HumanHT-12 V3.0 expression beadchip: GPL6947


2004年5月リリース、45,101 probesets、38,000枚以上
Affymetrix Rat Genome 230 2.0 Array: GPL1355


2002年3月リリース、22,283 probesets、34,000枚以上
Affymetrix Mouse Genome 430 2.0 Array: GPL1261


2003年11月リリース、54,675 probesets、94,000枚以上の利用実績
2008年6月リリース、49,576 probes、18,000枚以上
Agilent Microarray

Agilent-014850 Whole Human Genome Microarray 4x44K G4112F: GPL6480

May 14, 2014
2008年2月リリース、41,108 probes、11,000枚以上
28
遺伝子発現DB
Seriesは、一つの研究プロ
ジェクトなどで用いた複数サン
プルからなるグループをまと
めたもの。大まかには論文ご
とのIDという理解でよい。
May 14, 2014
29
Seriesの例

Affymetrix GeneChip

Ge et al., Genomics, 86: 127-141, 2005


Nakai et al., Biosci Biotechnol Biochem., 72: 139-148, 2008


GSE30533、ラット10サンプル、GPL1355を利用
Illumina BeadChip

Sharma et al., Cancer Cell, 23: 35-47, 2013


GSE7623、ラット24サンプル、GPL1355を利用
Kamei et al., PLoS One, 8: e65732, 2013


GSE2361、ヒト36サンプル、GPL96を利用
・NGSデータも登録されている
・1論文1 GSE IDとは限らない
・1 GSE ID 1 GPL IDとは限らない
GSE28680、ヒト24サンプル、GPL10558を利用
NGSデータも…

Neyret-Kahn et al., Genome Res., 23: 1563-1579, 2013

GSE42213、ヒト26サンプル、GPL10999とGPL11154を利用



GSE42211、ヒト20サンプル、GPL10999とGPL11154を利用(ChIP-seq)
GSE42212、ヒト6サンプル、GPL10999を利用(RNA-seq)
Huang et al., Development, 139: 2161-2169, 2012

May 14, 2014
GSE36469、シロイヌナズナ8サンプル、GPL13222を利用
30
遺伝子発現DB
Samplesは、登録さ
れているサンプル数
May 14, 2014
31
Platformの例

Affymetrix GeneChip

Affymetrix Human Genome U133 Plus 2.0 Array: GPL570


2004年6月リリース、31,099 probesets、10,000枚以上
Illumina BeadChip

Illumina HumanHT-12 V4.0 expression beadchip: GPL10558


2010年6月リリース、47,323 probes、18,000枚以上
Illumina HumanHT-12 V3.0 expression beadchip: GPL6947


2004年5月リリース、45,101 probesets、38,000枚以上
Affymetrix Rat Genome 230 2.0 Array: GPL1355


2002年3月リリース、22,283 probesets、34,000枚以上
Affymetrix Mouse Genome 430 2.0 Array: GPL1261


2003年11月リリース、54,675 probesets、94,000枚以上の利用実績
Affymetrix Human Genome U133A Array: GPL96


どうやって調べたのか?
2008年6月リリース、49,576 probes、18,000枚以上
Agilent Microarray

Agilent-014850 Whole Human Genome Microarray 4x44K G4112F: GPL6480

May 14, 2014
2008年2月リリース、41,108 probes、11,000枚以上
32
遺伝子発現DB
Samplesのところを2回ク
リック(クリックごとに昇順
と降順が繰り返される)
①
②
③
①Illumina社のNGS機器であるHiSeq 2000に対して
一つのGPL IDが付与されているわけではなく、「NGS
機器と適用した生物種」で一つのGPL IDが付与され
ているようだ。例えば、HiSeq 2000を用いてマウス(M.
musculus)サンプルに適用したものはGPL18672が
付与されている。②データはまだ存在しない。③理由
はおそらくごく最近そのような方針にしたためであろう
May 14, 2014
33
遺伝子発現DB
Samplesのところを2回ク
リック(クリックごとに昇順
と降順が繰り返される)
(NGS機器も含まれるため、もはや正
確な言い回しではないが...)赤枠部分
がアレイごとに用いられたサンプル数。
トップ3はいずれもAffymetrix 3’発現
アレイと呼ばれるもの。
May 14, 2014
34
様々なDNAマイクロアレイ(DNAチップ)
1.
スポット型(Stanford大学)


2.

搭載DNA:oligonucleotide(60mer)
解析法: 2色法または1色法
合成オリゴ型(Affymetrix社)


May 14, 2014
Stanford型
プリント型(Agilent社)

3.
搭載DNA:cDNA(またはoligonucleotide)
解析法:2色法(比較したい2サンプルを同時に分析)
搭載DNA:oligonucleotide(25mer)
解析法: 1色法(調べたい1サンプルを分析)
Affymetrix型
Image courtesy
of Affymetrix
35
得られる遺伝子発現データのイメージ

二色法の場合

一色法の場合
目的試料中の遺伝子2
の発現レベルは対照
試料に比べて4倍高い
目的試料中で遺伝子3
は沢山発現している
May 14, 2014
36
Affymetrix型マイクロアレイ(GeneChip®)

目的試料の発現情報を直接「シグナル強度」として得る
May 14, 2014
37
Affymetrix GeneChipデータ解析

25-mer程度では
 本当に目的遺伝子の発現を調べられているのか?!
ヒト→ 3Gbp(=3×10^9 bp) < 4^25 (=1×10^15 bp)
理論上は25merで充分…
 発現量を正確に定量できるのか?
5’
3’
25-mer
May 14, 2014
38
Affymetrix GeneChipデータ解析

遺伝子iの発現量Siを正確に知るために

PM/MMプローブ戦略(ユニークな配列選択と最適Tm )
5’
3’
5’…CAGAATCATTAGACTATCCGATAAGGAGTACAATCTGA…3’
CATTAGACTATCCGATAAGGAGTAC Perfect match (PMi,j)
プローブペア
CATTAGACTATCGGATAAGGAGTAC Mismatch (MMi,j)
25 mer
特異的なハイブリダイゼーションと非特異的なハイブリダイゼーションを区別す
べく、目的遺伝子配列に対してPMと一塩基MMがペアになっているのが特徴的
May 14, 2014
39
Affymetrix GeneChipデータ解析

遺伝子iの発現量Siをni(ni=11~20)種類のプローブペア
のシグナル強度をもとに計算
5’
3’
PM i ,1 , MM i ,1
プローブセット
PM i , 2 , MM i , 2
PM i ,3 , MM i ,3
PM i , 4 , MM i , 4
5’…CAGAATCATTAGACTATCCGATAAGGAGTACAATCTGA…3’
CATTAGACTATCCGATAAGGAGTAC Perfect match (PMi,j)
プローブペア
CATTAGACTATCGGATAAGGAGTAC Mismatch (MMi,j)
25 mer
PM i ,5 , MM i ,5
PM i , 6 , MM i , 6
PM i , 7 , MM i , 7
遺伝子iの発現量Si (“summary score” or “expression index”)
PM i ,8 , MM i ,8
PM i ,9 , MM i ,9
発現量Siを算出するための様々な前処理法が存在
PM i ,10 , MM i ,10
PM i ,11, MM i ,11
May 14, 2014
3’発現アレイの基本的なデザイン
40
- CELファイル -
チップ上に搭載されている全遺伝子のプ
ローブのシグナル強度情報を含むファイル
全体的なイメージ
遺伝子発現行列
PM i ,1 , MM i ,1
プローブセット
PM i , 2 , MM i , 2
PM i ,3 , MM i ,3
前処理法
PM i , 4 , MM i , 4
PM i ,5 , MM i ,5
x1, 1 x1, 2 x1, 3 x1, 4
x2, 1 x2, 2 x2, 3 x2, 4
PM i , 6 , MM i , 6
PM i , 7 , MM i , 7
xi , 1 xi , 2
PM i ,8 , MM i ,8
xi , 3 xi , 4
PM i ,9 , MM i ,9
x n , 1 xn , 2 xn , 3 xn , 4
PM i ,10 , MM i ,10
PM i ,11, MM i ,11
CELファイル
May 14, 2014
適用した前処理法の数だ
け遺伝子発現行列が存在
41
教科書p5
3’発現アレイの意味を確認
Arabidopsis ATH1 Genome Arrayに搭載され
ているプローブセット“247100_at”の転写物配
列(NM_126050)上のプローブ位置を確認
May 14, 2014
42
教科書p5
ダウンロード後のファイル(GPL198-14794.txt)
はhogeフォルダにあります
May 14, 2014
43
教科書p5
3’発現アレイの意味を確認
Arabidopsis ATH1 Genome Arrayに搭載され
ているプローブセット“247100_at”の転写物配
列(NM_126050)上のプローブ位置を確認
May 14, 2014
44
教科書p5
3’発現アレイの意味を確認
Arabidopsis ATH1 Genome Arrayに搭載され
ているプローブセット“247100_at”の転写物配
列(NM_126050)上のプローブ位置を確認
May 14, 2014
45
教科書p5
Arabidopsis ATH1 Genome Arrayに搭載され
ているプローブセット“247100_at”の転写物配
列(NM_126050)上のプローブ位置を確認
May 14, 2014
46
教科書p5
5’側
3’発現アレイの意味がよく分かります
3’側
May 14, 2014
47
教科書p6-7
マイクロアレイ(デバイスの進歩)

3’発現アレイ  exon array  transcriptome array




Affymetrix Human Transcriptome Array (HTA 2.0)
Furney et al., Cancer Discov., 3: 1122-1129, 2013.
GPL17585(exon level)
GPL17586(gene level)
転写物数は有限であるため、
RNA-seqによる網羅的な同定後
はトランスクリプトームアレイに移
行するほうがお手軽かもしれない
May 14, 2014
48
教科書p5
プローブ配列をテキストファイ
ルで取り扱うこともできます。こ
こで示されているのはPerfect
Match (PM)プローブ配列のみ
May 14, 2014
49
Affymetrix GeneChipデータ解析

遺伝子iの発現量Siをni(ni=11~20)種類のプローブペアのシグナ
ル強度をもとに計算
5’
PM i ,1 , MM i ,1
プローブセット
PM i , 2 , MM i , 2
PM i ,3 , MM i ,3
3’
5’…CAGAATTTGCTCAAAGCCTGTCGAATTCACAAATCTGA…3’
TTGCTCAAAGCCTGTCGAATTCACA Perfect match (PMi,j)
プローブペア
TTGCTCAAAGCCAGTCGAATTCACA Mismatch (MMi,j)
PM i , 4 , MM i , 4
25 mer
PM i ,5 , MM i ,5
PM i , 6 , MM i , 6
PM i , 7 , MM i , 7
PM i ,8 , MM i ,8
PM i ,9 , MM i ,9
PM i ,10 , MM i ,10
PM i ,11, MM i ,11
May 14, 2014
Affymetrix GeneChipを用いた
マイクロアレイ実験を行うと、
プローブごとのシグナル強度
が収められたプローブレベル
データと呼ばれるものが事実
上のデータ解析の出発点とな
る。このプローブレベルデータ
を収めたものがCELファイル
Perfect Match (PM)プローブ配列
50
教科書p7-8
ステレオタイプなイメージ

マイクロアレイの長所
 取り扱いやすいデータ量(~100Mb程度)
 長年の実績:解析手法がほぼ確立。(Windows
Rのみで解析可能)
 検査用チップが利用可能(MammaPrintなど)

マイクロアレイの短所
 解析可能範囲が搭載転写物に限定
 プローブが3’末端に偏っている(3’発現解析用アレイ)
 ダイナミックレンジが狭い
5’…GTCCATTATTTTGTATTCTTTTCCAAGCTCCTTATTGG…3’
GTATTCTTTTCCAAGCTCCTTATTG
May 14, 2014
 プローブ
51
教科書p7-8 参考
ダイナミックレンジ周辺の雑感


既知濃度のspike-inデータとシグナル強度との直線性
Hekstra et al., Nucleic Acids Res., 31: 1962-1968, 2003
 マイクロアレイはシグナル強度が高発現側で飽和し、低発現側で
は実際の濃度よりも高めに見積もられる(Fig. 4B)
プローブレベルのハイブリダイゼーショ
ンはLangmuir-adsorption modelに従う
May 14, 2014
52
教科書p7-8 参考
ダイナミックレンジ周辺の雑感

Langmuir-adsorption modelによる直線性向上の取り組み
 非特異的結合(non-specific
binding; NSB)の理解
 総説(Harrison et al., Nucleic Acids Res., 41: 2779-2796, 2013)



Gが4つ以上連続するプローブは外れ値になりやすい(Upton et al., 2008)
4G signatureを持つプローブ同士がGカルテットを形成(Langdon et al., 2009)
…
 方法



Hook法 (Binder et al., Algorithms Mol. Biol., 3: 11, 2008)
Inverse Langmuir法(Mulders et al., BMC Bioinformatics, 10: 64, 2009)
MSNS model (Furusawa et al., Bioinformatics, 25: 36-41, 2009)
ダイナミックレンジ向上を目指した方法は存在する
May 14, 2014
53
教科書p7-8 参考
ダイナミックレンジ周辺の雑感


既知濃度のspike-inデータとシグナル強度との直線性
“昔の方法”で数値化したアレイデータとの比較が多い
 Nookaew

 Xu

et al., Nucleic Acids Res., 40: 10084-10097, 2012
PLIER(2004年ごろ)とcubic spline法(Workman et al., 2002)
et al., BMC Bioinformatics, 14 Suppl 9: S1, 2013
RMA (Irizarry et al., Biostatistics, 4: 249-264, 2003)
 Raghavachari

RMA (Irizarry et al., Biostatistics, 4: 249-264, 2003)
 Mortazavi

et al., BMC Med. Genomics, 5: 28, 2012
et al., Nat. Methods, 5: 621-628, 2008
MAS5 (Hubbell et al., Bioinformatics, 18: 1585-1592, 2002)
比較的最近の方法との評価をすべきではある
May 14, 2014
54
Contents(第1回)

イントロダクション





発現DBからのプローブレベルデータ取得



マイクロアレイの原理や特徴(長所・短所)
データ解析例とバイオインフォマティクス要素技術
発現データベース(DB)
Affymetrix GeneChipの用語:CELファイル、プローブセット、summarization…
GEOウェブサイト経由
R経由(教科書の§2.2.1)
前処理法の適用(プローブレベルデータ → 発現行列データ)


MAS法、RMA法、RMX法(RobLoxBioC)、IRON法(教科書の§2.2.2~2.2.4)
データの正規化(グローバル正規化、quantile正規化)
May 14, 2014
55
発現DBからの生データ取得

Affymetrix GeneChip

Ge et al., Genomics, 86: 127-141, 2005


Nakai et al., Biosci Biotechnol Biochem., 72: 139-148, 2008


GSE30533、ラット10サンプル、GPL1355を利用
Illumina BeadChip

GSE7623のプローブレベルデータ取得
(つまりCELファイル取得)を行います。
Sharma et al., Cancer Cell, 23: 35-47, 2013


GSE7623、ラット24サンプル、GPL1355を利用
Kamei et al., PLoS One, 8: e65732, 2013


GSE2361、ヒト36サンプル、GPL96を利用
GSE28680、ヒト24サンプル、GPL10558を利用
NGSデータも…

Neyret-Kahn et al., Genome Res., 23: 1563-1579, 2013

GSE42213、ヒト26サンプル、GPL10999とGPL11154を利用



GSE42211、ヒト20サンプル、GPL10999とGPL11154を利用(ChIP-seq)
GSE42212、ヒト6サンプル、GPL10999を利用(RNA-seq)
Huang et al., Development, 139: 2161-2169, 2012

May 14, 2014
GSE36469、シロイヌナズナ8サンプル、GPL13222を利用
56
May 14, 2014
57
ラットゲノムからプローブを設計した、ラット
用のチップを用いて発現データを得ている
全部で24サンプルのデータ
からなることが分かる(24
枚のアレイを使っている)
生データのダウンロードは
ここ。hogeフォルダ中にあり
May 14, 2014
58
デスクトップ上でtarファイル
を解凍しても、さらにgzip圧
縮されたCELファイルの解
凍を行う必要がある
May 14, 2014
59
前処理法適用前の状態
- CELファイル -
チップ上に搭載されている全遺伝子のプ
ローブのシグナル強度情報を含むファイル
遺伝子発現行列
PM i ,1 , MM i ,1
プローブセット
PM i , 2 , MM i , 2
PM i ,3 , MM i ,3
前処理法
PM
i , 5 , MM i , 5
おそらくCELという拡張子を認
x1, 1 x1, 2 x1, 3 x1, 4
x2, 1 x2, 2 x2, 3 x2, 4
識しているだけなので、*.CEL
PM , MM
以外のファイルがあってもよい
xi , 1 xi , 2
PM i , 4 , MM i , 4
PM i , 6 , MM i , 6
i ,7
i ,7
PM i ,8 , MM i ,8
xi , 3 xi , 4
PM i ,9 , MM i ,9
PM i ,10 , MM i ,10
x n , 1 xn , 2 xn , 3 xn , 4
PM i ,11, MM i ,11
CELファイル
May 14, 2014
60
教科書p36-
R経由で生データ取得(教科書の§2.2.1)
経験上、R経由で
ArrayExpressか
らのダウンロード
のほうが簡単
May 14, 2014
61
2つのDB間で用語の統一はなされていないものの、
ArrayExpressはGSE7623などのGEO IDでの検索も可能
May 14, 2014
62
教科書p36-
R経由で生データ取得(教科書の§2.2.1)
教科書中のR
コードはこちら
GSE7623のプローブレベル
データ取得(つまりCELファイ
ル取得)をR経由で行います。
May 14, 2014
63
教科書p36-
①
②
May 14, 2014
①デスクトップにhogeフォル
ダ、およびその中に
GSE7623フォルダを作成す
る。②Rを起動し、作業ディレ
クトリをそこに変更しておく
64
教科書p36-
コピペ実行後
4つのファイルが
作成されるので、
zipファイルを解凍
CELファイルのみ
からなるので便利
May 14, 2014
65
Contents(第1回)

イントロダクション





発現DBからのプローブレベルデータ取得



マイクロアレイの原理や特徴(長所・短所)
データ解析例とバイオインフォマティクス要素技術
発現データベース(DB)
Affymetrix GeneChipの用語:CELファイル、プローブセット、summarization…
GEOウェブサイト経由
R経由(教科書の§2.2.1)
前処理法の適用(プローブレベルデータ → 発現行列データ)


MAS法、RMA法、RMX法(RobLoxBioC)、IRON法(教科書の§2.2.2~2.2.4)
データの正規化(グローバル正規化、quantile正規化)
May 14, 2014
66
様々な前処理法

















教科書§2.2.2~2.2.4 (p38-70)
MBEI (Li and Wong, PNAS, 98: 31-36, 2001)
VSN (Huber et al., Bioinformatics, 18 Suppl 1: S96-104, 2002)
MAS5 (Hubbell et al., Bioinformatics, 18: 1585-92, 2002)
RMA (Irizarry et al., Biostatistics, 4: 249-64, 2003)
GCRMA (Wu et al., Tech. Rep., John Hopkins Univ., 2003)
PDNN (Zhang et al., Nat. Biotechnol., 21: 818-21, 2003)
PLIER (Affymetrix, 2004)
SuperNorm (Konishi, T., BMC Bioinformatics, 5: 5, 2004)
multi-mgMOS (Liu et al., Bioinformatics, 21: 3637-3644, 2005)
GLA (Zhou and Rocke, Bioinformatics, 21: 3983-3989, 2005)
FARMS (Hochreiter et al., Bioinformatics, 22: 943-949, 2006)
DFW (Chen et al., Bioinformatics, 23: 321-327, 2007)
Hook (Binder et al., AMB, 3: 11, 2008)
GRSN (Pelz et al., BMC Bioinformatics, 9: 520, 2008)
RMX (Kohl et al., BMC Bioinformatics, 11: 583, 2010)
KDL and KDQ (Hsieh et al., BMC Bioinformatics, 12: 222, 2011)
IRON (Welsh et al., BMC Bioinformatics, 14: 153, 2013)
May 14, 2014
生データ(PM i, j , MM i, )j
in .CEL files
バックグラウンド補
正(within-array)
正規化(crossarray)
PM値の補正
Summarization
発現量Si
67
Kadota et al., AMB, 4:7, 2009
様々な前処理法

MAS5 (Hubbell et al., Bioinformatics, 18: 1585-92, 2002)



特徴:アレイごとに独立して前処理を実行(per-array basis)
正規化:グローバル正規化
RMA (Irizarry et al., Biostatistics, 4: 249-64, 2003)


特徴:読み込んだ複数サンプル(複数アレイ)の情報を用いて前処理
を実行(multi-array basis)
正規化:quantile正規化(プローブレベルデータに対して実行)
よく使われているのはMAS5とRMAです
May 14, 2014
68
要素技術(グローバル正規化)

「各サンプルから測定されたmRNAの全体量は一定」と仮定
 マイクロアレイ上の遺伝子数が少ない場合は非現実的だが、数千~
数万種類の遺伝子が搭載されているので妥当(だろう)
Image
courtesy
of
Affymetri
x
Image
courtesy
of
Affymetri
x
正規化
チップごとに独立して正規化(per-array basis)
May 14, 2014
69
要素技術(Quantile正規化)

「シグナル強度の順位が同じなら値も同じ」と仮定
正規化前
正規化後
列ごとに
ソート
行ごとの平
均を算出
対応する行の要素
の元の位置に平均
値を代入
data19.txt
データセット中のサンプル数が変わると結果が変わる(multi-array basis)
May 14, 2014
70
要素技術(Quantile正規化)

「シグナル強度の順位が同じなら値も同じ」と仮定
正規化前
正規化後
列ごとに
ソート
行ごとの平
均を算出
対応する行の要素
の元の位置に平均
値を代入
data19_plus1.txt
データセット中のサンプル数が変わると結果が変わる(multi-array basis)
May 14, 2014
71
マイクロアレイ
RNA-seq
正規化はRNA-seq
でも議論されている
May 14, 2014
72
前処理法の違いを実感してみよう

MAS5 (Hubbell et al., Bioinformatics, 18: 1585-92, 2002)



RMA (Irizarry et al., Biostatistics, 4: 249-64, 2003)



特徴:アレイごとに独立して前処理を実行(per-array basis)
正規化:グローバル正規化
特徴:読み込んだ複数サンプル(複数アレイ)の情報を用いて前処理
を実行(multi-array basis)
正規化:quantile正規化(プローブレベルデータに対して実行)
RMX (Kohl et al., BMC Bioinformatics, 11: 583, 2010)

教科書中のRobLoxBioCと同じ方法
3つの前処理
法をやります
May 14, 2014
73
hoge - GSE7623_24samples
フォルダ中には、実行後の
ファイルがある。実際にやる
のはGSE7623_02samplesのみ
hoge - GSE7623_24samples
フォルダにディレクトリ変更
して前処理法を実行。テン
プレートスクリプトは出力
ファイル名が同じことに注意
3つのコードの主
な違いは、前処
理法の違いを表
す関数名とパッ
ケージ名部分
May 14, 2014
74
門田のやり方
メモ帳やワードパッドな
どのテキストエディタを
開いて、出力ファイル
名などを適宜変更した
一連のコードをファイル
として保存しています。
プログラムの実行時間
は7~8分程度。
May 14, 2014
75
data_mas.txt
24サンプル(24列)
31099 probesetIDs
(31099行)
May 14, 2014
76
MAS正規化法同士の結果を比較
GSE7623_24samples
24サンプル(24列)
GSE7623_02samples 2サンプル(2列)
MASはアレイごとに独立して前処理を実行するので(サンプル数
の増減にかかわらず)同一サンプル間で得られる数値情報は不変。
May 14, 2014
77
RMA正規化法同士の結果を比較
GSE7623_24samples
24サンプル(24列)
GSE7623_02samples 2サンプル(2列)
May 14, 2014
課題1:RMAは同一サンプル間で得られる数値が異なっ
ていることがわかる。この理由を簡潔に説明せよ。
課題2:RMX(RobLoxBioC)についても同様の比較を行
い、正規化の特徴について簡潔に述べよ(per-array
basis or multi-array basis)。ヒントは教科書p39の表2-1。
78
教科書p38-70
教科書§2-2-2~§2-2-4について

§2-2-2 データの正規化(基礎)
行列データへのアクセスの基本をおさらい。列名変更。
 summary関数やapply関数。箱ひげ図をpng形式で保存。


§2-2-3 データの正規化(計算例)

MAS5前処理法を例として、警告メッセージへの対応やサブセットでの実行、プローブごとのシ
グナル強度の抽出、プローブ配列情報取得(GGRNAと同じような機能)。
 折れ線グラフの作成手順などを折りまぜながら、数式の解読が苦手なヒト向けに、重みつき平
均の一種であるTukey’s biweight estimator計算手順の解説を通じて、重みをつけるという概
念の具現化や用いるパラメータの意味合いや感覚を述べている。また、一連の作業を繰り返
して、より頑健な値を得るというひらめきやその具体的事例としてRobLoxBioCの計算例を示
している。本書の醍醐味的部分!

§2-2-4 データの正規化(その他)

RMAの改良版開発に至る背景(quantile正規化時にサンプル数の増減で結果が変わること)
、およびプローブ効果、バッチ効果、トレーニングセット、リファレンス分布の例や基本的な考え
方を述べている。また、refRMA, frozen RMA, IRON, frmaTools周辺の比較的最近提唱され
た方法の特徴についても述べている。
May 14, 2014
79
原著論文の引用はお忘れなく
Rパッケージやプログラムの多くは原
著論文が存在する。各項目の最後の
ほうにRパッケージとその原著論文の
PubMedへのリンクを張ってあります。
May 14, 2014
80