Slide - Systems Immunology - SysImg

[email protected] ”究センター
[email protected]
時系列モデルの無情報事前分布
~理論的な観点から~
2014年11月26日
公開版
田中冬彦(Tanaka Fuyuhiko)
所属:大阪大学 基礎工学研究科
1.統計理論の位置づけ
研究対象は統計モデル!
実社会
具体的
遺伝子解析;情報理論;信号処理
AGCTAG
CGACCT
脳計測;経済時系列 など
統計モデルの応用
個別の統計モデルを導入
M = { p ( x | θ );θ ∈ Θ ⊂ R k }
(脳波の時系列モデル、DNAの隠れマルコフモデルなど)
ココ
統計の基礎理論
抽象的
統計モデルの全体
{M } を扱う
発表の流れ
1.統計理論の位置づけ
2.ベイズの公式
3.ベイズ統計入門
4.無情報事前分布
5.ARモデルでの優調和事前分布
2.ベイズの公式
ベイズの公式 (1/2)
ベイズの公式
P( A | B) P( B)
P( B | A) =
P( A)
P ( A)
Aが成立している確率
P( B | A)
P( B ∩ A) = P( A ∩ B)
Aが成立している条件の下でのBが成立する確率(条件付き確率)
AとBが両方成立している確率
条件付き確率の定義
P( A ∩ B) = P( B | A) P( A) = P( A | B) P( B)
※ベイズの「公式」と呼ばれるが数学的には上の定義の書き換えにすぎない
例:モンティ・ホール問題
(オープンキャンパスより)
1. TVのショーで参加者に3つのドアから1つを選んでもらう.
正解のドアが1つだけあり, ドアの向こうには豪華賞品.
2. 参加者が1つ選んだあとで, 司会者は残り2つのうちハズレのド
アを開けて見せる. (もし2つともハズレならランダムに1つ選ぶ)
ハ
ズ
レ
3. 司会者は参加者にドアを選び直してもよいという
もともと選んだドアをそのまま選ぶか
それとも, 残っているもう一つのドアを選ぶか
豪華賞品が当たる確率が高いのはどっち?
答え
もうひとつのドアを選ぶ方がよい
豪華賞品を得る確率は
2/3(約66.7パーセント)
・・・・
1. TVのショーで参加者に 3000のドアから1つを選んでもらう.
正解のドアが1つだけあり, ドアの向こうには豪華賞品.
2. 参加者が1つ選んだあとで, 司会者は残り 2999のうちハズレのド
ア(2998個)を開けて見せる.
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
ハ
ズ
レ
・・・・
3. 司会者は参加者にドアを選び直してもよいという
もともと選んだドアをそのまま選ぶか
それとも, 残っているもう一つのドアを選ぶか
豪華賞品が当たる確率が高いのはどっち?
答え
もうひとつのドアを選ぶ方がよい
豪華賞品を得る確率は
2999/3000
(約99.97パーセント)
ドアをあけてもらった
→ 2998個のドアは「ハズレ」という情報(データ)が手に入った
→ アタリ(豪華賞品)が2つのドアのどちらにあるかは依然として
不明だが、あらたなデータを利用できる
統計学
データをうまく利用して、知りたいことを推測する方法論、
これらを探究する学問
次に直観がきかない問題を紹介
例:がん診断
(松原望「入門ベイズ統計」より)
問
(以下は架空のものです)
がんの有無を95%の確率で判別できる診断法があります
検査を受ける人の中でがんである割合は年間 0.5%
Aさんの診断結果は陽性でした
→ Aさんががんの確率は?
予想される選択肢
1.95%でがんだから, 家族と今後について話し合う
2.所詮は半分半分
3.統計的にはがんの人は0.5%程度だろ?
Aさんががんである確率は
約
9パーセント
問 (以下は架空のものです)
がんの有無を95%の確率で判別できる診断法が2つあります
それらは互いに独立な診断法です
検査を受ける人の中でがんである割合は年間 0.5%
Aさんの診断結果は両方とも陽性でした
→ Aさんががんの確率は?
予想される選択肢
1.95%でがんだから, 家族と今後について話し合う
2.先の結果よりちょっと高い10%程度
3.統計的にはがんの人は0.5%程度だろ?
Aさんががんである確率は
約
64パーセント
がん診断の例
→ 数値データはあるが, 下手な直観は危険!
→ 数学(確率・統計)をうまく使うことが重要
統計学
データと数式を用いて推測する方法論を探究する学問
3.ベイズ統計入門
ベイズ統計の概観
1.統計モデルの設定
2.事前分布の設定
3.事後分布に基いた推測
統計モデル (1/2)
統計モデル(確率モデル)
データを発生させている源に関して数学的に記述したもの
1. 試行的なモデル;現象論的なモデル(e.g., 駅からの距離と土地の値段の相関)
2. 物理法則など厳格なモデル(e.g., 物理定数の測定実験;真値+観測誤差)
意識のギャップ
・工学、経済 → 1を想定
・物理(実験)などの科学 → 2を想定
・統計研究者 →1,2を柔軟に考察
統計モデル (2/2)
記法:
データ x が確率分布(確率密度関数) p(x) に従う時
x ~ p( x)
∫
X
p ( x)dx = 1, p ( x) ≥ 0
離散の時(以降はしばしば省略)
∑ p( x) = 1, p( x) ≥ 0
x∈ X
独立に同じ確率分布に従う時 (Independently identically distributed; i.i.d. )
i.i.d.
y1 ,  , yn ~ p ( y )
統計モデル
確率分布の有限次元パラメータ族を統計モデルと呼ぶ
p ( x | θ ) ≥ 0, ∫ p ( x | θ )dx = 1
X
θ
∀θ ∈ R k ←
θ
の動く範囲は扱う問題による
未知パラメータ
で決まる真の確率分布が存在し, データxはそこから発生している
とみなす(重要な仮定)
統計モデルの例(1/2)
・離散モデル
X = {a1 , a2 ,  , ak +1}
θ ∈ R k θi > 0
p ( x = ai | θ ) = θ i
θ k +1 = 1 − θ1 − θ 2  − θ k
k=1: ベルヌーイ試行(1回のコイン投げ)
表の出る確率 = θ
0 <θ <1
・二項分布
n回投げて表がx回出る確率(独立性を仮定)
 n x
pn ( x | θ ) =  θ (1 − θ ) n − x 0 < θ < 1
 x
統計モデルの例(2/2)
・平均未知の正規分布族(ガウスモデル)
 || x − θ ||2 
1
p( x | θ ) =
exp −

k /2
( 2π )
2


θ ∈Rk
事前分布
事前分布の導入
θ
統計モデルに加えて, さらにパラメータ
の確率分布
も仮定( 事前分布(prior distribution, prior )と呼ぶ)
θ ~ π (θ )
π (θ ) ≥ 0, ∫ π (θ )dθ = 1
Θ
事前分布の例
k=1: ベルヌーイ試行(1回のコイン投げ)
表(H)の出る確率=p ( x = H | θ ) = θ
π (θ ) = Cθ −1/ 2 (1 − θ ) −1/ 2
0 <θ <1
Jeffreys事前分布(Jeffreys prior)
事後分布の構成
事後分布
未知パラメータも確率分布をもつとみなすことで
条件付き分布がつくれる(ベイズの公式)
p ( x | θ )π (θ )
=
π (θ | x ) =
p( x)
p ( x | θ )π (θ )
∫ p( x | θ )π (θ )dθ
をパラメータの事後分布 (posterior distribution) と呼ぶ
ベイズの公式
P( A | B) P( B)
P( B | A) =
P( A)
P( A ∩ B) = P( B | A) P( A) = P( A | B) P( B)
ベイズ統計の考え方
統計モデルに基いた推論
(統計モデル所与の下)データから未知パラメータが推測できれば,
データを発生させる真の確率構造が把握できたことになる
ベイズ統計の考え方
未知パラメータの確率分布(事前分布)を導入し、
事後分布に基いて系統的に推測を行う
π (θ )
π (θ | x)
θ B := ∫ θπ (θ | x)dθ
事前情報に基づいたパラメータの分布
事前情報+実データに基づいたパラメータの分布
パラメータのベイズ推定量(の例)
事後分布のイメージ
・事前分布=パラメータに関する不確かさを表現
・事後分布=データ x を得た後の不確かさを表現
π (θ )
π (θ | x)
Θ
π (θ ) ≥ 0
∫ π (θ )dθ = 1
Θ
Θ
π (θ | x) ≥ 0
∫ π (θ | x)dθ = 1
Θ
(独立同一分布の下)データ数を増やしていくと
真値の周りに鋭いピークをもつ事後分布になる
がん診断の例
θ = 0,1 (0=がん無; 1=がん有)
・事前分布=がんの有無に関する事前の情報
・事後分布=診断結果を得た後の確率を表現
π (0) π (1)
π (θ | x1 , x2 )
π (θ | x1 )
π (θ )
Θ
π (0 | x1 ) π (1 | x1 )
Θ
π (0 | x1 , x2 )
π (1 | x1 , x2 )
Θ
ベイズ統計による推定の例 (1/2)
例:新商品の売上予測
問題
試験販売: n = 100 人で30人購入
市場(10,000人)に出すとどれくらい売れるか?
統計モデル
潜在的な購入者の割合
θ
0 <θ <1
n 人のうち実際にx人が購入する確率
n x
pn ( x | θ ) =  θ (1 − θ ) n − x
 x
ベイズ統計による推定の例 (1/2)
答え方(非ベイズ統計)
n x
n− x
pn ( x | θ ) =  θ (1 − θ )
 x
0 <θ <1
x
ˆ
最尤推定量 (MLE; Maximum Likelihood Estimator θ ( x) = )
n
30
ˆ
θ (30) =
= 0.3
100
過去の似たような商品での情報は一切反映しない結果!
ベイズ統計による推定の例 (2/2)
答え方(ベイズ統計)
過去の似たような商品での購入者の割合の分布(事前分布)
1
π (θ ) =
2 θ
0 <θ <1
パラメータの事後分布
1
π (θ | x) =
θ 30−1/ 2 (1 − θ ) 70
Be(30 + 1 / 2,71)
事後分布に基いて, 期待値やメディアン、MAP(事
後確率が最大の値)などでパラメータを推定できる
ベイズ統計が有効なケース
実用上のニーズ
・厳格な法則よりも近似的なルールを与えたい(データマイニング;Amazonなどのおすすめ商品)
・過去のデータも踏まえて意思決定を行いたい(迷惑メールフィルタ;単語変換の予測;音声認識)
ベイズ統計発展の背景
・計算機の性能向上と事後分布計算のアルゴリズム開発(事後分布が計算可能)
・高次元の離散データの取り扱い(特にゲノムやWeb関係)
・人間行動のモデル化と予測に対するニーズ(ケータイ、カーナビ)
ベイズ統計に対する誤解
客観的であるべき科学実験にベイズは使えない?
事前分布は形式的なものを使うことも(無情報事前分布)
頻度論(伝統的な統計学) vs ベイズ統計 という図式
実際にはベイズは頻度論の枠組みを広げたもの;
頻度論の結果は特定の事前分布を用いた推測に相当
(ベイズは包含している)
無情報事前分布の選択の問題は重箱のスミつつき?
ベイズの問題ではなく、小標本での統計学が
昔から抱えていた問題
(頻度論は漸近理論に頼らざるを得なかった)
4. 無情報事前分布
無情報事前分布
無情報事前分布= パラメータに関する事前情報が全くない場合
に使う事前分布
統計モデルのみから決めたい
M = { p( x | θ ) : θ ∈ Θ ⊆ R k }
π ( dθ ) ?
注意点
1.いまだに議論があるが、望ましい条件などのコンセンサスもある(後述)
2.「無情報」は“noninformative”の訳語であり, objective prior, vague prior などと
も言う
無情報事前分布の選択
歴史的には3段階
k
Θ
⊆
R
1. パラメータの動く範囲のみを見る(Laplace’s criterion)
2. 確率分布の空間への埋め込まれ方を見る
M = { p( x | θ ) : θ ∈ Θ ⊆ R k }
3. さらに、統計的決定理論の立場で眺める (統計理論の最先端)
Laplace’s Criterion
素朴なアイディア
事前の情報が全くない = 異なるパラメータに同じ重み
= 一様分布
π U (θ ) = const.
πU
Θ
パラメータの取り方に依存した定義になっている
例:ゆがんだコイン
コイン投げのモデル (H=表, T=裏)
M = {( p ( H | θ ), p (T | θ )) = (θ ,1 − θ ) : θ ∈ Θ}
Θ = (0,1)
= {( p ( H | ξ ), p (T | ξ )) = (tan ξ ,1 − tan ξ ) : ξ ∈ Ξ}
 π
Ξ =  0, 
 4
ある人の主張する「一様分布」
π U (θ ) = 1
別の人の主張する「一様分布」
π U (ξ ) = 4 ⋅ π −1 on Ξ
→
θ
に変換すると・・・ π U (ξ (θ )) = 4 ⋅ π −1
on
Θ
dξ
1
= 4 ⋅ π −1
dθ
1+θ 2
≠1
変換のヤコビアン
同じ統計モデルなのに「一様分布」が食い違ってしまう!
無情報事前分布の指針
望ましい条件
- パラメータの取り方に依存しない定義(一様分布はダメ)
- 汎用性(対称性の低い複雑なモデルでも使える)
- 得られる結果が望ましい性質をもつ、なんらかの解釈が可能
Jeffreys 事前分布
Jeffreys 事前分布 π J (θ )
π J (θ ) ∝ det( g ij )
g ij
Fisher 情報行列
 ∂ log p ( x | θ ) ∂ log p ( x | θ ) 
g ij := E X 

∂θ i
∂θ j

E X [⋅] := ∫ ⋅ p ( x | θ )dx
- パラメータの取り方に依存しない
-汎用性(適当な正則条件のもとで常に存在)
→ 他の事前分布との比較対象
- ただし, improper (積分発散)になるケースも多く
必ずしも良い選択肢とはいえない
Jeffreys 事前分布よりもよい事前分布の提案が研究課題
例:ガウス分布族
ガウス分布族 (正規分布族)=平均と分散で特徴づけられる確率分布族
2


x
µ
(
)
−
2
exp−
M = { p ( x | θ ) : θ ∈ Θ ⊂ R } p( x | θ ) =

2
2
2πσ
 2σ 
1
θ = (θ1 , θ 2 ) = ( µ , σ 2 )
簡単のため分散=1とおくと
π J (µ ) ∝ 1
µ ∈R
積分は発散 (improper とよばれる)
∫ dµÏ€
J
(µ ) = ∞
Θ = R × (0,+∞)
無情報事前分布の提案
さまざまな無情報事前分布
- Jeffreys prior
- Maximum likelihood prior/Alpha parallel prior
- Superharmonic prior
- Reference prior/Latent information prior
- Haar measure (on a unimodular group)
今もなお多くの議論有り (cf. 量子系特有の例はFT 2012, Physical Review A )
今回注目する事前分布
優調和事前分布
(Komaki (2006), T and Komaki (2011))
・Jeffreys事前分布に基いたベイズ予測密度の性能比較の観点から導出
・優調和事前分布が存在
優調和事前分布に基いたベイズ予測が漸近的にジェフリー
ズ事前分布より優れた推定ができる
・具体的な構成
とても難しい!!
(しかし、ARモデル・MAモデルでは陽に与えることができる!)
以下、ARモデルの優調和事前分布を紹介
5.ARモデルでの
優調和事前分布
AR過程とそのスペクトル密度
AR ( p )過程
p
xt = −∑ ai xt −i + ε t
ε t ~ N (0, σ 2 ) 白色雑音
i =1
a1 ,  , a p
をパラメータ → ARモデル
AR( p ) 過程のスペクトル密度
2
σ
1
2
S (ω | a1 ,  , a p , σ ) =
2π | L a (e iω ) |2
L a ( z ) = 1 + a1 z −1 +  + a p z − p
例:AR過程
AR(1)過程(自己回帰過程) xt = −0.35 xt −1 + ε t
定常Gauss過程
-4
-2
x
0
2
x (観測値)
0
200
400
600
800
1000
Index
t (時刻)
AR(1)過程+トレンド(決定論的) yt = xt + f (t )
非定常
10 12
2 4 6 8
(Gauss過程)
-2 0
0.001 * t^2 + x[900:1000]
y (観測値)
0
20
40
60
t
80
100
t (時刻)
例:AR過程のスペクトル密度
AR(3)過程 xt = −0.18 xt −1 + 0.05 xt − 2 + 0.39 xt −3 + ε t
ε t ~ N (0, 1)
スペクトル密度
1
S (ω | a1 , a2 , a3 ) =
| e 3ωi + 0.18e 2ωi − 0.05eωi − 0.39 |− 2
2π
ピークや裾幅は
S(ω)
0.6
0.4
0.2
0.0
ST
0.8
1.0
ARパラメータで決まる
-3
-2
-1
0
omega
1
2
3
ω(周波数)
AR(p)での優調和事前分布
定理
AR(p) ( p ≥ 2) 過程において 分散パラメータ固定で考える
1. Jeffreys 事前分布はimproper
2. 優調和事前分布(のひとつ)はproperであり、ARパラメータを用いると
π H (a )da ∝ (1 + a1 +  + a p )(1 − a1 +  + (−1) a p )
p
−1 / 2
da
ç³»
上の優調和事前分布に基づいて構成したスペクトル密度のベイズ推定量は許容的
AR(3)過程での数値実験(1/3)
AR(3)過程の事前分布(PACパラメタで表示)
π J ( r ) dr ∝
dr
(1 − r )(1 − r )(1 + r )
2
1
2
3
2
2
AR(3)での数値実験
二つの推定スペクトル密度の性能比較
SˆJ (ω ) := ∫∫∫ S (ω | r )π J ( r | x)dr
SˆH (ω ) := ∫∫∫ S (ω | r )π H ( r | x)dr
π H (r )dr ∝
1 − r32
dr
2
1 − r1
真のスペクトル密度
(任意にPACパラメータ固定)
S 0 (ω ) := S (ω | r0 )
観測データ(AR(3)過程から生成)
x = ( x1 , x2 ,, xn )
データの発生を繰り返して D ( S 0 || SˆJ ) D ( S 0 || SˆH ) の分布を見る
AR(3)過程での数値実験(2/3)
* D( S 0 || SˆJ ) D( S 0 || SˆH ) のヒストグラム
( r1 , r2 , r3 ) = (0.2, - 0.4,-0.2)
20
10
10
20
Frequency
30
π H (θ ) is better!!
D ( S 0 || SˆJ )
D ( S 0 || SˆH )
0
0
Frequency
30
40
a1= -0.2 ; a2= 0.344 ; a3= 0.2
40
r1= 0.2 ; r2= -0.4 ; r3= -0.2 : 100 r
0.0
0.2
0.4
0.6
0.8
1.0
Risk for the Jeffreys
1.2
1.4
0.0
0.2
0.4
0.6
0.8
1.0
Risk for a superharmonic
SˆH (ω ) の方が SˆJ (ω ) より S 0 (ω ) に集中している
i.e., 良い推定
1.2
1.4
参考:MLE Plug-in との比較
* D( S 0 || SˆM ) のヒストグラムと比較
( r1 , r2 , r3 ) = (-0.6, - 0.4,0.2)
SˆJ(H) (ω ) := ∫∫∫ S (ω | r )π J(H) ( r | x)dr
SˆM (ω ) := S (ω | rˆMLE ( x))
data090906/KLH_cnt_1_1.txt
30
25
20
10
15
20
D ( S 0 || SˆM )
0
0
5
D ( S 0 || SˆH )
5
10
15
Frequency
Frequency
25
30
25
20
15
10
5
D ( S 0 || SˆJ )
0
Frequency
data090906/KLM_cnt_1_1.tx
30
data090906/KLJ_cnt_1_1.txt
0.0
0.5
1.0
1.5
2.0
2.5
Risk for Spectral Density based on the
0.0
0.5
1.0
1.5
2.0
2.5
Risk for Spectral Density based on a s
0.0
0.5
1.0
1.5
2.0
2.5
Risk for plug-in Spectral Density estim
ベイズの方がMLEのPlug-inに比べて性能が良い
まとめ
ベイズ統計での事前分布の選択は難しい問題。特に非i.i.d. モデル
は理論的な研究が少ない
Jeffreys事前分布は一様分布をパラメタの取り方に対して不変な形に
拡張
→ 推定量を構成する上では、もっとよい事前分布がとれる
今後の課題
シンプルなモデルでの理論解析と具体的(かつ複雑な)モデルでの実
証研究の二極化
→ (時系列に限らず)シンプルでかつ応用上も重要なモデルが欲しい
文献
情報幾何のテキスト:
S. Amari:Differential geometrical methods in statistics. Springer-Verlag, 1985.
S. Amari and H. Nagaoka,: Methods of Information Geometry. AMS, Oxford, 2000.
スライド後半で引用した文献 (見やすさを踏まえ省略された文献は原論文を参照; 主にnoninfo. prior と情報幾何関係)
S. Amari: Differential geometry of a parametric family of invertible linear systems - Riemannian metric, dual affine connections, and
divergence. Math. Syst. Theory, 20 (1987), 53-82.
J. Berger and R. Y. Yang, Noninformative priors and Bayesian testing for the AR(1) model. Econometric Theory, 10 (1994), 461-482.
J. M. Bernardo: Reference posterior distributions for Bayesian inference. J. R. Statist. Soc. B, 41, (1979), 113-147.
J. A. Hartigan: The Maximum Likelihood Prior. Ann. Statist., 26 no.6 (1998), 2083-2103.
F. Komaki: Shrinkage priors for Bayesian prediction. Ann. Statist., 34 (2006), 808-819.
H. Matsuzoe, J. Takeuchi, and S. Amari, Equiaffine structures on statistical manifolds and Bayesian statistics. Differential Geom.
Appl., 24 (2006), 567-578.
J. Takeuchi and S. Amari, α-parallel prior and its properties. IEEE. Trans. Info. Theory, 51, no.3 (2005), 1011-1023.
F. Tanaka, Superharmonic priors for autoregressive models. Mathematical Engineering Technical Reports, 2009-18,
(2009) 1-20.
F. Tanaka and F. Komaki:Asymptotic expansion of the risk difference of the Bayesian spectral density in the
autoregressive moving average model, Sankhya Series A, Indian Statistical Institute, Vol.73-A (2011), pp. 162-184.
F. Tanaka: Curvature form on statistical model manifolds and its application to Bayesian analysis,
Journal of Statistics Applications and Probability, Natural Sciences Publishing, Vol.1 (2012), 35-43.
F. Tanaka: Noninformative prior in the quantum statistical model of pure states. Phys. Rev. A, 85 (2012): 062305.
これは量子情報でのprior