変分ベイズ法の局所解における自由エネルギーと汎化 - 東京工業大学

社団法人 電子情報通信学会
THE INSTITUTE OF ELECTRONICS,
INFORMATION AND COMMUNICATION ENGINEERS
信学技報
TECHNICAL REPORT OF IEICE.
変分ベイズ法の局所解における自由エネルギーと汎化誤差の関係
中村 文士†
渡辺
澄夫†
† 東京工業大学 大学院総合理工学研究科 知能システム科学専攻 〒 226-8502 横浜市緑区長津田町 4259 G5-19
E-mail: [email protected], [email protected]
あらまし
変分ベイズ法は少ない演算量でベイズ事後分布を近似実現できるが, 初期値に依存する複数の局所解を持
つことが知られている. 変分自由エネルギーは与えられたサンプルだけで計算できるが, 汎化誤差はサンプルだけでは
計算できないため, 局所解における変分自由エネルギーと汎化誤差の間の関係を明らかにすることが望まれている. 本
論文では, 人工データ及び実データを用いて, 局所解における自由エネルギーと汎化誤差を求めて比較を行い, 次の実
験結果を報告する. 真の分布が学習モデルに対して正則であるときには, 変分自由エネルギーが小さい局所解は汎化誤
差も小さくする. 真の分布が学習モデルに対して特異であるときには, 変分自由エネルギーを最小にする局所解が汎化
誤差も最小にするとは限らない.
キーワード
変分ベイズ法, 局所解, 変分自由エネルギー, 汎化誤差
Free Energy and Generalization error of Local mimima in Variational
Bayes Learning
Fumito NAKAMURA† and Sumio WATANABE†
† Tokyo Institute of Technology, Dept. of Computational Intelligence and Systems Science
Nagatsuta-chou, Midori-ku, Yokohama, 226-8502, JAPAN
E-mail: [email protected], [email protected]
Abstract Variational Bayes learning approximates the posterior distribution with small computational costs, however, it has several local minima which depend on initial values. The variational free energy can be calculated using
only training samples, whereas the generalization error not. To compare several local minima, the relation between
the variational free energy and the generalization error are necessary. In this paper, we experimentally calculate
the free energy and the generalization error for each local minimum, and report the following results. If a true
distribution is regular for a statistical model, then the local minimum that minimizes the variational free energy
also makes the generalization error minimal. If a true distribution is singular for a statistical model, then the local
minimum that minimizes the variational free energy does not always make the generalization error minimal.
Key words Variational Bayes learning, Variational free energy, generalization error
1. は じ め に
混合正規分布, 神経回路網, 隠れマルコフモデルのように階
である場合には, 平均場近似を用いる方法が有効であり, 変分ベ
イズ法と呼ばれている. 本論文では変分ベイズ法について考察
する.
層的な構造や隠れ変数を持つ学習モデルは, パラメータの集合
変分ベイズ法は, 隠れ変数を導入することで学習モデルを観
と確率分布の集合の対応が一対一でないために, 最尤推測や事
測できない変数を含む確率モデルとみなして, パラメータと隠
後確率最大化推測よりもベイズ推測のほうが汎化誤差を小さく
れ変数の同時分布を平均場近似する方法として考案された [1]∼
できるという意味で有効であることが知られている [7]. 従って,
[3]. パラメータ w と隠れ変数 y n の分布として, 独立な確率分
事後分布を実現するための方法を作ることは階層的な構造や隠
布 q(y n )r(w) の集合の中から事後分布とのカルバック・ライブ
れ変数を持つ学習モデルにおいて重要な課題であり, マルコフ
ラ距離を最小にするものを選ぶ方法である. この最小化は変分
連鎖モンテカルロ法に基づく方法 [4] や事後分布を平均場近似
自由エネルギーの最小化と数学的に等価であり, 平均場近似が
する方法が研究されている. 特に学習モデルが混合指数型分布
見たすべき自己無矛盾条件の繰り返し代入によって探索される.
—1—
一般に平均場近似は局所解を持つ [5] が, 変分ベイズ法のアル
p(x|w) =
ゴリズムも初期値に依存して複数の局所解をもつことが知られ
K
∑
√
k=1
ak
2π
M
( 1
)
exp − ∥x − bk ∥2
2
(1)
ている [8]. 統計的学習の観点からは, 汎化誤差が小さくなる局
所解を見出せることが望ましいが, 汎化誤差を計算するために
は真の分布が必要となり, サンプルだけでは計算できない. そ
で与えられる. ここで K は混合数あるいはコンポーネント数と
呼ばれる. パラメータ w は
のため, サンプルのみで計算できる変分自由エネルギーと汎化
w = (a, b) = {(ak , bk ); k = 1, 2, ..., K}
誤差の間の関係を明らかにすることが望まれている. この関係
を本論文では実験的に考察する.
である. ただし
本論文では, 人工データ及び実データを用いて局所解におけ
a1 + a2 + · · · + aK = 1.
0<
= ak <
= 1,
る変分自由エネルギーと汎化誤差の比較を行い, 次の実験結果
を報告する.
であり, また bk ∈ RM である. 変分ベイズ法では共役な事前分
(1) 真の分布が学習モデルに対して正則であるとき, 変分自由エ
布が用いられる.
ネルギーを最小にする局所解は, 汎化誤差も最小にする.
(2) 真の分布が学習モデルに対して特異であるとき, 変分自由エ
ネルギーを最小にする局所解は, 汎化誤差を最小にするとは限
φ(w) = φ1 (a) φ2 (b),
φ1 (a) =
らない.
K
Γ(Kϕ) ∏
(ak )ϕ0 −1 ,
Γ(ϕ)K
k=1
K
( β )KM/2 ∏
β0
exp(− ∥bk ∥2 ).
φ2 (b) =
2π
2
2. 変分ベイズ法
k=1
まず本論文の基礎となるベイズ法と変分ベイズ法についてま
とめる.
2. 1 ベイズ法の汎化誤差と自由エネルギー
データの集合 xn = {xi ∈ RM ; i = 1, 2, ..., n} が与えられて
いるとき, 学習モデル p(x|w) と事前分布 φ(w) に対する事後分
布 p(w|xn ) は
n
∏
1
φ(w)
p(xi |w)
Zn
i=1
p(w|xn ) =
になる. ここで Zn は定数であり
∫
Zn =
dw φ(w)
n
∏
ここで ϕ0 > 0,β0 > 0 は事前分布を定めているパラメータであ
り, ハイパーパラメータと呼ばれる. 特に ϕ0 は混合比 a = {ak }
の挙動に影響する.
混 合 正 規 分 布 の 学 習 で は, 隠 れ た 変 数 と し て Y
1
2
(Y , Y , ..., Y
) が用いられる.Y は集合
に値を取る確率変数である. すなわち,Y k の中のどれかひとつ
だけが1になり他のものは全て0になる. 確率変数 (X, Y ) の同
時分布を
p(xi |w)
p(x, y|w) =
と表される. この値は, モデル p(x|w) と事前分布 φ(w) の組の
尤度であり周辺尤度と呼ばれる. モデル p(x|w) をパラメータの
事後分布 p(w|xn ) で平均したものが予測分布 p(x|xn ) である.
K (
∏
k=1
√
ak
2π
M
exp(−
k
∥x − bk ∥2 )y
)
,
2
と定義する. ここで y = (y 1 , y 2 , ..., y K ) ∈ C である. このとき,
この同時分布によって定まる x の周辺分布は p(x|w) に一致
する.
∫
p(x|xn ) =
=
C = {(1, 0, 0, ..., 0), (0, 1, 0, ..., 0), ..., (0, 0, 0, ..., 1)}
i=1
すなわち
K
p(x|w) =
p(w|xn )p(x|w)dw.
∑
p(x, y|w).
y∈C
∑
は集合 C 上を渡る和を表している. このことか
ベイズ法における重要な量として自由エネルギーと汎化誤差が
ここで
挙げられる. 真の分布を q(x) とすると, 自由エネルギー F (xn ),
ら, 混合正規分布の学習は y ∈ C を計測できない変数とする
n
汎化誤差 G(x ) はそれぞれ
F (xn ) = − log
∫
G(xn ) =
∫ ∏
n
p(x, y|w) の学習と等価であることがわかる.
データ全体を現す xn と そのデータに対する隠れた変数全体
p(xi |w)φ(w)dw
を表す y n をそれぞれ次のように定義する.
i=1
q(x) log
q(x)
dx
p(x|xn )
と表される. これらはベイズ法の自由エネルギーと汎化誤差で
あり, 変分ベイズ法の変分自由エネルギーと汎化誤差ではない.
2. 2 混合正規分布と変分ベイズ法
M 次元ユークリッド空間 RM 上の混合正規分布は,x ∈ RM
について
y∈C
xn = {xi ∈ RM ; i = 1, 2, ..., n},
y n = {yi ∈ C; i = 1, 2, ..., n, }.
すなわち xn ∈ (RM )n であり y n ∈ C n である. このとき, デー
タ, 隠れた変数, パラメータ (xn , y n , w) の上の同時確率密度関
数は
P (xn , y n , w) = φ(w)
n
∏
p(xi , yi |w)
(2)
i=1
—2—
である. データが得られたという条件のもとで, 隠れ変数とパラ
メータの確率分布は
Tk =
y ki + β0 ,
(6)
i=1
P (y n , w|xn ) =
1
P (xn , y n , w)
Zn
Uk =
になる. ここで Zn は周辺尤度と等しい.
∑ ∫
Zn =
dw P (xn , y n , w)
n
1 ∑ k
{
y xi },
Tk i=1 i
r(a, b) ∝
∫
n
∏
dw φ(w)
(7)
を用いて, パラメータの確率分布は
y n ∈C n
=
n
∑
K
∏
(ak )Sk −1 exp(−
k=1
p(xi |w).
を満たさなくてはならない. 反対に, 上記の三つの値が与えられ
i=1
変分 ベ イズ法 は, 隠れ 変数と パ ラメータが独立な確率分布
q(y n )r(w) を用いて P (y n , w|xn ) を近似するものである. 前者
から後者までのカルバック・ライブラ情報量
∑ ∫
q(y n )r(w)
K(q, r) =
dw q(y n )r(w) log
P (y n , w|xn )
n
n
y ∈C
ると, そこから定まる値
1 M
Lki = ψ(Sk ) − ψ(n + Kϕ0 ) {
+ ∥xi − Uk ∥2 }
2 Tk
(8)
exp(Lki )
y ki = ∑K
,
j
j=1 exp(Li )
(9)
を用いて, 隠れ変数の確率分布は
を最小にする q(y n )r(w) を見出すことで近似が行われる. 隠れ
変数とパラメータの集合 C n × Rd の上の確率分布で, 隠れ変数
q(y n ) ∝
ψ(x) =
と書くことにする. 目的の確率分布 P (y n , w|xn ) は, 一般には
集合 S には含まれていないが,S のなかで最も目的の確率分布
y ki ⇒ (Sk , Tk , Uk ) ⇒ y ki
最小化は,
y n ∈C n
q(y n )r(w)
P (y n , w, xn )
d
log(Γ(x))
dx
である. 以上により繰り返し手続き
に近いものを探索する. カルバック・ライブラ情報量 K(q, r) の
dw q(y n )r(w) log
exp(yik Lki ),
を満たさなくてはならない. なお, ディガンマ関数 ψ(x) は
S = {q(y n )r(w)}
∑ ∫
n ∏
K
∏
i=1 k=1
とパラメータが独立になるような確率分布全体の集合を
F (q, r) =
Tk
∥bk − Uk ∥2 ),
2
による変分ベイズ学習が導出された. 変分ベイズ学習により, 変
分事後分布 pˆ(w|xn ) が定まるので, 変分予測分布 pˆ(x|xn ) が以
下のように解析的に求められる.
∫
pˆ(x|xn ) =
p(x|w)r(w)dw
の最小化と等価である. 変分自由エネルギーを
Fˆn ≡ min F(q, r).
(q,r)∈S
=
と定義すると, 定義から, 変分自由エネルギーは, 自由エネルギー
の上界を与えている.
K
∑
k=1
√
a
ˆk
2π ρˆk
M
(
)
1
exp −
∥x − ˆbk ∥2 ,
2ˆ
ρk
(10)
(11)
ここで
Fˆn >
= Fn .
Sk
,
n + Kϕ
(12)
F (q, r) は q(y n ) と r(w) の汎関数であり, 変分法を用いること
a
ˆk =
により,F(q, r) の極小値を与える q(y n ) と r(w) は次の条件を
ˆbk = Uk ,
(13)
満たさなくてならないことがわかる.
(
)
1
q(y n ) =
exp Er [log P (xn , y n , w)] ,
C1
(
)
1
r(w) =
exp Eq [log P (xn , y n , w)] .
C2
1
ρˆk = 1 +
Tk
(14)
(3)
ここで Er [ ] と Eq [ ] は, それぞれ r(w) および q(y n ) に関
である. さらに, この変分予測分布と真の分布 q(x) を用いるこ
ˆn は
とにより, 変分ベイズ法の汎化誤差 G
∫
q(x)
ˆn =
G
q(x) log
dx,
(15)
pˆ(x|xn )
する平均を表す. また C1 , C2 > 0 は正規化定数である. この二
と表せる.
(4)
つの式を繰り返し更新式と考えることにより変分ベイズ学習の
アルゴリズムが導出される. データ i 番目に対する隠れ変数の
座標 (k) に対する平均値 y ki = Eq [(yi )(k) ] が与えられたとする
と, そこから定まる値
Sk =
n
∑
i=1
y ki + ϕ0
2. 3 変分ベイズ法の性質
ここでは, 本論文で必要となるこれまでにわかっている変分
ベイズ法の性質についていくつか述べる.
2. 3. 1 相 転 移
(5)
変分自由エネルギーの挙動が知られている [6].
定理 データを発生している真の分布が混合正規分布であり, コ
—3—
ンポーネント数が K0 であると仮定する. また, 変分ベイズ法に
よって, 変分自由エネルギーを最小にする点が見つかったとす
る. このとき変分自由エネルギー Fˆn は次の不等式を満たす.
工データと実データを用いて実験的に解析を行う.
混合正規分布においては, 真の分布と学習モデルのコンポー
ネント数が同じであるとき, 真の分布と学習モデルが一致する
パラメータは対称性を除いてひとつに定まり, その点でのフィッ
λ1 log n + nKn (w)
ˆ + c1 < Fˆn − Sn < λ2 log n + c2 ,
シャー情報行列は正定値である. この場合を本論では, 正則な場
ここで Sn は真の分布の経験エントロピーであり, Kn (w)
ˆ は変
合と呼ぶ. 真の分布よりも学習モデルのコンポーネント数が多
分ベイズ法によって定まるパラメータ w
ˆ に対する経験カルバッ
いとき, 真の分布と学習モデルが一致するパラメータは特異点
ク情報量であり, c1 , c2 は定数である. 定数 λ1 と λ2 は次のよ
を含む解析的集合であり, フィッシャー情報行列は固有値0を持
うに定義される. M ∗ = (M + 1)/2 とおく.
{
∗
(K − 1)ϕ + M/2 (ϕ <
=M )
λ1 =
(M K + K − 1)/2 (ϕ > M ∗ )
{
(K − K0 )ϕ + (M K0 + K0 − 1)/2
λ2 =
(M K + K − 1)/2
つ. この場合を特異な場合と呼ぶ.
なお, 実データにおいては, 真の分布は有限の大きさの混合正
規分布では実現できないと考えられるが, 変分自由エネルギー
∗
(ϕ <
=M )
(ϕ > M ∗ )
を最小にする規準で選択された学習モデルを用いる場合を正則
.
こ の 定 理 は, 混 合 比 の ハ イ パ ー パ ラ メ ー タ が ϕ = M ∗ =
(M + 1)/2 の前後において, 変分事後分布の実質的なサポート
が変化することで変分自由エネルギーが滑らかでなくなること
を述べている. 上記の定理の証明から次のことが解明されてい
な場合と呼び, 変分自由エネルギーを最小にする学習モデルよ
りもコンポーネント数が多いモデルを用いる場合を特異な場合
と呼ぶことにする.
3. 1 初期値の設定
ハイパーパラメータは β0 = 0.0001 で固定し,ϕ0 による相転
移の前後を調べるため,ϕ0 = 0.1, 10 を用いた. 変分ベイズ法の
混合比の初期値 a0 は, ハイパーパラメータをそれぞれ 5 とする
る.
(1) ϕ < (M + 1)/2 のときには, 真の分布に対して冗長な部分
の混合比が0になり, 各コンポーネントの正規分布は重ならな
い.
ディリクレ分布に従う確率変数を用いた. すなわち
a∼
K
Γ(5K) ∏ 5−1
ak ,
Γ(5)K
k=1
(2) ϕ > (M + 1)/2 のときには混合比は0にならず, 正規分布
の中心が重なる.
を用いた. また,k 番目のコンポーネントの中心の初期値 bk0 は,
平均をサンプル平均, 分散を 25 とする正規分布に従う確率変数
注意. データを発生している真の分布と学習モデルのコンポー
ネント数が一致していて, さらにサンプルの個数が非常に多く,
事後分布が正規分布で近似できる場合には, 上記のような相転
移は存在しないが, 現実の問題でそのような仮定が成立するよ
うな特殊なことはめったに生じない. 現実の問題では, 真の分布
には混合比の大きなコンポーネントから小さなコンポーネント
までが含まれているため, データ数との比較の上でどこまで小
さなコンポーネントまでが観測可能かを考察する必要がある.
を用いた. すなわち
( ∥bk0 − 1 ∑i=1 xi ∥2 )
1
n
n
bk0 ∼ √
exp
−
,
M
50
50π
を用いた. この初期値の組 (a0 , b0 ) を 200 回変えることで, 様々
な局所解を得る.
3. 1. 1 人工データの実験設定
サンプル数を 400 個とする. 学習モデルとして, コンポーネ
ント数 3, 次元 5 の混合正規分布を用いた. すなわち,
2. 3. 2 変分ベイズ法の不動点
変分ベイズ法は繰り返しアルゴリズムであるため, 初期値及
p(x|w) =
び相転移の前後に依存して収束先, その個数, 位置が変わること
がわかっている [8].
k=1
( ∥x − b ∥2 )
ak
k
√ 5 exp −
2
2π
(18)
正則な場合と特異な場合において, それぞれ, ϕ0 = 0.1 と
定理. 変分ベイズ法の再帰的代入は以下の不動点 (ˆ
a, ˆb) を持つ.
n
1∑
(1)ˆ
ak = 1 + o(1), ˆbk =
xi + o(1),
n i=1
aj = 0 + o(1), bj = 0 + o(1)(∀j =
| k)
(2)(∀k)ˆ
ak = 1/k, ˆbk =
3
∑
n
1∑
xi + o(1)
n i=1
ϕ0 = 10 に対して実験を行う. 変分自由エネルギーと汎化誤差
はサンプルの出方によって変動するので,500 通りのサンプルの
出方を考える. 局所解としては, それぞれ式 (16),(17) の不動点
と学習結果のコンポーネント数を 2 つとする局所解, コンポー
(16)
ネント数を 3 つとする局所解の合計 4 つを考える. 各局所解の
まとまりごとに変分自由エネルギーと汎化誤差の平均を求め,
(17)
各局所解ごとにこの 2 つの関係を調べる.
3. 1. 2 実データの実験設定
注意. この 2 つの不動点はどのサンプルに対しても存在するが,
一般にこれ以外にも変分ベイズ法の不動点は存在する.
3. 実
験
以下では, 変分自由エネルギーと汎化誤差の関係について人
実データとして図 1 の画像を用いた. サンプルは RGB それ
ぞれの画素を 3 × 3 の大きさで画像中のランダムな位置から切
り取り, 3 × 3 × 3 = 27 次元のデータを 1 つのサンプルとして
用いた.
学習モデルとしては, 次元 27 の混合正規分布を用いた. コン
—4—
Generalization Error
6
5
4
3
2
1
0
0
500
1000
1500
2000
Variational Free Energy
fixed point1
2comp
fixed point2
3comp
2500
図 2 正則で,ϕ0 = 0.1 の場合
ポーネント数については後述する. サンプル数は 1000 個であ
る. この場合には真の分布は不明なので, 汎化誤差を計算するこ
とができないため, 汎化誤差と真の分布のエントロピーの和で
ある汎化損失(対数損失)を, 学習データとは独立に画像中か
らランダムに選び出したサンプルを用いて計算した. 実データ
Generalization Error
図 1 実験で用いた画像
6
5
4
3
2
1
0
0
に対してはサンプルの現れ方に関する変動はプロットせず, あ
500
1000
1500
2000
Variational Free Energy
るデータセットに対するものを図に示している. なお, 各画素は
0∼255 の整数値を取るが, 正規化して −3∼3 の値に移して用
fixed point1
2comp
いている.
fixed point2
3comp
3. 2 実 験 結 果
図3
(1) 正則な場合
真の分布 q(x) が
( ∥x∥2 )
( ∥x − 2∥2 )
0.33
0.33
q(x) = √ 5 exp −
+ √ 5 exp −
2
2
2π
2π
(
∥x + 2∥2 )
0.34
+ √ 5 exp −
,
2
2π
Generalization Error
3. 2. 1 人工データを用いた場合の結果
2500
正則で,ϕ0 = 10 の場合
0.011
0.0105
0.01
0.0095
0.009
0.0085
0.008
0.0075
0.007
0.0065
0.006
40
である場合を考察した. ここで 2 は, 要素が全て 2 のベクトル
50
60 70 80 90 100 110 120
Variational Free Energy
を表している.
図 2,3 はそれぞれ ϕ0 = 0.1, 10 の場合の局所解の変分自由エネ
ルギーと汎化誤差をデータの出方で平均した値の関係を表して
fixed point1
2comp
fixed point2
3comp
図 4 特異で,ϕ0 = 0.1 の場合
いる. 横軸は変分自由エネルギーから真の分布のエントロピー
を引いた値, 縦軸は汎化誤差を表している. fixed point1 は式
(16) の局所解の平均を表し, fixed point2 は式 (17) の局所解の
図 4,5 はそれぞれ ϕ0 = 0.1, 10 の場合の局所解の変分自由エ
平均を表している. また,2comp はコンポーネント数が 2 つであ
ネルギーと汎化誤差をデータの出方で平均した値の関係を表し
ると学習された局所解の平均を表しており, 3comp はコンポー
ている. この結果から, 特異な場合, 平均的に変分自由エネル
ネント数が 3 つであると学習された局所解の平均を表している.
ギーが最小である局所解と汎化誤差が最小である局所解は同じ
この結果から, 正則な場合, 平均的に変分自由エネルギーを最小
にならないことがわかる.
にする局所解は, 汎化誤差も最小にすることがわかる.
3. 2. 2 実画像を用いた場合の結果
実画像についてモデル選択を行うために, ϕ0 = 0.1, 10 のそ
(2) 特異な場合
真の分布 q(x) を
( ∥x∥2 )
q(x) = √ 5 exp −
,
2
2π
1
とした.
れぞれの場合にコンポーネント数を変えて変分自由エネルギー
を求めると図 6,7 のようになった. これから,ϕ0 = 0.1 において
は,K = 5 を正則な場合とした. ϕ0 = 10 では,K = 9 を正則な
場合とした. また, 特異な場合としては, どちらも, K = 20 の場
合を考える.
—5—
NumberComponent=5 phi=0.1
98
100 102 104 106 108
Variational Free Energy
fixed point1
2comp
fixed point2
3comp
図5
34
33
32
31
30
29
28
28500
特異で,ϕ0 = 10 の場合
30000
33000
34500
36000
phi0.1
31200
NumberComponent=9 phi=10
31000
30800
35
30600
34
30400
30200
30000
29800
29600
2
4
6
8 10 12 14 16 18 20
ComponentNumber
図 6 ϕ0 = 0.1 における学習モデルのコンポーネント数と変分自由エ
33
32
31
30
29
28
28500
30000
図9
31400
phi10
31200
31500
33000
34500
36000
Variational Free Energy
ネルギー
Variational Free Eneryg
31500
Variational Free Energy
図 8 ϕ0 = 0.1 の正則な場合
31400
Variational Free Eneryg
110
Generalization Loss
35
Generalization Loss
Generalization Error
0.055
0.05
0.045
0.04
0.035
0.03
0.025
0.02
0.015
0.01
0.005
ϕ0 = 10 の正則な場合
(2) 特異な場合
図 10,11 は,それぞれ ϕ0 = 0.1,K = 20 及び ϕ0 = 10,K = 20
31000
における変分自由エネルギーと汎化損失の関係を表している.
30800
図中の△は汎化損失を最小にした局所解, □は変分自由エネル
30600
ギーを最小にした局所解, ○はそれ以外の局所解をそれぞれ表
30400
している. この場合には局所解の個数が多い. 変分自由エネル
30200
ギーと汎化損失との間に正の相関が見られるが,変分自由エネ
30000
ルギーを最小にする局所解と汎化損失を最小にする局所解は同
じではない. 変分自由エネルギーが最小になるときの汎化損失
29800
2
4
6
8
10 12 14 16 18 20
ComponentNumber
図 7 ϕ0 = 10 における学習モデルのコンポーネント数と変分自由エ
ネルギー
と,汎化損失の最小値の差は,それぞれ,0.1, 0.2 程度である
が,学習データ数が 1000 個であるから,この差は,パラメー
タ数にして 200 個から 400 個分に相当する大きさである. 以上
の結果から,特異な場合には,変分自由エネルギーが最小であ
る局所解と汎化損失が最小である局所解は同じではないことが
(1) 正則な場合
図 8,9 は, それぞれ ϕ0 = 0.1, K = 5 及び ϕ0 = 10,K = 9 に
おける変分自由エネルギーと汎化損失の関係を表している. 横
わかる.
4. 結
論
軸と縦軸はそれぞれ変分自由エネルギーと汎化損失を表してい
変分ベイズ法における自由エネルギーと汎化誤差の関係につ
る. 図中の△は変分自由エネルギーと汎化損失を最小にした局
いて実験的に解析を行った. 人工データでも実データでも,ハ
所解を表しており, ○はそれ以外の局所解を表している. この
イパーパラメータに関わらず (1) 正則な場合には,変分自由エ
結果から,正則な場合には,変分自由エネルギーを最小にする
ネルギーを最小にする局所解は汎化誤差も最小にすることが分
局所解は汎化損失も最小にすることがわかる.
かった. (2) 特異な場合には, 変分自由エネルギーを最小にする
—6—
て,”電子情報通信学会・情報論的学習理論と機械学習研究会,
2011 年 11 月
NumberComponent=20 phi=0.1
Generalization Loss
29.8
29.6
29.4
29.2
29
28.8
28.6
28.4
29600
30000
30400
30800
31200
Variational Free Energy
図 10 ϕ0 = 0.1 における特異な場合
NumberComponent=20 phi=10
Generalization Loss
31
30.5
30
29.5
29
28.5
30000 30400 30800 31200 31600 32000
Variational Free Energy
図 11
ϕ0 = 10 における特異な場合
局所解は汎化誤差を最小にするとは限らないことが分かった.
今後の課題として, さらに多くの実データに対して同じ結論と
なるのか考察を行いたい.
謝辞. 本研究では科学研究費補助金 23500172 を受けた.
文
献
[1] H. Attias, Inferring parameters and structure of latent variable models by variational Bayes. In Proc. of UAI, pp.
21-30, 1999.
[2] Z. Ghahramani, M.J.Beal, “Graphical models and variational methods,” Advanced Mean Field Methods-Theory
and Practice, MIT Press.
[3] Jaakkola, T. S.
, & Jordan, M. I. (2000). Bayesian
parameter estimation via variational methods. Statistics
and Computing, 10, 25-37.
[4] Kenji Nagata, Sumio Watanabe,“Asymptotic Behavior of
Exchange Ratio in Exchange Monte Carlo Method,” International Journal of Neural Networks, Vol. 21, No. 7,
pp. 980-988, 2008.
[5] 田崎晴明, “統計力学 II,” 培風館, 2008.
[6] Kazuho Watanabe, Sumio Watanabe,”Stochastic complexities of gaussian mixtures in variational bayesian approximation,” Journal of Machine Learning Research,Vol.
7, pp.625-644, 2006.
[7] S. Watanabe. Algebraic geometry and statistical learning theory.Cambridge University Press, Cambridge, UK,
2009.
[8] 中村文士,渡辺澄夫, “変分ベイズ学習の局所解の構造につい
—7—