コンテキスト情報を利用した人物識別の改良と機械学習の適用 - PLUTO

「画像の認識・理解シンポジウム (MIRU2011)」 2011 年 7 月
コンテキスト情報を利用した人物識別の改良と機械学習の適用
小松 和朗†
嶋田 和孝††
遠藤
勉††
† 九州工業大学大学院情報工学府
〒 820-8502 福岡県飯塚市川津 680-4
†† 九州工業大学大学院情報工学研究院 知能情報工学研究系
〒 820-8502 福岡県飯塚市川津 680-4
E-mail: †{k komatsu,shimada,[email protected]
あらまし 本稿では,隠れに頑健な人物識別手法として,顔特徴とコンテキスト情報を用いた手法について報告する.
人物識別においては,衣服や時間情報は重要なコンテキスト情報になりうる.本研究では HOG に基づき得られた衣
服特徴と,画像データの撮影時間や曜日などの時間特徴をコンテキスト情報として新たに導入する.顔に隠れが生じ
た画像に対して,顔特徴のみでの識別結果と本手法を用いた識別結果を比較することで,本手法で取得したコンテキ
スト情報の有効性を確認する.また,各特徴量に対する重みづけを機械学習によって自動化する.人手による手動で
の重みづけによる識別結果と機械学習による自動での重みづけによる識別結果を比較することで,機械学習を用いる
ことの有効性を検証する.
キーワード
人物識別,コンテキスト情報,顔特徴,HOG,時間特徴,機械学習
1. は じ め に
顔の隠れに対する対応もある.実環境下では,サングラ
スやマスク,帽子などによって顔の一部が隠れることは
近年,人物識別が様々なタスクにおいて重要な役割を
十分に起こりうる.この顔特徴の欠損問題にコンテキス
持ってきている.例えば,セキュリティ分野では,駅や
ト情報を用いて対応した研究として,山口らの人物識別
空港,ショッピングモールなどの公共の場において,監視
手法 [3] がある.山口らは衣服から取得した特徴をコン
カメラの映像に映る不特定多数の人々の中から特定の人
テキスト情報として加え,それらを統合することで顔の
物を探し出すためなどに用いられている.また,ロボッ
隠れに頑健な人物識別を図っている.
トの分野でも,生活支援ロボットや受付ロボットなど,
本研究では,研究室やオフィスなどにおいて顔の一部,
人間とコミュニケーションをとるロボットとの対話にお
また,顔全体に隠れが生じた状態での人物識別を想定し,
いて,より高度なコミュニケーションを行うために相手
山口らが提案した人物識別手法を以下のように改良する.
の情報を得る手段として用いられている.この人物識別
であるが,用いられる特徴には様々なものがあり,指紋,
虹彩,音声,顔,筆跡,シルエット,ジェスチャなどが
• HOG に基づく衣服特徴と時間情報に基づく時間特徴の追加
• 機械学習による自動での重みづけの適用
あげられる.これらの特徴の中でも,特に顔特徴を用い
画像処理において有効性がある手法である HOG が山口
た人物識別は対象者に意識させずに非接触で実現できる
らの手法では用いられていないこと,時間情報が Gal-
ため様々な分野で用いられている [1].
lagher らの提案したコンテキスト情報に当てはまること
から,新たな手法で取得した特徴量がコンテキスト情報
として有効であるかの検証を行う.また,山口らの手法
では顔特徴と衣服特徴の類似度統合時に手動での重みづ
けを行っているため,データの変更があった場合の頑健
性に問題がある.この問題を解決するために特徴量の統
合時に機械学習による自動での重みづけを行うことが有
効であるかの検証を行う.
本論文は,本章を含めて 5 章から構成され,第 2 章で
は本研究のベースとなる人物識別として,衣服特徴をコ
ンテキスト情報として用いた先行研究を紹介する.続い
て,3 章では本研究の提案手法の概要,4 章では実験と
その考察について述べる.最後に 5 章でまとめる.
しかしながら,顔特徴のみによる手法では,対応する
ことが困難な様々な問題がある.このような問題の解決
方法として,コンテキスト情報の利用が挙げられる.コ
ンテキスト情報とは,衣服や時間など顔特徴以外で人物
識別に役立つ特徴のことである.Gallagher ら [2] は双子
や姉妹のような顔の似た人物の画像のデータベースに対
し,コンテキスト情報が顔特徴を用いた人物識別にどの
程度影響を与えるかを調べるために実験を行った.実験
の結果,顔のみの画像で 58 %,衣服まで含む画像で 88
%という平均正解識別率を得た.この結果は衣服を使う
ことで顔の似た人物に対する人物識別を改良できる可能
性を示しており,コンテキスト情報は人物識別に有効で
あると Gallagher らは述べている.また別の問題として,
2. 先 行 研 究
本章では,衣服特徴をコンテキスト情報として用い,
顔の隠れに頑健な人物識別を行った先行研究を紹介する.
2. 1 先行研究の概略
山口らの手法による人物識別手法の概略を図 2.1 に示
す.まず,USB カメラから人物画像を取得する.次に,
顔特徴類似度算出部では図 2.2 のような顔領域を検出し,
その検出領域から特徴量を取得する.そして,その特徴
量とデータベースの学習データを用いて類似度を求める.
• 色ヒストグラム特徴
HSV 表色系に基づき得られた値により作成されたヒスト
グラムから得られる特徴
• モザイク画像の色特徴
衣服画像のモザイク化により取得できる局所的な色特徴
• パワースペクトル画像特徴
2 次元離散フーリエ変換による周波数分解で得られたパワー
スペクトルから画像を生成し,その画像の画素値から取得
した特徴
• 高次局所自己相関特徴
着目した輝度値に様々な種類のマスクパターンを適用する
ことで得られる特徴
衣服特徴類似度算出部でも図 2.3 のような衣服領域を検
出し,顔特徴と同様にして類似度を求める.求められた
それぞれの類似度は統合部で統合され,最後に人物の識
w
別結果を出力する.
顔特徴検出
学習
データベース
特徴抽出
類似度算出
検出領域
衣服特徴検出
特徴抽出
類似度算出
学習
データベース
大きさの
正規化
グレースケール化
特徴ベクトル
図 2.4 顔領域からの特徴抽出例.
統合
入力画像
…w× h
h
識別
Point(x, y) = (a, b)
Point(x, y) = (a, b+1.4
× H)
図 2.1 山口らの手法の概略図.
Point(x, y) = (a, b)
Height
=H
Width
=W
図 2.2
類似度算出に用いる顔領域 (左から正面顔,右目,左
目,鼻,口).
図 2.5
× H)
Point(x, y) = (a, b+1.4
Height
=H
Width
=W
衣服領域の検出方法.
山口らの手法では取得した顔領域の各特徴量と衣服特
徴量の統合を式 (2.1),式 (2.2) のように行っている.
Su = α× Sf + β× Sc
{
図 2.3 類似度算出に用いる衣服領域の例.
Sf = Sf ace + Sreye + Sleye + Snose + Smouth
Sc = Shist + Smosaic + Sf ourier + Smask
(2.1)
(2.2)
Sf は顔特徴類似度算出部で求められる類似度,Sc は
2. 2 領域検出と特徴抽出
顔特徴の検出では,Viola ら [4] が提案し,Lienhart
衣服特徴類似度算出部で求められる類似度,Su は顔特徴
類似度と衣服特徴類似度を統合した類似度を表している.
ら [5] によって改良された物体検出器に,元吉ら [6] に
よって追加された処理に基づく検出方法を利用する.ま
式 (2.2) において,Sf ace は正面顔領域から得られた類似
ず,入力画像から正面顔,右目,左目,鼻,口の検出を
領域から得られた類似度,Snose は鼻領域から得られた
行う.検出された正面顔,右目,左目,鼻,口の各領域
から図 2.4 のように特徴量として画素値を特徴ベクトル
類似度,Smouth は口領域から得られた類似度を表して
として求める.求めた特徴ベクトルに CLAFIC 法 [7] を
適用することで各領域の類似度を求める.
Smosaic はモザイク画像の色特徴による類似度,Sf ourier
はパワースペクトル画像特徴による類似度,Smask は高
次局所自己相関特徴による類似度を表している.顔特徴
類似度算出部で求められる類似度と衣服特徴類似度算出
部で求められる類似度では,それぞれスケールが異なる.
そのため,統合時にスケールが一定になるようにスケー
また,衣服は顔の下にあるという仮定の下,図 2.5 の
ように衣服の領域を検出を行って衣服領域を検出する.
その際,山口らの手法では衣服領域の特徴量には以下の
4 つを用い,それぞれの特徴量で類似度を求める.
度,Sreye は右目領域から得られた類似度,Sleye は左目
いる.また,Shist は色ヒストグラム特徴による類似度,
学習データ
リングを行う.
また,顔特徴のみでも高い精度が得ることができるこ
テストデータ
類似度算出(顔・衣服・時間)
とが実験的に分かっているため,統合時に式 (2.1) のよ
うに重みづけを行う.山口らは実験的に Sf の重み α を
機械学習用学習データ
1.0,Sc の重み β を 0.5 と設定している.
3. 提 案 手 法
学習・評価
本章では,本研究で提案する新たなコンテキスト情報
結果出力
と特徴量の統合時に機械学習を適用することについて述
べる.まず,山口らの手法での問題点を述べた後,解決
図 3.1 提案手法の概略図.
策として新たなコンテキスト情報の実装,機械学習の適
用について述べる.最後に本研究の提案手法の概要を述
べる.
3. 1 提案手法概要
山口らの手法ではコンテキスト情報として 4 つの衣服
特徴を用いており,顔に隠れが生じない場合における人
物識別は非常に優れた結果を挙げている.しかし,新た
なコンテキスト情報を追加することでより識別率の向上
が見込まれる.また,顔特徴と衣服特徴の統合時には手
動での重みづけを行っており,データの変更があった場
合,現在の重みが最適であるとは限らない.そのため,
手動で設定した重みの値の頑健性について議論が残る.
3. 1. 1 本研究で用いる手法
本研究では,先ほど述べた山口らの手法の問題点に対
して以下の改良を行っている.3.2 節以降から具体的な
説明を行う.
• 新たなコンテキスト情報の実装
HOG [8],時間情報
• 自動での重みづけ手法の適用
Adaboost [9],C4.5 [10]
新たなコンテキスト情報の実装では,画像処理におい
て有効性が確認されている HOG 特徴と時間情報から得
られる時間特徴をコンテキスト情報として実装する.重
みづけの自動化では,類似度統合時において上記の機械
る.その中で高次局所自己相関特徴という輝度値に基づ
く特徴に着目する.
近年の画像処理研究において,輝度値に基づく特徴
量を用いる手法が注目されている.その 1 つである
HOG(Histglams of Oriented Gradients) は,2005 年に
Navneet Dalal と Bill Triggs によって提唱された特徴
量 [8] であり,入力画像の輝度勾配を求め,局所領域ご
とに勾配方向で区間分割してヒストグラム化することで
特徴量を得ることができる.HOG で得られた特徴量は,
局所的な幾何学的変化・明度変化に対して不変であるが,
回転・スケール変化に対しては不変ではないとされてい
る.しかし,一定領域に対する特徴量を算出することが
できるため,大まかな物体形状を表現することが可能で
ある.そのため,人検出や車体検出等の一般物体認識等
に用いられている [12].
そこで,本研究では HOG に基づき得られた衣服特徴
をコンテキスト情報として適用し,その有効性を検証
する.
3. 2. 1 HOG に基づく衣服特徴抽出
以下に HOG 特徴量の算出法について述べる.
Step1 入力画像を一定サイズに正規化する.
Step2 各ピクセルにおける勾配強度 m と勾配方向θを
式 (3.1),式 (3.2),式 (3.3) を用いて算出する (図 3.2).
√
m(u, v) = fu (u, v)2 + fv (u, v)2
(3.1)
学習による自動での重みづけを行う.なお,実装の際に
はデータマイニングツールである Weka [11] を使用する.
θ (u, v) = tan−1
3. 1. 2 提案手法概略図
本研究で提案する手法の概略図を 3.1 に示す.まず,
学習データ,テストデータの 2 種類のデータを用意する.
これらのデータに山口らの類似度算出手法を適用するこ
とで画像の類似度を算出する.次に,算出された各類似
度を用いて機械学習を行い,学習・評価した結果を用い
て人物識別を行う.
{
3. 2 HOG
山口らの先行研究では色ヒストグラム特徴,モザイク
画像の色特徴,パワースペクトル画像特徴,高次局所自
己相関特徴の 4 つの手法を用いて衣服特徴を取得してい
機械学習用テストデータ
fv (u, v)2
fu (u, v)2
fv (u, v) = I(u + 1, v) − I(u − 1, v)
fu (u, v) = I(u, v + 1) − I(u, v − 1)
(3.2)
(3.3)
Step3 算出された勾配強度 m と勾配方向θを用いて,
5 × 5 ピクセルを 1 セルとした領域における輝度勾配ヒ
ストグラムを作成する.勾配方向は 0◦ ―360◦ であるが,
勾配方向の向きを考慮する必要がないため 0◦ ―180◦ と
する.これを 20◦ ずつに分割するため,9 方向の輝度勾
配ヒストグラムが作成される.
Step4 各セルで作成した輝度勾配ヒストグラムを 3 ×
3 セルを 1 ブロックとして正規化を行い特徴量 F h を算
画像データ
出する.正規化はブロックを 1 セルずつずらしながら全
領域に対して行う.
ed
ed eudt uitn
uit in ag
gna gamm
m
ブロック
セル
ピクセル
入力画像
ブロック・セルに分割
0°
0°
0°
180°
180°
180°
各セルの勾配方向ヒストグラム
(9方向ヒストグラム)
図 3.2 輝度勾配の算出および輝度勾配ヒストグラムの作成.
3. 2. 2 HOG に基づく衣服特徴の類似度算出
HOG に基づく衣服特徴の類似度算出には,衣服特徴
の学習データとテストデータのセルごとの特徴量の差
分を求め,それを全てのセル分合計する.HOG 特徴の
類似度 Shog を算出するにあたり,式 (3.4) を用いる.式
(3.4) において,F htest はテストデータのセルの特徴量,
F hstd は学習データのセルの特徴量,C はセルの総数を
表している.
Shog =
C ∑
C
∑
(F htesti − F hstdj )2
(3.4)
i=1 j=1
なお,HOG 特徴の類似度 Shog は,2.1.1 節で述べた
式 (2.2) の衣服特徴類似度算出部 Sc に追加されるため,
衣服特徴類似度算出部 Sc は式 (3.5) のようになる.
Sc = Shist + Smosaic + Sf ourier + Smask + Shog (3.5)
3. 3 時 間 情 報
抽出
プロパティ
撮影日時:
撮影日時: 2010/10/21 12:02
大きさ:1920×1080
幅:1920ピクセル
高さ:1080ピクセル
カメラの製造元:Panasonic
カメラのモデル:…
時間情報
日付:2010/10/21
撮影時間:12:02
曜日:木曜日
*曜日は日付より算出
図 3.3 時間特徴の情報抽出例.
3. 3. 2 時間特徴の類似度算出
時間特徴の類似度算出には,学習データの最頻値と
テストデータとの差分を用いて算出する.最頻値とは,
データの出現率が最大の値のことである.最頻値は平均
値などとは異なり,外れ値の影響を受けないため,デー
タの特性が掴みやすいという特徴がある.また,撮影時
間は 24 種類の時間帯,曜日は 7 種類の曜日のサイクル
で構成されていることに着目する. これは,最頻値とテ
ストデータとの距離を類似度とするためである.例えば
撮影時間特徴の類似度算出において,1 時と 23 時との距
離を単純に差分で求めると 22 となるが,実際の距離は 2
であり,後者の数値が類似度として妥当であると考えら
れる.
時間特徴の類似度算出式を式 (3.6) に示す.
ST = St + Sd
(3.6)
本研究は研究室やオフィスなどの限定された空間にお
式 (3.6) において,ST は撮影時間特徴の類似度 St と曜
ける人物識別を想定している.上記のような限定された
日特徴の類似度 Sd を統合した値を表している.以下に
空間ではある特定の人物による入退室が多く,入退室の
時間情報に基づく時間特徴の類似度算出方法について述
時間帯や曜日が習慣的になることが容易に想像できる.
べる.
このことから,時間情報もコンテキスト情報として有効
Step1 学習データを時間帯別・曜日別にそれぞれ集計し
であると考えられる.
た後,カウント数を比較することで最頻値 M o を求める.
そこで,本研究では撮影時間に基づく時間特徴及び曜
日に基づく時間特徴をコンテキスト情報として適用し,
その有効性を検証する.以降,撮影時間に基づく時間特
徴を撮影時間特徴,曜日に基づく時間特徴を曜日特徴と
呼ぶことにする.
3. 3. 1 時間情報からの特徴抽出
時間情報としては,日付,曜日,入退室の時間帯,滞
在時間などが挙げられる.図 3.3 のように,画像の撮影
時間から先ほど列挙した時間情報を取得して数値化する
ことで特徴抽出を行う.本研究では撮影時間と曜日を時
間情報として用いる.
Step2 最頻値 M o とテストデータの時間特徴 Ftest の差
分の絶対値を求め,正規化後にその絶対値を 1 から引い
た値を時間特徴の類似度とする.
この算出方法を撮影時間情報,曜日情報に適用すると
式 (3.7) のようになる.
{
−F ttest |
St = 1 − |M otSV
t
(3.7)
−F dtest |
Sd = 1 − |M odSV
d
式 (3.7) において,式中の語句は以下を表している.
• M ot ,M od
学習データの撮影時間特徴・曜日特徴からそれぞれ算出し
た最頻値
• F ttest ,F dtest
テストデータの撮影時間特徴・曜日特徴からそれぞれ算出
した特徴量
• SVt ,SVd
正規化する時に用いたスケーリング値
なお,正規化する時に用いたスケーリング値 SVt ,SVd
は,実験結果の解析を行った後に最適な値を手動で設定
した.
本研究では 2.2 節の式 (2.1) に式 (3.6) を追加した評価
式 (3.8) を用いる人物識別判定手法をスコアリング判定
と定義する.
Su = α× Sf + β× Sc + γ× ST
(3.8)
なお,ST にかける重み γ であるが,様々な値を検証し
た結果,1.0 が最も良い影響を与えていたことからこの
3. 4. 2 C4.5
C4.5 は,Quinlan ら [10] が考案した決定木学習アルゴ
リズムである.データマイニングを始め,数多くのタス
クにおいて有用な機械学習の 1 つとして知られている.
決定木とは,内部節点が質問を表し,葉節点が予測また
はクラスを表すような木である.C4.5 は属性とクラスで
構成されたデータを与えることで,判別ノードと葉 (ク
ラス) から成る決定木形式で分類器を作成する.C4.5 で
生成される決定木の例を図 3.5 に示す.本研究では,決
定木を生成する際に用いるデータの素性として,各人物
の顔特徴の類似度,衣服特徴の類似度,曜日特徴の類似
度を用いている.
ように設定している.
J48 pruned tree
-----------------mask4 <= 0.979897
| mozaicLAB7 <= 0.864282
| | histHSV1 <= 0.772463
| | | mask2 <= 0.970553
| | | | mask3 <= 0.948729
| | | | | histRGB6 <= 0.730789
| | | | | | mozaicLAB3 <= 0.896056
| | | | | | | hog6 <= 0.299221
| | | | | | | | histRGB5 <= 0.50344
| | | | | | | | | histHSV2 <= 0.750404
| | | | | | | | | | histHSV2 <= 0.61805: m_hadano (12.0)
| | | | | | | | | | histHSV2 > 0.61805: r_tadano (9.0)
| | | | | | | | | histHSV2 > 0.750404: k_komatsu (13.0)
| | | | | | | | histRGB5 > 0.50344
| | | | | | | | | mask3 <= 0.823078: k_komatsu (16.0)
| | | | | | | | | mask3 > 0.823078
・
・
・
3. 4 機 械 学 習
山口らの手法では情報量の統合を式 (2.1) のように行っ
ており,重みの値を実験的に手動で決定している.その
ため実験データを変更した場合,設定した重みの値の頑
健性について議論が残る.
そこで,機械学習により自動で適切な重みづけを行い,
その有効性を検証する.機械学習を適用するにあたり,
事前にどの学習器を最適であるか予備実験を行った結果,
機械学習アルゴリズムに Adaboost,弱学習器には C4.5
を用いた機械学習が本手法に最も適していた.よって,
図 3.5 C4.5 の決定木の例.
本研究での機械学習には上記のアルゴリズムを適用する.
また,機械学習を行うツールとして Weka を用いる.
3. 4. 1 Adaboost
Adaboost は統計的学習手法 boosting の 1 つで,1997
年に Y. Freund ら [9] が提案した機械学習アルゴリズム
である.Boosting とは,単純な予測が可能な弱分類器を
組み合わせて,より高精度な分類器を作成する手法の 1
つである.Adaboost は,数ある Boosting 法の中でも顕
著な性能を示す手法であり,容易に実装が可能で,計算
効率が優れていることで知られている.具体的には,最
初に学習データに等しい重みを与えた後,各繰り返しに
おいて,誤分類した事例の重みを指数的に増やし,より
分別が難しい事例に集中して学習する.Adaboost の例
を図 3.4 に示す.
t = 1 学習データ
重みD
t = 2 学習データ
重みD
1
2
・・
・
弱分類器1
仮説h ×重みα
弱分類器2
仮説h ×重みα
1
2
・・
・
t = T 学習データ
重みD
T
弱分類器T
1
3. 4. 3 Weka
Weka はニュージーランド Waikato 大学で開発された
データマイニングツール [11] である.Weka にはデータ
マイニングのために必要なアルゴリズムが多数収録され
ており,データに対する前処理,アルゴリズムの適用,
結果の視覚化といった作業を GUI 上から容易に行うこ
とができる.
4. 実
3 章で述べた新たなコンテキスト情報の実装と,機械
学習による自動での重みづけを適用した場合についてそ
の有効性を検証する. まず,スコアリング判定について,
HOG に基づく衣服特徴,時間情報に基づく撮影時間特
徴と曜日情報をそれぞれ導入して識別精度比較を行う.
次に,機械学習による自動での重みづけを行いスコアリ
ング判定と識別精度比較を行う.
2
・・
・
4. 1 実 験 環 境
仮説h ×重みα
図 3.4 Adaboost の例.
T
験
実験環境は以下の環境となっている.
T
•
•
•
•
•
•
カメラ:Panasonic DMC-GH1
カメラ設置場所:机上
入力画像サイズ:1920 × 1080
撮影環境:室内,白色蛍光灯下
CPU:Intel Core2 Duo 2.50GHz
メモリ:4.00GB
• 撮影期間:2010/10/20∼2010/12/02
本研究では顔の一部,また,顔全体に隠れが生じた状
況下での人物識別を行う.今回は,サングラスの着用に
の特徴量を,サングラスとマスクの両方着用時は顔特徴
全ての特徴量を削除することで,仮想的に着用している
状態にしている.
より両目が隠れた状態,マスクの着用により鼻と口が隠
れた状態,サングラスとマスクの両方の着用により顔が
全て隠れた状態の 3 つの状態で人物識別を行う.なお,
山口らの手法で顔特徴類似度と衣服特徴類似度を統合し
た類似度 Su を算出する際,式 (3.8) で設定した重みであ
る α,β,γ は,それぞれ適切な値に設定した.
4. 2 実験データ
図 4.2 テストデータ例.
実験データとして,被験者 7 名から学習データ 875 枚
とテストデータ 175 枚を取得した. この学習データとテ
ストデータについて以下で説明する.
4. 2. 1 学習データ
学習データは,1 人の人間が正面を向いて写った画像
を約 1 か月間にわたり撮影した. その画像の一例を図 4.1
に示す.図 4.1 のように,被験者には異なる種類の衣服
を着てもらっている.この学習データを用いて,顔特徴
と衣服特徴の学習を行うが,各被験者の顔特徴は撮影し
た画像のうち,顔特徴が取得可能な画像を被験者 1 名に
つき 125 枚を選んでいる.これを被験者 7 名に対して計
875 枚を用意した.なお,撮影時間情報を被験者 1 名に
つき 25 種類,これを被験者 7 名分用意した.
本実験では山口らの手法に加え,3 章で述べた手法で
特徴量を抽出し,学習用データとしてデータベースに登
録した.
4. 2. 3 評 価 方 法
この実験の評価基準には,識別率を採用した.本研究
の識別率は入力された画像に対して正しく人物を判断で
きる割合を表しており,以下の式で求めることができる.
識別率 (%) =
正しく本人と識別された画像数
全テスト画像数
(4.1)
4. 3 検 証 実 験
4. 3. 1 スコアリング判定による人物識別
3 章で述べた評価式 (3.8) に基づくスコアリング判定
を適用し人物識別を行った.その結果を表 1 に示す.表
中の語句は以下のことを表している.
• PREVScoring :先行研究 [3] の素性のみ
• +HOGScoring :先行研究の素性に HOG 特徴量を追加
• +撮影時間 Scoring :先行研究の素性に撮影時間特徴量を
追加
• +曜日 Scoring :先行研究の素性に曜日特徴量を追加
なお,
「サングラス」はサングラスを着用した状態,
「マ
スク」はマスクを着用した状態,
「サングラス+マスク」
はサングラスとマスクの両方を着用した状態をそれぞれ
表している.
表 1 より,HOG に基づく衣服特徴はマスク着用時に
図 4.1
学習データ例.
4. 2. 2 テストデータ
テストデータは,学習データと同様に 1 人の人間が正
面を向いて写った画像を約 1 か月間にわたり撮影した.
その画像の一例を図 4.2 に示す.学習データと同様に被
験者には異なる種類の衣服を着てもらっている.各被験
者の顔特徴は撮影した画像のうち,顔特徴が取得可能な
画像を被験者 1 名につき 25 枚選んでいる.これを被験
者 7 名に対して計 175 枚用意した.このテストデータを
用いて人物識別を行う.
なお,今回の実験では実際にサングラスやマスクを着
用していない.そのため,サングラス着用時は正面顔と
鼻と口の特徴量を,マスク着用時は正面顔と左目と右目
は 0.5 %,サングラスとマスクの両方着用時には 2.3 %と
識別率の向上がみられた.しかし,サングラス着用時で
は識別率が 1.1 %低下しているなど,HOG に基づく衣
服特徴を用いることにより識別に失敗している画像もあ
る.全体的にみると HOG に基づく衣服特徴は識別率の
向上に有効であるといえる.一方,撮影時間特徴量・曜
日特徴量を追加した場合,識別率が減少するなど,時間
情報の有効性はみられなかった.
表1
スコアリング判定による実験結果.
サングラス
PREVScoring
+HOGScoring
+撮影時間 Scoring
+曜日 Scoring
91.4 %
90.3 %
85.1 %
85.1 %
マスク サングラス+マスク
98.9 %
81.7 %
99.4 %
84.0 %
96.6 %
71.4 %
96.6 %
71.4 %
4. 3. 2 考
察
最初に HOG 特徴量について考察する.まず,山口ら
の設定した素性である高次局所自己相関で得られた衣服
特徴と今回提案した HOG で得られた衣服特徴を用いて
検証を行う.図 4.3 は高次局所自己相関に基づく衣服特
徴では識別に成功し,HOG に基づく衣服特徴では識別
に失敗した衣服画像例である.実験データの解析を行っ
たところ,HOG で識別に失敗した衣服画像というのは
衣服模様がシンプルなものが多く,模様情報がほとんど
取得できないことがわかった.このことから,模様情報
がほとんど取得できない衣服については HOG で取得で
きる特徴量が少なく,その結果,識別率向上につながら
なかったと考えられる.
図 4.3 HOG で識別に失敗した画像例.
また,図 4.4 は高次局所自己相関・HOG の両方とも識
別に失敗した衣服画像例である.これは,設定した衣服
領域内では衣服の形が似ており,輝度勾配で取得できる
特徴量に差異が表れなかったためである.その結果,識
別率向上につながらなかったと考えられる.対策として
は,現在,衣服領域を顔の高さ× 1.4 ピクセル分下の領
域と設定しているが,上記以外に両肩周辺や衣服全体な
られる.また,時間情報そのものから取得できる特徴量
が少ないことも原因の一つとして挙げられる.今回使用
した撮影時間特徴や曜日特徴の他に入退室の時間帯・滞
在時間などの特徴が撮影時間から算出可能であることか
ら,これらの時間特徴を用いることで時間情報の特徴量
増加を図る必要がある.
4. 4 機械学習の検証実験
4. 4. 1 実 験 結 果
機械学習による自動で適切な重みづけを行い,人物識
別を行った.その実験結果を表 2 に示す.また,表中の
語句は以下のことを表している.
•
•
•
•
•
PREVM L:先行研究の素性のみ
+HOGM L:先行研究の素性に HOG 特徴量を追加
+撮影時間 M L :先行研究の素性に撮影時間特徴量を追加
+曜日 M L :先行研究の素性に曜日特徴量を追加
+HOG &撮影時間 M L :先行研究の素性に HOG 特徴量,
撮影時間特徴量を追加
• +HOG &曜日 M L:先行研究の素性に HOG 特徴量,曜日
特徴量を追加
• +撮影時間&曜日 M L :先行研究の素性に撮影時間特徴量,
曜日特徴量を追加
• +ALLM L:先行研究の素性に HOG 特徴量,撮影時間特徴
量,曜日特徴量を追加
• BestScoring :スコアリング判定における識別率の最大値
(表 1 のベスト)
表 2 から,スコアリング判定に比べて,機械学習の適
どを含む領域を新たに衣服領域と設定する.これにより,
用によって識別率がサングラス着用時には最大 5.2 %,
例えば同じ上着を着用している人物が異なるインナーを
サングラス+マスク着用時では最大 13.7 %向上したこと
着用しているなど,現在設定した衣服領域のみの特徴抽
が示された.このことは,機械学習の適用が識別率の向
出だけでは特徴量の差異が現れない場合の誤認識を防ぐ
上に効果があったことを示している.しかし,マスク着
ことができる.また,各領域に最適な手法を適用するこ
用時には識別率が最小で 2.3 %低下するなど,有効性が
とで,より質の高い衣服特徴のみを多く取得できるため,
見られない場合もあった.
衣服特徴によるさらなる識別率向上が期待される.
表2
機械学習を適用した実験結果.
サングラス
PREVM L
+HOGM L
+撮影時間 M L
+曜日 M L
+HOG &撮影時間 M L
+HOG &曜日 M L
+撮影時間&曜日 M L
+AllM L
BestScoring
図 4.4 輝度勾配が有効に機能しない画像例.(真中:識別対象
画像,左下:高次局所自己相関で選択された画像,右
下:HOG で選択された画像)
次に,時間情報について考察する.時間情報の有効性
がみられなかった最大の原因は,学習データに設定した
時間情報が顔情報や衣服情報に比べて少ないことが挙げ
93.7 %
93.7 %
96.0 %
93.7 %
93.7 %
92.6 %
96.6 %
92.6 %
91.4 %
マスク サングラス+マスク
97.1 %
97.1 %
92.6 %
93.7 %
94.9 %
97.7 %
93.1 %
96.6 %
92.6 %
93.7 %
92.6 %
88.6 %
92.6 %
97.7 %
94.9 %
92.6 %
99.4 %
84.0 %
4. 4. 2 考
察
実験の結果を詳細に解析したところ,コンテキスト情
報を含むすべての特徴の中で,目に関する特徴量がもっ
とも重要な要素であり,精度の向上に起因していること
が分かった.(注 1)スコアリングに基づく手法では,顔特徴
(注 1):具体的には,本データにおいては,両目の特徴量のみで識別し
た場合,その精度は 88 %であった.
の重みを衣服特徴と比べ,もともと大きく設定しており,
両目の特徴量が極端に重要視され,補足的に他の特徴量
が扱われた結果,高い精度が得られたのだと考えられる.
一方,機械学習では汎化を行うため,スコアリングと
は異なり重みの値が比較的万遍なく設定される.そのた
め,顔特徴が取得できない場合では,機械学習による重
みづけが手動での重みづけよりも効果があったと考えら
れる.そこで,目の情報が取得できる場合はスコアリン
グ判定を,そうでない場合は機械学習を適用するなど,
特徴量の取得状況によって手法の使い分けを行うことで,
人物識別全体の精度向上につながると考えられる.
5. お わ り に
本研究では,HOG で取得した衣服特徴と撮影時間・
曜日から取得した時間特徴を新たなコンテキスト情報と
して人物識別に利用することで,顔の一部に隠れが生じ
ても高い精度で人物識別が行えるようにした.
本手法では,山口らの手法をベースに,HOG に基づ
き得られた衣服特徴と撮影時間・曜日から取得した時間
特徴を新たにコンテキスト情報として加えた.顔特徴と
衣服特徴,時間情報の特徴量を抽出した後に類似度のス
ケールを統一し,機械学習を行った.機械学習により自
動で重み付けを行われた類似度を利用することで人物識
別の精度向上を図った.
実験では顔の一部,また,顔全体に隠れが生じた場合
を想定し,本手法を用いることで手法の有効性を確認し
た.実験結果より,新たに追加したコンテキスト情報が
一定の条件下における人物識別に対して有効性が確認さ
れた.また,特に顔特徴が全く取得できない場合におい
て,機械学習による自動での重みづけの有用性が確認さ
れた.
今後の課題としては,より頑健なシステムを目指して,
衣服領域検出の改良や,統合手法の改善,他のコンテキ
スト情報の追加が必要である.本研究ではテストデータ
が学習データのどれにも当てはまらない場合は部外者
であるという判定を行っていない.そこで,閾値を設け
ることで部外者を棄却するなどの対応も必要になってく
る.また,現在は時間情報として撮影時間と曜日をコン
テキスト情報として利用しているが,撮影時間から取得
可能な特徴量である入退室の時間帯,滞在時間等がコン
テキスト情報として有効であるかを検証していく必要が
ある.さらに,取得できた特徴によって手法の使い分け
を行うことで人物識別全体の精度向上につながると考え
られるため,最適な手法の使い分けについて検証する必
要がある.
文
献
[1] 井尻 善久,S. Lao,村瀬 洋.“実用化に向けた顔画像処
理技術”,電子情報通信学会技術報告書,電子通信学会,
PRMU2009-237,pp.107-112, 2010.
[2] A. C. Gallagher and T. Chen.“Using Context to Recognize People in Consumer Images”, IPSJ Transactions on Computer Vision and Applications, Vol.1,
pp.115-126, 2009.
[3] 山口 純平,嶋田 和孝, 榎田 修一, 江島 俊朗, 遠藤 勉.“顔
特徴とコンテキスト情報に基づく人物識別”,日本知能情
報ファジィ学会誌 知能と情報,Vol.23, No.2,pp.13-22,
2011.
[4] P. Viola and M. Jones.“Robust Real-time Object Detection”, Second International Workshop on Statistical and Computational Theories of Vision-Modeling,
Learning, Computing, and Sampling, pp.1–25, 2001.
[5] R. Lienhart, A. Kuranov and V. Pisarevsky.“Empirical Analysis of Detection Cascades of Boosted Classifiers for Rapid Object Detection”, MRL Technical
Report, 2002.
[6] 元吉 大介, 嶋田 和孝, 榎田 修一, 江島 俊朗, 遠藤 勉.
“ロボットとの対話のための発話推定に関する事例研究”,
画像の認識・理解シンポジウム (MIRU2008), 2008.
[7] S. Watanabe and N. Pakvasa.“Subspace method inpattern recognition”, Proc. 1st Int. J. Conf on Pattern
Recognition, Washington DC, pp.2-32, 1973.
[8] N. Dalal and B. Triggs.“Histograms of Oriented Gradients for Human Detection”, In Proc. IEEE Conf.
on Computer Vision and Pattern Recognition 2005,
Vol.1, pp.886-893, 2005.
[9] Y. Freund and R. E. Schapire.“A decision-theoretic
generalization of on-line learning and an application
to boosting”. In Computational Learning Theory:
Eurocolt ’95, pp.23-37, Springer-Verlag, 1995.
[10] J. R. Quinlan.“C4.5:Programs for machine learning”,Morgan Kaufmann (1993).
[11] S. R. Garner.“WEKA: the Waikato environment
for knowledge analysis”. In: Proceedings of the New
Zealand Computer Science Research Students Conference, pp.57-64, 1995.
[12] 山下 隆義,藤吉 弘亘.“特定物体認識に有効な特徴量”,
情報処理学会 研究報告 CVIM 165, pp.221-236, 2008.