分散ストリーム処理基盤Stormと 言語モデリングによる新情報を含む文書

DEIM Forum 2015 E4-3
分散ストリーム処理基盤 Storm と
言語モデリングによる新情報を含む文書の検出
川原
駿†
関
和広††
上原邦昭 †††
† , † † † 神戸大学大学院システム情報学研究科 〒 657–8501 兵庫県神戸市灘区六甲台町 1-1
†† 甲南大学知能情報学部 〒 658–8501 兵庫県神戸市東灘区 8-9-1
E-mail: †[email protected], ††[email protected], †††[email protected]
あらまし
Wikipedia などの知識ベースは複数の編集者によって記事の編集が行われている.しかし,オンライン
ニュースやソーシャルメディアなど近年の情報爆発により,適切な編集・更新が追い付いていないのが現状である.そ
こで本論文では,ウェブ上の膨大な情報を自動的にフィルタリングし,知識ベースの記事の更新が必要となるような
新情報を実時間で検出するシステムを提案する.新情報の検出には,言語モデリングを用いた 2 段階のフィルタを構
築する.このフィルタを分散ストリーム処理基盤 Storm 上に実装することにより,大規模ストリームデータのフィル
タリングを可能とする.TREC KBA Stream Corpus を用いた実験により,提案システムの有効性を示す.
キーワード
不適合フィードバック,リアルタイム,並列分散,TREC,KBA,Wikipedia
1. は じ め に
Wikipedia や Freebase に 代 表 さ れ る よ う な 知 識 ベ ー ス
されたシステムには 3 つの問題がある.すなわち,大規模な
ストリームデータをどのように扱うかが考慮されていないこ
と,分類モデルの学習に要するデータが少ない点を考慮できて
(Knowledge base)には膨大な数の記事が蓄積されており,
いないこと,関連する文書の中から記事の更新が必要となるよ
多くの人々に利用されている.実際に Wikipedia の英語版には
うな新情報をうまく区別できていないことである.本研究で
450 万件以上の記事が存在する.これらの記事は少数の人間に
提案するシステムは,分散リアルタイム処理システム Apache
より管理されており,英語版 Wikipedia の記事の編集者(管理
Storm (注 2) 上に構築し,大規模なストリームデータをリアルタ
者)はおよそ 1300 人存在している (注 1).単純に 450 万件の記
イムに処理することを可能としている.また,学習データの不
事を 1300 人で管理するなら,1 人当たり 3500 件近い記事を担
足に関しては非関連文書のデータを用いて不適合フィードバッ
当しなければならない.一方で,近年は Twitter などの SNS
クを行うことにより対処し,記事の更新が必要となるような情
やブログサービスを利用して誰でも気軽に情報発信を行えるよ
報を表す言語モデルを構築してその区別を行う.
うになっており,ウェブ上ではこの瞬間にも新たな情報が次々
本論文の構成は以下の通りである.まず,2 章で過去に Vital
と発信されている.Wikipedia の記事の編集者は,これらの情
Filtering タスクで提案されたシステムを説明し,その問題点を
報を逐一確認して記事に反映させなければならないものの,発
明らかにする.3 章では,Apache Storm の概要と提案システ
信される情報が多すぎるため,現実には多くの記事において情
ムの構造を述べ,4 章では TREC KBA Stream Corpus を用
報が反映されるまでに 1 年もの時間を要することも少なくな
いて実際にフィルタリング実験を行い,その結果を考察する.
い [7].
最後に,5 章で本論文のまとめと今後の課題を述べる.
そこで本研究では,ウェブ上の情報を自動的にフィルタリン
グし,知識ベースの記事の更新が必要となるような新情報を
2. 関 連 研 究
実時間で検出するシステムを提案する.以降,知識ベースの記
過去の Vital Filtering タスクにおいて,多くの新情報検出シ
事の見出しとなっている人物・施設・組織や概念を「エンティ
ステムが提案されている.Liu ら [10] や Dietz と Dalton [5] な
ティ(entity)」と呼ぶ.例えば,
「バラク・オバマ」「ホワイト
どは,ターゲットとしているトピックに関連するトピックの情
ハウス」「民主党」などは全てエンティティである.本研究で
報を利用することで,分類に必要な情報を拡張する手法を提案
提案するシステムは,エンティティに関連する新情報を検出
している.Abbes ら [1] を始めとしたいくつかの研究チームは,
することを目的とする.このようなシステムの開発は,情報
トピックに関するキーワードの文書中での出現位置や,過去数
検索の国際ワークショップである Text REtreival Conference
時間以内にトピックについて言及された文書の数を素性とし
(TREC)の Knowledge Base Acceleration(KBA)トラック
て利用している.Kenter [8] を始めとしたいくつかの研究チー
の Vital Filtering タスク [6] でも課題とされており,盛んに研
ムは,コサイン類似度やジャカード類似度などの言語情報を
究が行われている.しかし,このタスクの参加者によって提案
利用した文書とトピックの類似度を用いている.また,Wang
(注 1):http://ja.wikipedia.org/wiki/Wikipedia:全言語版の統計 参照
(注 2):http://storm.apache.org/
ら [12] や Bellogin ら [3] は上記に挙げた手法や素性を全て利用
!
)+,
%$ *
して分類器を構築している.ただし,Bellogin らを始めとした
多くの研究チームはトピック毎に分類器を構築しているのに対
し,Wang らは全てのトピックで共通の分類器を 1 つ構築する
!"#$!
#)!
('&
%&"'$!
('&
#)!
#)!
('&
!"#$!
ことで学習データの不足に対応し,最もよい性能を示した.し
ないことが問題となる.本研究では,非関連文書のデータも利
用することにより学習データを確保し,トピック毎の言語モデ
#)!
('&
!"#$!
かし,この手法ではトピックに特有の特徴を捉えることができ
!
&#)
('
%&"'$!
!"#$!
ルを構築することで,この問題に対処する.
('&
#)!
上記に挙げた素性のほとんどは記事の更新が必要となるよ
#)!
('&
!"#$!
#)!
('&
うな新情報をうまく区別できないことも問題である.例えば,
bag-of-words や TFIDF などを素性として文書やトピックをベ
図 1 Storm のトポロジー.
クトル化し,その類似度を計算するだけでは,トピックに関連
する文書かどうかを判断するのには有効だとしても,その文書
タストリーム上のデータを Storm で扱える「タプル」(tuple)
が新情報を含むかどうかの判断には有効ではない [2].そこで本
という形式のデータに変換する.本システムの場合は,処理す
研究では,2 つの言語モデルを構築し,そのいずれかを使用す
る文書 1 件 1 件をタプルに変換する.ボルトはストリームか
る.1 つは,知識ベースの記事を言語モデル化したものである.
らタプルを受け取り,定義された処理をタプルに対して実行す
そして,このモデルとの類似度が低い文書に新情報が含まれて
る.そして,必要があれば新たなストリームにタプルを送り出
いると判断する.これは,知識ベースに掲載されている内容と
す.本システムの場合は,ストリームから文書タプルを受け取
類似した文書は新情報を含む可能性が低いと考えられるからで
り,その文書が関連文書であれば新たなストリームに送り出す
ある.もう 1 つは,過去に新情報を含むと判断された文書にお
ボルトを構築する.また,各ボルトは並列に実行され,並列数
ける頻出語から構築した言語モデルである.新情報を含む文書
はユーザが指定することができる.
に共通して現れる単語を含むような文書もまた,新情報を含む
可能性が高いと考え,このモデルとの類似度が高い文書に新情
報が含まれていると判断する.
3. 2 システムの概要
図 2 は提案システムのトポロジーを示したものである.入力
スパウト(input spout)はデータストリーム上の文書を文書タ
また,上記に挙げたシステムはいずれも際限なく発信されて
プルに変換し,表記名フィルタ(sfn filter bolt)ではエンティ
くる文書,即ちストリームデータの扱いについて考慮されてい
ティの表記名(surface form name;SFN)を含む文書かどうか
ない.つまり,仮にコーパスによる実験で高い検出能力を示し
を判定する.そして,関連文書フィルタ(relevant filter bolt)
たとしても,大規模なストリームデータに対応できるとは限
では関連文書かどうかを判定し,重要文書フィルタ(vital filter
らない.本研究では,分散リアルタイム処理システム Apache
bolt)では文書が新情報を含むかどうかを判定する.このよう
Storm を導入し,大規模なストリームデータの処理が可能なシ
に,フィルタリング処理は 2 段階に分けて行う.各ボルトは文
ステムを提案する.
書タプルを並列に処理する.以下,各ノードについてもう少し
3. 提案システム
本研究で提案するシステムは,分散リアルタイム処理システ
ムである Apache Storm 上に,2 段階のフィルタリングシステ
ムを構築する.そこで以下では,まず Apache Storm について
説明してから,フィルタリングシステムの概要,詳細を述べる.
詳しく説明していく.
入力スパウトはデータストリーム上の個々の文書を文書タ
プルに変換し,表記名フィルタに送り出す.なお,各文書は予
め 3. 3 節で説明する前処理が行われている.
表記名フィルタは文書タプルがエンティティの表記名を含む
かどうかをチェックし,表記名を含む文書タプルのみを関連文
3. 1 Apache Storm
書フィルタに送り出す.エンティティの表記名は 1 つのエンティ
Apache Storm とは,分散リアルタイム処理システムであり,
ティにつき複数存在する.例えば,
「バラク・オバマ」というエ
際限のないデータストリームの処理を可能とする.ユーザは
ンティティの表記名は「バラク・オバマ」「バラク・フセイン・
図 1 に示すような「トポロジー」
(topology)を定義し,Storm
オバマ」
「バラク・H・オバマ」などがある.これらの表記名の
クラスタ上に起動するだけでストリーム処理を実装すること
うち少なくとも 1 つでも含む文書タプルのみを関連文書フィル
ができる.トポロジーとは処理の流れを表したグラフ構造のこ
タに送り出す.
とである.トポロジーの各節点には処理を定義し,各節点間の
枝
(注 3)
によりデータの流れを定義する.
節点は 2 種類存在し,それぞれ「スパウト」(spout),
「ボル
ト」
(bolt)と呼ぶ.スパウトはストリームの発生源であり,デー
関連文書フィルタは文書タプルが関連文書かどうかを判定し,
関連文書と判定された文書タプルのみを重要文書フィルタに送
り出す.関連文書かどうかの判定には,非関連文書モデルを利
用する.詳細は 3. 4 節で述べる.
重要文書フィルタは,関連文書フィルタにより関連文書と判
(注 3):枝のことを「ストリーム」(Stream)と呼ぶ.
定された文書が新情報を含むかどうかを判定し,その判定結果
とともに出力ボルト(output bolt)に送り出す.なお,以後文
NLM)を利用する.
書が知識ベースの記事の更新が必要となるような新情報を含む
MultiNeg はアドホック検索の検索結果を,非関連文書を利
場合を「重要」(vital)であると呼ぶことにする.一方,関連
用した不適合フィードバックにより改善するために提案された
文書ではあるが「重要」ではない文書は「準重要」
(useful)で
モデルであり,検索結果の適合度が低いクエリに対する検索に
(注 4)
あると呼ぶことにする
.さらに,
「重要」と判定された文書
有効であることが示されている.MultiNeg では,非関連文書
はモデル更新器(wikipedia update bolt)(詳細は 3. 6 節で述
モデルと検索対象の文書の言語モデルの類似度により,文書の
べる)にも送り出す.
「重要」であるかどうかの判定には知識
関連度を調節する.なお,ここで言う非関連文書とは,初期の
ベースモデルまたは重要文書モデルのいずれかを利用する.詳
検索結果のうちクエリに非関連であった文書のことを指す.例
細は 3. 5 節で述べる.
えば,ユーザがアップル社に関する情報を検索したい場合を考
最後に,並列に処理された重要文書フィルタのフィルタリン
グ結果を出力スパウトで受け取って出力する.
える.クエリとして「アップル」を利用し,もしりんごに関す
る文書が検索結果に含まれていたら,これらの文書は非関連文
書である.
MultiNeg では非関連文書集合 L = {l1 , ..., lf } から非関連文
+,-./0!
(,$-.'!"-+.')*
書モデル Θ = {θ1 , ..., θf } を構築する.モデルの推定には EM
アルゴリズム [4] を利用する.MultiNeg を利用する場合は,ク
!"#$%&'!
("#$!%&'()!*+&')*
エリとの類似度計算にカルバック・ライブラー情報量検索モデ
ル [9] を利用する.カルバック・ライブラー情報量検索モデル
1234$%&'!
()(&(/0$'!%&'()!*+&')*
に基づく類似度は式 (2) のようにクエリ q の文書 d に対する負
のカルバック・ライブラー情報量で表される.
5634$%&'!
(/,'0&!%&'()!*+&')*
S(q, d) = −D(θq ||θd ) = −
∑
p(w|θq ) log
w∈V
p(w|θq )
p(w|θd )
(2)
カルバック・ライブラー情報量検索モデルにより求めた類似度
9:&;<=
13,4,-(5,0!.-50'(!*+&'2*
7,8&0!
1+.'-.'!*+&'2*
に,非関連文書モデルに基づくペナルティS(N LM, d) を与え,
MultiNeg ではこの修正後の値(式 (3))を類似度とする.
図 2 システムのトポロジー.
S(q, d) − S(N LM, d)
(3)
3. 3 文書の前処理
ペナルティは,f 個の非関連文書モデルと文書 d との類似度を
本システムで用いる文書には予め以下の処理を施している.
それぞれ計算し,その最大値,即ち,
•
文書中の単語の小文字化.
•
ストップワードと句読点の除去.
•
接辞処理 [11].
•
文書の言語モデル化.
S(N LM, d) = max(
{S(θi , θd )})
i=1
= − min(
文書の言語モデル化において文書 d に対する言語モデル
p(w|d) は,ディリクレスムージング [14] に基づき式 (1) で表さ
れる.
p(w|d) =
f
∪
c(w, d) + µp(w|C)
|d| + µ
f
∪
(4)
{D(θi ||θd )})
i=1
で与えられる.
本システムにおいては,式 (4) の値をエンティティと文書の
(1)
バックグラウンド言語モデル p(w|C) には Google-Ngram (注 5)
(ユニグラム)を使用した.また,µ の値は [14] で推奨されて
いる値である 2000 を用いる.
3. 4 関連文書フィルタ
関連文書フィルタは文書タプルが関連文書かどうかを判定
し,関連文書と判定された文書タプルのみを重要文書フィルタ
に送り出す.関連文書かどうかの判定には,MultiNeg [13] に
よって構築した非関連文書モデル(Negative Language Model,
類似度とみなして,予め決められた閾値 tr より小さければ関
連文書と判定する.また,非関連文書モデルの構築には後述す
る訓練データを利用する.
3. 5 重要文書フィルタ
重要文書フィルタは,関連文書フィルタにより関連文書と判定
された文書が新情報を含むかどうか,すなわち「重要」であるか
どうかを判定する.
「重要」であるかどうかの判定には知識ベース
モデル(Knowledge base Article Language Model,KALM)
または重要文書モデル(Vital Language Model,VLM)のい
ずれかを利用する.
知識ベースモデルはエンティティの知識ベースの記事を言語
(注 4):「重要」である文書と「準重要」である文書をまとめたものが「関連文
書」となる.
(注 5):http://googleresearch.blogspot.jp/2006/08/all-our-n-gram-are-
belong-to-you.html
モデル化したものである.実際の Wikipedia の記事のテキスト
と,既に「重要」であると判定された文書(訓練データ)から
ユニグラム言語モデルを構築する.
一方,重要文書モデルは「重要」な文書における頻出語から
の文書で構成されている.これらの文書はインターネット上の
構築したユニグラム言語モデルである.過去に検出された「重
ニュースやブログなど様々なものが存在し,言語は英語である.
要」な文書群と「準重要」な文書群(訓練データ)を利用した
コーパスはエンティティ毎に訓練データとして利用できる訓練
カイ二乗検定により,両者を区別するのに有用と考えられる,
期間が定められている.その期間中の文書には正解ラベルが付
「重要」な文書群固有の頻出語を抽出する.
フィルタリング時は,上記のモデルと文書の類似度を式 (2)
で算出し,予め定めてある閾値と比較することにより,
「重要」
であるかどうかを判定する.知識ベースモデルを用いた場合は,
与されており,訓練データとして自由に利用可能である.評価
実験は,訓練期間に含まれない期間のデータを用いて行う.
本研究では効率的に実験を行うために,コーパスに対して予
め以下のような前処理を施した.
•
エンティティの表記名を 1 つも含まない文書を除外する.
は,既に知識ベースに掲載されている内容を含む文書は「重要」
•
重複した文書は1件を残して除外する.
ではない,すなわち,知識ベースモデルに類似した文書は「重
4. 2 評 価 方 法
要」ではないという仮定に基づく.一方,重要文書モデルを利
Vital Filtering タスクでは,フィルタリング結果を全ての
用した場合は,その閾値 tvv より大きければ「重要」であると
エンティティのマクロ平均による F 値(macro-averaged F1-
判定する.こちらは,
「重要」な文書群固有の頻出語から構築し
measure)により評価する.
その閾値 tvk より小さければ「重要」であると判定する.これ
た重要文書モデルに類似した文書もまた「重要」であるという
F1macro ave =
仮定に基づく.
1 ∑
P(e)
|E| e∈E
(6)
Rave =
1 ∑
R(e)
|E| e∈E
(7)
れた文書を受け取り,知識ベースモデルや重要文書モデルを更
新する.このモデル更新は「重要」な文書があれば編集者に推
薦し,その文書に基づいて記事が更新されるという流れを反映
したものである.
4. 評 価 実 験
本論文では,2 つの評価実験を行った.1 つは TREC KBA
の Vital Filtering タスクのルールに沿った評価実験,もう 1 つ
は,Storm を利用することによる処理速度の向上を示す実験で
ある.
前者の Vital Filtering タスクでは,用意されたコーパス(デー
タセット)を用いてフィルタリングを行い,その結果を F 値
(F1-measure)で評価する.コーパスに含まれる文書にはタイ
ムスタンプが付与されており,その順に読み込んでフィルタリ
ングを行う必要がある (注 6).これは,Web 上の文書ストリーム
を擬似的に再現するためである.フィルタリング対象として 67
のエンティティが与えられる.
後者の実験では,フィルタリングの実施方法は Vital Filtering
タスクと同様とし,その際の並列数(ボルト数)を変化させる
ことにより,実行時間がどのように変化するかを検証する.並
列数を変化させるのは関連文書フィルタのみとし,その他のボ
ルトは並列化を行わない.これは,本システムにおけるボトル
ネックが関連文書フィルタだからである.
以下,Vital Filtering タスクで使用するコーパスや評価方法
の詳細を述べた後に実験結果を示し,考察を述べる.
4. 1 コ ー パ ス
Vital Filtering タ ス ク で は コ ー パ ス と し て TREC KBA
Stream Corpus 2014 (注 7)が提供された.同コーパスは 2011 年
10 月 5 日∼2013 年 4 月 30 日までの 19ヶ月間,20,494,260 件
(注 6):正確には 1 時間毎で構わない.
(5)
Pave =
3. 6 モデル更新器
モデル更新器は重要文書フィルタで「重要」であると判定さ
2・Pave・Rave
Pave + Rave
ここで,P,R はそれぞれ適合率と再現率を表す.E はフィル
タリング対象の 67 のエンティティの集合である.
4. 3 実 験 設 定
フィルタリングに用いる各モデル(非関連文書モデル,知識
ベースモデル,重要文書モデル)は訓練データを用いて構築し
た.非関連文書モデルは,訓練データ中の「エンティティの表記
名を含むが関連ではない文書」を非関連文書とみなし,それら
の文書を用いて構築した.ただし,上記の定義に当てはまるよう
な文書が存在しないエンティティに関しては非関連文書モデル
を構築しないこととした.この場合は関連文書フィルタは無条
件で通過するものとした.知識ベースモデルは,Wikipedia の
記事データとして 2012 年 1 月 4 日の Wikipedia のダンプファ
イル (注 8) を利用し,また,訓練データ中の「重要」な文書も利
用して構築した.ただし,エンティティによっては Wikipedia
の記事が存在しない場合もあり,その場合は訓練データのみか
ら構築した.
フィルタリングに用いる各閾値は次のように定めた.関連文
書フィルタの閾値 tr は訓練データ内の関連文書に対してフィ
ルタリングを行い,それらが全て関連だと判定される閾値のう
ち,最小の値とした.重要文書フィルタの閾値 tvk ,tvv は訓練
データ内の関連文書に対してフィルタリングを行い,F 値が最
も高くなるような閾値に設定した.
4. 4 実 験 結 果
本実験では,表 1 に示すような 5 つの異なる設定で実験を
行った.Exact Match はエンティティの表記名を含む文書を全
て「重要」とみなすシステムであり,図 2 における関連文書
フィルタや重要文書フィルタによるフィルタリングは実行しな
(注 8):http://s3.amazonaws.com/aws-publicdatasets/trec/kba/enwiki-
(注 7):http://s3.amazonaws.com/aws-publicdatasets/trec/kba/index.html 20120104/index.html
表 4 関連文書フィルタの並列数と実行時間の関係.
い.このシステムを本実験のベースラインとした.KALM と
並列数 実行時間(ms)
VLM は重要文書フィルタにそれぞれ知識ベースモデル,重要
1
1,516,629
2
757,310
3
566,601
4
474,724
本システムにより Vital Filtering タスクによる実験を行った
5
389,927
結果を表 2 および表 3 に示す.Vital Filtering タスクには 2 つ
6
369,289
のサブタスクが存在し,
「重要」な文書のみを正例とみなす「重
7
369,258
要文書検出タスク」(表 2),関連文書を正例とみなす「関連文
8
360,672
書検出タスク」
(表 3)がある.表 2 より,重要文書検出タスク
9
362,753
文書モデルを使用したシステムである.なお,
「更新無」が付与
されているシステムは,モデル更新器を使用しない,すなわち
モデルの更新を行わないことを表す.
においては VLM が最も高い性能を示した.しかし,t 検定に
1600000
おいてベースライン(Exact Match)との有意差は KALM の
1400000
み確認された(有意水準 1%で有意).また,モデル更新を行う
1200000
見られた.関連文書検出タスクにおいては文書の関連・非関連
のみが焦点となるため,重要文書フィルタによるフィルタリン
グはこの実験結果には影響しない.このため,KALM も VLM
も同じ結果となっている.こちらでは,ベースラインからの F
値の向上が見られ,有意水準 1 %の t 検定において有意差が確
認された.非関連文書を利用した関連文書のフィルタリングは
!"#$%&'($)'*+
ことにより,KALM も VLM も僅かではあるが性能の向上が
1000000
800000
600000
400000
200000
0
有効であると言える.
1
2
3
4
5
6
7
8
9
,$-.$!(/(01#%$.&/%(!$2-/%*
Storm を利用することによる処理速度の向上を示す実験の結
果を図 3 及び表 4 に示す.並列数の増加に伴って実行時間も短
図 3 関連文書フィルタの並列数と実行時間の関係.
くなっていったが,並列数が 5 を超えた辺りで変化がほとんど
なくなった.
4. 5 考
察
Vital Filtering タスクの実験において VLM に有意差が見
表 1 実験を行った 5 つのシステム
システム
説明
られなかったのは,VLM の結果がエンティティ毎に大きな
Exact Match
表記名を含む文書を全て「重要」とみなす.
バラつきがある(分散が大きい)ことに起因するものと考え
重要文書フィルタに知識ベースモデルを使用.
られる.図 4 及び図 5 に,エンティティ毎に F 値がベース
KALM
KALM(更新無) 〃(モデル更新を行わない)
ラインと比較してどのくらい向上したかを示す.VLM では,
重要文書フィルタに重要文書モデルを使用.
VLM
VLM(更新無)
〃(モデル更新を行わない)
Ralph Dannenberg や James Windle で大きな向上が見られた
一方で,Lizette Graden や Corisa Bell などでは大きく低下し
てしまっていた.一方 KALM ではほとんどのエンティティに
表 2 Vital Filtering タスクによる実験の結果(重要文書検出タスク).
System
Prec. Recall
F1
SU
おいて向上が見られた.
非関連文書モデルの構築時に,構築に利用した非関連文書の
Exact Match
0.106
0.993
0.192 0.062
数がエンティティにより大きく異なっていた.非関連文書の数
KALM
0.120
0.876
0.211 0.077
が性能に与える影響を調べるために,図 6 に示すような散布
KALM(更新無) 0.117
0.884
0.206 0.076
図を作成した.横軸に非関連文書の数(対数目盛)を,縦軸に
ベースラインに対する F 値の差をとっている.この散布図から,
VLM
0.139
0.641
0.228 0.136
VLM(更新無)
0.153
0.428
0.225 0.172
非関連文書の数はおよそ 100 が最適であることが示唆される.
Storm を利用することによる処理速度の向上を示す実験で
表 3 Vital Filtering タスクによる実験の結果(関連文書検出タスク).
System
Prec. Recall
F1
SU
は,並列数が 5 を超えた辺りで実行時間の変化がなくなり,お
よそ 6 分に収束した.ここで,入力スパウトにより全ての文書
0.284
0.995
0.442 0.258
を送り出すのに必要とする時間を計測したところ,こちらもお
KALM/VLM 0.313
0.978
0.474 0.294
よそ 6 分を要した.このことから,これ以上本システムを並列
Exact Match
化する意味はなくなり,同時に Storm を用いて並列数を増加さ
せることにより実行時間を短縮,すなわち処理速度を向上させ
ることができたと言える.
G:F1G:4?3883/%
1I:E31>+-74%
167881P3GT83,+4%
1';O*.ITM0P?Y%
PC8:87T%
P-8378!H:C,C,B1=7/-,1;:L+4%
P-:??:--341=7/-,1;:L+4%
PB3/3-:1<[email protected]%
P301<,C/03E:4,%
P301W/7+/%
<C-:412B:T3883%
<,3TB3416CX*:CG%
<T+A:431P/7*3%
<T+A:4312+C4,51>:@3?:5%
<T+A:4312+4E34L+41234,3/%
<4+B+G7-B1Q79B1<@B++8%
<B388351>307493/%
<B:?41),83+%
<3G7:BG++1=7/-,1;:L+4%
>+*541N3/E:7-%
>[email protected]:4-34%
>:4051I+/4%
>:8TB1I:4434*3/9%
W3,3/1N+80G:/A%
W:C816/:40,%
;+/[email protected]/7,:931SC-3CG%
;:[email protected]+/034%
S7--7491H+G3412+GG7--7+41+.1O4UC7/5%
S:-+41H789+-B%
S:/,[email protected]:/34%
S:/A1D740UC7-,%
S:38831>[email protected]/%
D7V3F31N/:034%
D7-:1SC/7%
D7-:16/+?4%
D3+4:1)98CAA:U%
J-B:G:1<:?:4,%
J74912:,1PB3:,3/%
J:87-T381P/7*3%
K+4:,B:41S38743%
K+*51<B7G+GC/:%
K7G16C-35%
K3--731J:[email protected]%
K3--31<5A3-%
K3R1S:49CG%
K3:[email protected]+03:C%
K:G3-1H74083%
K:@+*1Q+99:/0%
K#1P788G:4%
O-8:40H++0%
N3+/97316/79B,1JC4A38%
M8G3/1I3//[email protected]%
I+?12+4-,:4L43%
I:41<:F3/*3/9%
I:G7341KC/:0+%
2+/7-:16388%
2B:01J/+393/%
2:/G38:1I38874+%
2:G3/+41H:/0%
6/[email protected]:E7F%
6/5:41>:7-3/%
6/+073128+?3-%
6/[email protected]<@BCB%
6;<=1>:78?:5%
)443168:7/%
)4051678879%
)**+,-.+/01)/,-1234,/3%
G:F1G:4?3883/%
1I:E31>+-74%
167881P3GT83,+4%
1';O*.ITM0P?Y%
PC8:87T%
P-8378!H:C,C,B1=7/-,1;:L+4%
P-:??:--341=7/-,1;:L+4%
PB3/3-:1<[email protected]%
P301<,C/03E:4,%
P301W/7+/%
<C-:412B:T3883%
<,3TB3416CX*:CG%
<T+A:431P/7*3%
<T+A:4312+C4,51>:@3?:5%
<T+A:4312+4E34L+41234,3/%
<4+B+G7-B1Q79B1<@B++8%
<B388351>307493/%
<B:?41),83+%
<3G7:BG++1=7/-,1;:L+4%
>+*541N3/E:7-%
>[email protected]:4-34%
>:4051I+/4%
>:8TB1I:4434*3/9%
W3,3/1N+80G:/A%
W:C816/:40,%
;+/[email protected]/7,:931SC-3CG%
;:[email protected]+/034%
S7--7491H+G3412+GG7--7+41+.1O4UC7/5%
S:-+41H789+-B%
S:/,[email protected]:/34%
S:/A1D740UC7-,%
S:38831>[email protected]/%
D7V3F31N/:034%
D7-:1SC/7%
D7-:16/+?4%
D3+4:1)98CAA:U%
J-B:G:1<:?:4,%
J74912:,1PB3:,3/%
J:87-T381P/7*3%
K+4:,B:41S38743%
K+*51<B7G+GC/:%
K7G16C-35%
K3--731J:[email protected]%
K3--31<5A3-%
K3R1S:49CG%
K3:[email protected]+03:C%
K:G3-1H74083%
K:@+*1Q+99:/0%
K#1P788G:4%
O-8:40H++0%
N3+/97316/79B,1JC4A38%
M8G3/1I3//[email protected]%
I+?12+4-,:4L43%
I:41<:F3/*3/9%
I:G7341KC/:0+%
2+/7-:16388%
2B:01J/+393/%
2:/G38:1I38874+%
2:G3/+41H:/0%
6/[email protected]:E7F%
6/5:41>:7-3/%
6/+073128+?3-%
6/[email protected]<@BCB%
6;<=1>:78?:5%
)443168:7/%
)4051678879%
)**+,-.+/01)/,-1234,/3%
!"#$%
!"#&%
!"#'%
!"#(%
"#(%
"#'%
"#&%
!"#$%
!"#&%
!"#'%
!"#(%
"#(%
"#'%
"#&%
!"#$%$&'$()*(+,(-$./0%$/(123(4567(.&8(9:.';(7.;'<!
!"#$%$&'$()*(+,(-$./0%$/(123(456(.&7(89.':(6.:';!
図 4 エンティティ毎の F 値のベースラインに対する差(KALM)
図 5 エンティティ毎の F 値のベースラインに対する差(VLM)
本論文では,インターネット上の情報を自動的にフィルタリ
ングし,知識ベースの記事の更新が必要となるような新情報を
実時間で検出するシステムを提案した.新情報の判断には言語
モデリング手法を用いた 2 段階のフィルタを構築した.具体的
には,非関連文書を利用して構築した非関連文書モデルを用い
て関連文書の判定を行い,知識ベースの記事を言語モデル化し
!"#$%$&'$()*(+,(-$./0%$/(123(45672867(.&9(
:;.'<(7.<'=!
"#'$%
5. ま と め
"#'%
"#&$%
"#&%
"#"$%
"%
&%
&"%
&""%
&"""%
&""""%
!"#"$%
>0-1$%()*("%%[email protected]&<(9)'0-$&</!
た知識ベースモデル,新情報を含む文書における頻出語から構
築した重要文書モデルを利用して新情報を含むかどうかを判定
図 6 非関連文書の数と F 値のベースラインに対する差の関係
した.また,知識ベースモデルと重要文書モデルはシステムに
より新情報を含むと判定された文書を利用して更新することで,
における性能を改善できることを示した.また,並列数を変化
時々刻々と更新されていく新情報を考慮した.
させたことによる実行時間の測定実験では,並列数を増やすこ
評価実験では,TREC KBA Stream Corpus を用いてフィル
とで文書が入力される速度と同等の速度での処理を実現し,大
タリングを行い,本システムが新情報を含む文書の検出タスク
規模なストリームデータに対しても適用が可能なシステムであ
ることを示した.
今後の研究課題として,システムの性能をより向上させるた
め,新情報の検出に有効な素性の導入を検討している.本シス
テムで用いた手法は新情報の検出性能の改善に有効であったも
のの,システムそのものの性能は高くない.このため,新情報
の判定により有効な素性を検討し,導入する必要がある.例え
ば,過去数時間以内にトピックについて言及された文書数,す
なわちそのトピックの盛り上がりを捉えることが新情報を含む
かどうかの判断に有効であることが考えられる [2] ので,本シ
ステムの素性として取り入れることで,更なる性能改善が期待
できる.
文
献
[1] R. Abbes, K. Pinel-Sauvagnat, N. Hernandez, and
M. Boughanem, “IRIT at TREC Knowledge Base Acceleration 2013: Cumulative Citation Recommendation Task,”
in Proceedings of the TExt Retrieval Conference (TREC),
2013.
[2] K. Balog, H. Ramampiaro, N. Takhirov, and K. Nørv˚
ag,
“Multi-step classification approaches to cumulative citation
recommendation,” in Proceedings of the 10th Conference on
Open Research Areas in Information Retrieval, 2013, pp.
121–128.
[3] A. Bellog´ın, G. G. Gebremeskel, J. He, J. Lin, A. Said,
T. Samar, A. P. de Vries, and J. B. Vuurens, “CWI and TU
Delft at TREC 2013: Contextual suggestion, federated web
search, KBA, and web tracks,” in Proceedings of the TExt
Retrieval Conference (TREC), 2013.
[4] A. P. Dempster, N. M. Laird, and D. B. Rubin, “Maximum
likelihood from incomplete data via the EM algorithm,”
Journal of the royal statistical society, series B, vol. 39,
no. 1, pp. 1–38, 1977.
[5] L. Dietz and J. Dalton, “UMass at TREC 2013 Knowledge
Base Acceleration Track: Bi-directional Entity Linking and
Time-aware Evaluation,” in Proceedings of the TExt Retrieval Conference (TREC), 2013.
[6] J. R. Frank, S. J. Bauer, M. Kleiman-Weiner, D. A. Roberts,
N. Tripuraneni, C. Zhang, C. Re, E. Voorhees, and I. Soboroff, “Evaluating Stream Filtering for Entity Profile Updates for TREC 2013 (KBA Track Overview),” in Proceedings of the Text REtrieval Conference (TREC), 2013.
[7] J. R. Frank, M. Kleiman-Weiner, D. A. Roberts, F. Niu,
C. Zhang, C. R´
e, and I. Soboroff, “Building an entity-centric
stream filtering test collection for TREC 2012,” in Proceedings of the Text REtrieval Conference (TREC), 2012.
[8] T. Kenter, “Filtering Documents over Time for Evolving
Topics–The University of Amsterdam at TREC 2013 KBA
CCR,” in Proceedings of the TExt Retrieval Conference
(TREC), 2013.
[9] J. Lafferty and C. Zhai, “Document language models, query
models, and risk minimization for information retrieval,” in
Proceedings of the 24th annual international ACM SIGIR
conference on Research and development in information retrieval, 2001, pp. 111–119.
[10] X. Liu, J. Darko, and H. Fang, “A Related Entity based Approach for Knowledge Base Acceleration,” in Proceedings of
the TExt Retrieval Conference (TREC), 2013.
[11] M. F. Porter, “An algorithm for suffix stripping,” Program:
electronic library and information systems, vol. 14, no. 3,
pp. 130–137, 1980.
[12] J. Wang, D. Song, C.-Y. Lin, and L. Liao, “BIT and MSRA
at TREC KBA CCR Track 2013,” in Proceedings of the
TExt Retrieval Conference (TREC), 2013.
[13] X. Wang, H. Fang, and C. Zhai, “A study of methods for
negative relevance feedback,” in Proceedings of the 31st annual international ACM SIGIR conference on Research and
development in information retrieval, 2008, pp. 219–226.
[14] C. Zhai and J. Lafferty, “A study of smoothing methods for
language models applied to Ad Hoc information retrieval,”
in Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval, 2001, pp. 334–342.