データ分析の適用範囲を広げるバラバラなデータの回帰分析を世界で初めて実現 ~「万能近似能力」を持つ深層学習によるデータ分析の適用領域の拡大~
*https://aaai.org/aaai-conference/
1.研究の背景
スマートフォンやウェアラブルデバイスなどの普及に伴い、ヒトの状態や行動などに関する多種多様なデータが蓄積されています。しかし、観測コストやプライバシ保護などのために網羅的なデータ収集を行うことは困難であり、データの活用が難しい場面が今もなお多く存在しています。例えば、図1に示すように、取扱商品やサービスの情報や紹介動画をオンラインサイトに掲載・実店舗で商品販売を行う企業などでは、オンラインサイトの閲覧者に関する情報(閲覧時間など)と実店舗の商品購入者に関する情報(購入金額など)はバラバラに得られていることが多く、閲覧者と購入者の情報の対応関係は分かりません (閲覧時間が何秒の人が何百円購入したのかは分からない)。同様に、プライバシに配慮し、試験の点数のようなセンシティブな情報を学級ごとに集団単位で集めた場合も、入力である生徒の属性と出力である点数の対応関係が不明なデータとして表現されます。これまでNTTでは、観測範囲に制限のある軌跡データや群衆単位の位置情報集計データのように現実的に収集可能なデータを用いてヒトの状態や行動の推定・予測・制御を可能とする手法を実現してきました。前述の対応関係の失われたバラバラなデータの分析には、通常の回帰分析の手法を適用することはできないため、分析可能とする手法が望まれていました。
2.研究の成果
対応関係の失われたデータを分析する従来の手法では、入出力の関係を表す関数は線形(例えば、閲覧時間に比例して購入額が増えるなど)である等という非常に強い制約が成り立つことを仮定していました。そのため、現実の多くのデータに存在する非線形な関係を推定することができず、適用可能なシーンは限定されていました。当該手法により、「万能近似能力」(※1)
を持つ深層学習による高い表現力を活用し、任意の関数を推定することが可能になりました。これにより、ある特定の閲覧時間で購入額がピークとなるような、非線形な関数を推定しデータを分析できるようになります(図2)。
3.データ分析手法のポイント
今回、従来の手法とは異なる方法で対応関係の失われたデータから回帰関数を推定することを可能としています。ポイントは大きく2つあります。
●入力と出力の対応関係である確率の高い候補の集合を効率的に生成し、 目的関数を近似
ありうる対応関係は全部で要素数の階乗個存在するため、これら全ての対応関係を扱うことは困難です。これに対しNTTは、確率の高い候補の集合が要素の大小順序の並べ替え操作等により得られることを示し、各候補が実際の対応関係である確率で重み付けることで、近似的な目的関数(パラメタ推定のために最小化する関数)を導くことに成功しました。
●確率的勾配法を用いた目的関数の最小化
目的関数の最小化にニューラルネットワークのパラメタ推定に広く利用される確率的勾配法(※2)を利用した点です。
これによりパラメタ数が多いニューラルネットワークであっても局所解に陥ることを防ぎ、より優れた解へ到達することが可能になりました。
4. 今後の展開
今後も引き続きデータ分析の適用領域拡大に向けて、データに偏りや個人差があるなどより現実的な場面におけるヒトを対象としたデータ分析を実現する手法の確立と、応用の検討を進めてまいります。
【用語解説】
※1 万能近似能力
ニューラルネットワークを用いることで連続関数のような非常に幅広いクラスに属する任意の関数を任意の精度で近似できる性質のこと)
※2 確率的勾配法
Stochastic Gradient DescentやAdamと呼ばれる方法が代表的