2015年9月8日 11:00
富士通研、大規模データから機械学習で短時間に予測モデルを生成する技術
富士通研究所は9月7日、5,000万件を超える大規模データから機械学習により数時間で高精度な予測モデルを生成する技術を開発したと発表した。富士通Analyticsソリューションなどでの実証実験を通じ、2015年度中の実用化を目指す。
従来、精度の高い予測モデルを生成するためには学習アルゴリズムや動作条件など全ての組合せを調べる必要があり、例えば5,000万件規模のデータによる学習では、1週間以上の時間を要していたという。
新技術では、少量のサンプル・データと過去の予測モデルの精度から機械学習結果を推定し、最も精度の高い結果の得られる学習アルゴリズムや動作条件の組合せを抽出し、大規模データの学習に適用するという。これにより、5,000万件規模のデータであっても数時間で精度の高い予測モデルを得られるとしている。
これらの技術は、OSSの並列実行基盤ソフトウェアであるApache Spark上で試作したという。
機械学習結果の実行時間と予測精度を推定する技術では、代表的な機械学習のアルゴリズムに関して、データ件数やデータの特徴を表す属性の数を変えながら実際の機械学習の実行時間を計測し、これらの実測値を基に実行時間の傾向を表す実行時間モデルを構築。