機械学習・AIの実用化には、精度と時間のバランスをとる必要がある
株価予測や購入予測など、さまざまなAI活用で使われている機械学習ライブラリのひとつに「XGBoost」があります。
XGBoostは、データサイエンティストにとってのゴールドスタンダードとも言える「決定木を多数用いて精度を向上させる方式」です。決定木とは、はい/いいえの分岐を繰り返す木の枝分かれの構造を持っており、データをグループ分けして予測に使われます。XGBoostは、1つの決定木では予測精度が低い場合でも、多数の決定木を組み合わせ、前のモデルの誤りを修正しながら学習を進めることで、高い予測精度を実現しています。しかし、XGBoostが扱う決定木が大規模で複雑なため、結果を説明できない時代が続いていました。
最近になって、決定木の専門家から、XGBoostを使い、数百本の決定木を1本の木に合成するような方式が提案されました。その方式は理論的には正しいのですが、計算時間がかかりすぎて実用的ではありません。私は全く異なる方式を用いて学習速度を50倍以上にし、わかりやすさも大幅に向上させました。
1本の決定木から出てくるルールは、末端の葉っぱの数がルールの数になると考えるのが単純です。したがって、葉の数が多くなれば1つ1つのルールがものすごく複雑になります。たとえば、「もし○○なら雨が降りそうだ」という判断をするときの「もし」の条件が、AかつBかつCで…と10個ほどの条件が重なる場合があると、どの条件を重視すべきかわからないので、「もし」の部分の解釈が難しいのです。私の方式はルールの個数が少ないだけでなく、「もし」の条件の数も少なく単純なので人工知能だけでなく医学、金融工学などの分野で活用できます。研究結果は機械学習の国際ジャーナルに投稿中で、改訂校の査読結果を待っています。
実用的な観点から考えると機械学習・AIの方式はパフォーマンス(精度)とコスト(時間)をバランスさせる必要がありますが、現状は精度が所要時間より優先されていると感じます。しかし、膨大な時間がかかってしまっては実用化するのは非現実的ですし、時間のかかる非常に複雑な機械学習モデルを用いても得られるパフォーマンスは大幅には変わらない、というのが近年の学説です。さらに、新たな研究分野である自動機械学習(AutoML)の近代化は一種のパラダイムシフトともいえます。その一方で、学習速度や結果のわかりやすさといった要素が、より重要な課題になりつつあります。実際、AutoMLは所要時間やコストの負担が大きいという問題を指摘する研究も増えています。
「生成AIは解釈可能になるのか」をテーマに、私が2024年に発表した論文は、わずか1年ほどで567回もの引用があります。そもそもユーザーは生成AIの全体の行動が見たいわけではなく、必要な部分について解釈ができ安心して使えるものであれば、それで十分である場合も多いはずです。私の研究がトリガーとなり、生成AIとAutoMLにより大きなインパクトを与える手法が出現することを願っています。
【理工学部 情報科学科】林陽一教授がInformation Fusion 2025 Best Paper Awardを受賞
※記事の内容は、執筆者個人の考え、意見に基づくものであり、明治大学の公式見解を示すものではありません。
