仕組みがわからない対象や、バラつきのある対象に対して強みを発揮する
統計学は、さまざまな現象への理解を深め、意思決定を行うためのエビデンスを得るために使われることも多いですが、私としては、ひとまず使ってみることで、対象を理解するとっかかりを作るための道具だと考えています。そういった意味で、先ほどの医薬品の例のように、「対象の内部の仕組みがわからなくても、現象を理解したり結果の予測を立てることができる」ことが大きな強みになります。
ここで重要になるのがモデリングです。統計のもととなるデータの集合は、たとえば平面図の上にたくさんの点がプロットされた散布図として表されます。ごく簡単に言えば、点が多く集まるところを通る線を描く、つまりデータの分布をある数式のグラフとして表すことができれば、そのデータの特徴を統計学的に抽出できたということになります。その数式が統計学で言う「モデル」で、適切なモデルを設定することをモデリングと言います。
誤解を恐れずに言えば、モデリングとは、あるデータに対して恣意的な解釈を押し付ける(良く言えば提案する)ことです。ただひとつの正解を見出すというよりは、複数のモデルを比較して、特定の目的に適したものを選び取る作業というほうが近いでしょう。たとえば、統計学に対する大きなニーズのひとつとして、将来を予測するということが挙げられます。この場合、現実のデータにフィットさせたモデルよりも、ある方向に少しずらしたモデルの方がより良い性能をもつということが理論的にわかっています。
ブラックボックスの中身を知るためではなく、中身を知らなくても予測・制御できるようにするために統計学を使うという考え方は、統計学に新しい手法が登場した1970年前後から標準的な考え方になっていったようです。一方で、やはりブラックボックスの中身をデータから明らかにしたいという方向の研究も重要であり、根強く存在しています。
統計学のもうひとつの強みは、ものごとの「不確実性」を定量的に評価できるということです。さまざまな仕組みや製品をつくるとき、どれくらいの精度で目標の値を出すことができるのかはとても重要です。たとえば、100という値を出すことができる製品をつくりたいとします。2種類試作して、片方はテストで常に90~110の間の値を出し、もう片方は0だったり200だったりばらつきがある場合、いずれも平均としては100に近い値を出していても、統計的にデータを比較すると、前者のほうが性能が良いということが言えます。こうした「値の散らばり方」を確率として扱って評価することで、ものごとの不確実性を把握し、安全性や効率性に貢献することができるのです。
さらに近年では、計算機の性能が向上してきたことにより、従来は扱えなかったようなさまざまなモデルや、大規模なデータを扱うことができるようになっています。冒頭に上げたロボット掃除機はまさにそんな技術に支えられて実現した応用例と言えるでしょう。また、量子コンピュータのような、これまでとはまったく異なる原理の計算機の実用化も、統計学に進歩をもたらしそうです。
※記事の内容は、執筆者個人の考え、意見に基づくものであり、明治大学の公式見解を示すものではありません。
