なぜ統計学の教科書は現実からずれているのか
最近、統計学をあらためて勉強し直していて、感じたことがある。多くの統計学の教科書が扱っている事項は現実の問題とずれているのだ。
典型的な統計学の教科書では、母平均の推定と検定では分散既知の場合は詳しく説明されるのに、分散未知の場合については驚くほど簡単に済まされている。また母比率の推定や検定については、まったく触れられていなかったり、あっても付け足しのように軽く扱われていることが多い。
しかし、現実のデータ解析を考えると、母分散既知の状況よりも母分散未知の状況の方が圧倒的に多く、割合や発生率といった母比率の問題は、医療、品質管理、社会調査など、日常的に現れる。
なぜこうなっているのかを考えてみると、ひとつ思い当たる理由がある。多くの統計学の教科書は、一昔前に書かれたものであり、計算はせいぜい関数電卓が前提だった。そのような状況では、計算が簡単で、式がきれいにまとまる問題が中心になる。正規分布を仮定し、分散既知の母平均を扱うのは、手計算でも処理しやすい。母比率を二項分布のまま扱ったり、分散未知の場合を厳密に扱ったりするのは、計算が煩雑になりがちで、教育上の負担も大きかっただろう。
しかし、現在は状況が大きく異なる。誰もがパソコンを持ち、Rのような統計計算ソフトも簡単に使える。分散が未知であろうが、母比率を二項分布として扱おうが、計算自体は一瞬で終わる。計算の都合を理由に、必要な概念を避ける必要はもはやない。
統計学を勉強し直してみて感じたのは、理論そのものよりも、「何を重視して学ぶか」がいかに重要かということである。計算環境が変われば、教え方も変わるべきだろう。分散未知を当たり前の前提とし、かつ母比率を正面から扱う統計学を主流にすべきではないだろうか。

