今オススメの読書本

『統計学は最強の学問である』を読んで 其の一

ここ最近、統計学の汎用性と偉大さに気づかされ、改めて勉強をし直すために、西内 啓著『統計学は最強の学問である』を読んでみました。

私自身、大学の講義で統計学を学んだというよりは、単に数式を覚えただけであったため、その体系的知識をつけておくことはできていませんでした。

よって、改めてこの本を入り口として、統計学を学び直そうと決意いたしました。

今回は、その備忘録として、再認識した知識と、読んでみての感想を書いて行こうと思います。

そもそも統計学の目的は?

これは、本には書いてはありませんが、私は【意味のあるデータを収集し、次の行動につなげるため】に統計学は存在すると思います。しかし、収集したデータを分析する過程で聞き慣れない単語が多く出てくるため、完全なる独学者にとってはとっつきにくいものとなっているようです。

幸いにも私は先述の通り、大学の講義で言葉だけは聞いたことがあったため、再確認のスタンスでこの本を読み進めることができました。

統計学に共通するアプローチ

これは、この本の中であらゆる統計的手法が紹介されていましたが、そのどれも一つの目的を根幹にもち、存在していると思います。その目的とは、【収集したデータはどれだけ真値に近いのかを読み取ること】であるということです。

ここで、「母集団」と「標本」という概念が大切になってきます。

  • 母集団…「調査対象となる全体」
  • 標本…「母集団の一部を無作為抽出したグループで、母集団をほぼ表している集団」

全対象を調査しなくていいの?

ここで、「母集団から無作為抽出した標本は、本当に母集団を表しているの?」という疑問が生じると思います(実際に私もそうでした)。

例えば、90人の女性と10人の男性で構成された母集団から10人を無作為に抽出するとき、その10人は本当に母集団の特性を表しているのだろうか?ということです(もしも無作為抽出された10人全員が男性であったら、母集団の特性を表しているのか疑わしくなってきますね)。

しかし、そういった事象が起こることは非常に稀であるのです。

この例において、「無作為に抽出した10人が全て男性である確率P」を求めます。

確率とは場合の数の比であるため、A.「100人の中から10人を選ぶ組合せ」、B.「10人の中から10人を選ぶ組合せ」それぞれを求めます。

まず、事象Aについて。相異なる100人の中から10人の組合せの総数は、

100 C 10 = 17310309456440

同様に、事象Bについて、

10 C 10 =  1

これらより、

P = 1/17310309456440

これが、100人の中から10人を無作為抽出するとき、その10人全員が男性である確率です。

ご覧のように、とても小さい確率であることがわかりますね。

同じ論理で考えていくと、無作為に抽出した際に構成される標本は、母集団の特性をほぼ表すことがわかっています。

よって、コストや時間の問題を考慮して、現実的には標本を用いた調査が行われても問題はないことがわかります。

標本誤差と標準誤差

しかし、やはり標本は母集団ではないため、母集団から得られる値との誤差が出てきます。

そこで登場するのが、標本誤差という概念です。

以下のサイトに、標本誤差の定義が書いてあります。

標本調査(母集団から一部の標本を抽出して行う調査)を行って母集団値を推定する際に生じる、標本値と母集団値との差を標本誤差といいます。

https://www.intage.co.jp/glossary/041/

つまり、母集団の中から無作為に抽出したサンプルを用いて計測した結果は、母集団を用いて計測した結果とどのぐらい乖離しているのか、を表した指標です。

え、ちょっと待ってくれ。そもそも母集団の計測値を計測できるんだったら、母集団の計測値をそのまま用いればいいじゃないか…。そんな疑問が私の中に生じました。

まあ当たり前ですよね。コストなどの要因を考慮した上で、母集団を用いて計測することができれば、計測値として信頼できるものとなる可能性が限りなく高くなります。

しかし、現実問題として母集団を用いて計測することはなかなか容易ではないようです。コスト、時間などを考慮し、いかに母集団の計測値に近い(信頼のできる)計測ができるか、というところに統計学のキーがあるのですね。

ここで、そうした標本値と母集団値の誤差を表したものとして、標本誤差という概念が出てきます。「標本(の母集団に対する)誤差」と考えるとわかりやすいですね。

標準誤差とは

標準誤差とは、広義では『推定量の標準偏差』のことを言い、標本から得られる推定量そのもののばらつきの大きさ・推定精度を表す指標として利用される数値です。

https://atarimae.biz/archives/9881

つまり、サンプリングした標本の標準偏差を表し、結果的にはそうしたサンプルのばらつきを表していることになる、という論理ですね。

少し長くなってきたため、今回はこのくらいにします。

次回も、統計の続きを書こうかなと。また、今週はCSSにも着手して、入門編はマスターします。

 

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です