第13回 - 07年度春学期

統計学入門

集団の特徴を知るために

統計学という学問があります。恐らく数学嫌いで数学を避けていたのに、大学に入ってから数字と計算を行わなくてはならないということで、苦手意識を持っている人が多いのではないでしょうか。確かに基本的な計算は多く出てきますが、その内容はそんなに難しいことではありません。少しずつ理解していけば必ず習得できる「ツール」だと思った方が良いでしょう。

この講義では統計学のほんの入門的な部分を扱います。統計学の考え方を身につけてもらうことがこの講義の目標です。

さて、統計学の大きな目的は、「集団の性質を書き表す」ということにあります。なるべく少ない種類の言葉や数で、集団の性質を書き表すことができたら便利ですよね。この講義ではまずその点から導入をおこないたいと思います。このような形で利用する統計を、「記述統計」といったりします。

代表値

皆さんは、ある集団の性質を示すのに、たった一つだけしか数字を使っちゃいけませんと言われたら、どのように示しますか?
そうですね、例としては皆さんが小学生向けの塾の講師をしていると思ってください。そこに10人の小学生がいるとしましょう。この10人の小学生たちの背の高さを、たった一つの数字で表すとしたら、どのように表現しますか? 恐らく一番背の高い人や一番背の低い人の値を代表とすることはないでしょうね。だいたい真ん中くらいの数字を出すのではないでしょうか。
「うーん。だいたい○○センチくらいかなぁ」
いやいや、はっきりと根拠のある数字を出してください。
「あ、平均?」
そうです。平均値を出すのも一つの解決策ですね。このように、「ある集団の特徴を表す一つの数字」を、統計学の中では、「代表値」といいます。平均値も代表値の一つです。他には「中央値」とか「最頻値」なんてものもあります。下にそれぞれの性質をまとめておきますね。

  • 平均値(算術平均値)
    • 分布の重心のこと。たぶんそう言われても困ると思いますけど(笑)。データを全て足し合わせてデータの数で割れば求められます。
  • 中央値
    • 別名を「メディアン」といいます。データを小さい順に並べたときに、その中央の順位にくる値です。ずばり「真ん中の値」ですね。データの数が偶数の場合は真ん中二つの平均値になります。
  • 最頻値
    • データの中の最も度数の多い数値のことです。別名「モード」といいます。「今年のモードは」っていうのは「猫も杓子も着てる服は」というような意味ですよ。

さて、よく使われる代表値はこの3種類です。これから扱っていく統計学の中では、平均値を用いることが多いです。平均値は全てのデータの値が公平に使われていますし、なかなか便利なのですよ。平均値は「基本統計量」の一つですし、今後の計算にも深く関わってくる、とっても重要な値です。

散布度

さて、たった一つの値で「集団の性質を書き表す」という目標は達成できるでしょうか? 確かに代表値は、集団のある側面を表現しているのは確かです。でも、ちょっと考えると代表値一つだけではちょっと足りないことがわかると思います。
たとえば先ほどの10人の小学生たちが、国語の試験と算数の試験を受けたとします。仮の話なので極端な例になりますが、

  • 国語:平均値50点。結果は45点から55点の範囲に収まっています。
  • 算数:平均値50点。結果は0点から100点までいます。

という場合も、代表値だけでは同じ値になってしまいますよね。でも、これって性質が違うと思いませんか? これって一体何が違うのでしょう。
「算数の方が幅が広いかな」
そうですね、言い換えれば、得点の範囲が違います。さらに別の言い方をすれば、これはばらつき具合が違うとも表現できます。代表値だけでは表せない、ばらつきの具合についても何か数字一つで表せれば便利ですよね? ちなみに「散布度」っていいます。これ、どうやって表現しますか?
「国語は45点から55点の間なんだから、その間の数字を計算すればいいんじゃない? 55点から45点を引いて10点とか。」
それなら算数は100点だね。確かにそれは一つの表現方法だね。確かに範囲という形でばらつき具合は表現できるけど、これは実はちょっと不公平なことがあるんだ。範囲を求める計算には、最小値と最大値の二つの値しか用いていないので、「はずれ値」に弱いんだよ。
「はずれ値ってなに?」
そうだなぁ。私の靴のサイズって知ってる?
「え、知りませんよ。どれどれ……うわ、でかい!!」
うん。私の足のサイズは31cmなんだ。これって、凄く大きいよね? こんな人が混ざっていたら、範囲を求めても、それに余り意味がないことになってしまう。だから、不公平にならないようにも、その集団の数値を全部使いたいんだ。
「平均値と同じってことですか?」
そうだね。平均値も集団の数値を全部使った。同じようにばらつき具合を求めるにも、その集団の値を全部使おうじゃないか。ところで「ばらつき」って何からのばらつき具合を指してると思う?
「え、何からって。うーん」
ああ、考え込んじゃったね。答えを言うと、平均値からのばらつき具合にあたるんだ。それぞれのデータの値は、平均値からどれくらいばらついてるか? という形で表現できるよね。
「そうですね。なら、それぞれのデータの値と平均値を比べればいいってことですか?」
まずは差を求めればいいね。それぞれのデータが平均値からどれだけ離れているか、というのを求めるところから始めよう。平均より大きいものはプラスの値。平均より小さいものはマイナスの値になるよ。
「でもこれだけだと、一つの値では表現できてませんよね」
そうなんだ。だからどうにかして一つの値にしようじゃないか。
「なら全部足しましょう。一つの値になりますよ」
名案だね、といいたいところだが、落ち着いてよく考えてみよう。それってゼロになっちゃうんだよ。
「あれれ。本当だ」

名前点数点数-平均値
1.あきら2-3
2.いずみ2-3
3.うみの3-2
4.えいじ3-2
5.おさむ4-1
6.かつみ6+1
7.きんじ7+2
8.くにこ7+2
9.けいこ8+3
10.こうじ8+3
平均値5.0合計0

ね。だから、何か工夫しなきゃいけないんだ。そうだなぁ、値を全部正の値にするのがいいね。
「絶対値だとどうですか?」
うーん。それは「平均偏差」っていう指標で、確かに一つの考え方だけど、実は絶対値にしちゃうと、実は余り具合がよろしくないんだよ。代わりに二乗するっていう方法を使ってみよう。そうすれば正の値になるよね。そしてそれを全部足し合わせれば、めでたく全ての値を使ってばらつきの程度を表現できる。

名前点数(点数-平均値)^2
1.あきら29
2.いずみ29
3.うみの34
4.えいじ34
5.おさむ41
6.かつみ61
7.きんじ74
8.くにこ74
9.けいこ89
10.こうじ89
平均値5.0合計:54

今回だとこの計算の結果54がばらつきを表現するための値になる。これを「偏差平方和」とか「偏差二乗和」とか「偏差自乗和」とか呼ぶんだ。混乱するからここでは「偏差平方和」で統一することにしようか。この数値が散布度の基本中の基本なんだ。
「ふーん。基本ってことは他にもあるんですか?」
うん。ある。偏差平方和は、集団に含まれる数値の数が増えるとそれに従って値が大きくなっちゃうんだ。二乗して合計するっていう計算だから、集団の構成によって数が左右されるんだね。だから、実際によく使われる値は、集団の構成によって調整された値の方なんだ。それを「分散」というんだよ。今回は10人だったから、偏差平方和の54を10で割ってあげればいい。結果の5.4が分散だ。分散はばらつき具合の平均値といったところだね。でも、これって、単位が元の単位の二乗になっているから、元に戻してしまおう。
「ああ、二乗して足し合わせたんだからそうですよね」
だったらその平方根を取ってあげれば、元々の単位に合うようになる。これを標準偏差っていうんだ。今回は分散が5.4だから、その平方根は2.32だね。

これはどちらも同じことを言ってるのは分かるかな。標準偏差はこれから先も頻繁に出てくる散布度の指標だよ。よく覚えておいてね。

そんな訳で、ある集団を表すには、数字二つあれば足りるということになります。一つは代表値。そしてもう一つが散布度です。代表値は、多くの場合平均値を用います。そして散布度は標準偏差または分散を用いることになります。とりあえずデータを与えられたら、これらの値をすぐに計算できるようになっておくと良いでしょう。統計ソフトを使うより先に、最低限これくらいの知識は無いと困りますからね。

そのデータはグループの中でどの位置にあるのか?

さて、ここまでのプロセスで、「ある集団の特徴を二つの数字で書き表す」ということが出来るようになっていると思います。「代表値」と「散布度」の二つの値です。これが求められることが、統計学の第一歩です。これらをふまえて、次は「ある集団の中の一つのデータは、その集団の中でどの位置関係にあるか」ということを扱ってみたいと思います。え、分かりづらい? もう少し具体的にいえば「偏差値」を求めようという話になります。

名前国語の点数算数の点数
1.あきら20
2.いずみ21
3.うみの32
4.えいじ33
5.おさむ44
6.かつみ66
7.きんじ77
8.くにこ78
9.けいこ89
10.こうじ810
平均値5.05.0
標準偏差2.323.31

こういう成績表の中で、一人一人の成績は、各教科ごとに、全体のどの位置にいるのか? というのをあるモノサシで測りたいということです。たとえば表のデータは同じ平均点の二つのテストです。でも、平均より1点高いということにどれだけの重みがあるのか、っていうのは、テストのばらつき具合で変わりますよね。100点満点で、0点から100点までの人がいるテストにおける1点と、成績が45点から55点までの間に集中しているテストの1点では、1点の重みが違います。だから、実はテストの成績などは、点数だけではなかなか比べられないっていうことが分かると思います。だから比べるためのモノサシを用意して、そのモノサシに変換してあげればいいってことになります。そうすれば、どんな集団におけるどんな位置のデータでも、絶対的な意味を持ってくるってことになります。こんな手続きを、「標準化」なんていいます。

それでは具体的な標準化の手続きを書いていきましょう。

「偏差値とかってこれのことですか?」
そうですよ。高校や大学入試でよく使われる「偏差値」は、テストの点数を標準化して、全体のどのあたりにいるのかを表すと同時に、教科ごとの比較ができるようにした上で、素人でも扱いやすくしたものです。これを用いることで、自分自身が全体のどのあたりに位置しているか、ということも直感的に理解できるようになります。
「え、なんで自分の位置がわかるんですか?」
それを今から説明するんですよ。キーワードは「標準化」とか「正規化」と呼ばれる手続きです。

正規分布

まず、分布の形というところから入ってみたいと思います。多くの集団は、大小極端な値を取るデータは少なく、中心あたりのデータが多い、という性質を持っています。現実には様々なゆがみがあるのですが、こういう分布のうち理想的な形をしたものを、「正規分布」といいます。そして、平均値が0で、標準偏差が1のものを、特に「標準正規分布」と呼びます。重要なことは、どんな正規分布も、標準正規分布に変換することが可能という点です。この手続きを「標準化」とか「正規化」なんて呼びます。
それでは、先ほどの例に出てきている誰かの国語と算数の成績を比較できるようにする方法を考えましょう。そうですね、とりあえず「うみの」さんの国語の点数に注目してみましょうか。「うみの」さんの国語の成績は3点です。ちなみに平均値は5.0点で、標準偏差は2.32でした。これらの材料を使って、集団の平均値を0、標準偏差を1に変換していくことにしましょう。

手続きとしては、素点から平均値を引きます。「うみの」さんの場合は-2ですね。で、この-2という値が、その集団の標準偏差で、何個分の位置にあるかと考えます。だから、素点から平均値を引いた値を、標準偏差で割る、という手続きになります。実際におこなってみると「-0.86」って出ます。これは、今回の国語の成績の分布を、平均値を0、標準偏差が1の標準正規分布に変換した場合に、「うみの」さんの成績は、平均値から標準偏差0.86個分だけ低い値ですよ、という意味です。この値をZスコアと呼びます。Zスコアには単位がありません。そしてZスコアに変換した値同士であれば、標準正規分布上で比較することができるのです。

今回のデータの場合だと、平均点が同じ国語と算数のテストで、たとえ同じ点数を取ったとしても、全体を考えるとより成績が悪いということもあり得る訳です。事実、国語と算数の成績が同じ3点の「うみの」さんの成績を見てみましょう。先ほど「うみの」さんの国語の成績は、Zスコアに直すと-0.86でした。算数ではどうでしょう。計算をしてみると、素点は3で、平均値は5.0、標準偏差は3.32です。こうなると、「うみの」さんの算数の得点のZスコアは-0.60になります。同じ3点でも、全体から見たら国語の方がより成績が悪いといえます。

偏差値

こうやってZスコアに直すことで、自分が平均値からZスコアを単位としていくつ分離れているかが計算できるようになります。でも、Zスコアは小数点以下の値が出てきたり、マイナスになることも多いので、素人には余り理解しやすいとは言い難いのは確かです。なので、Zスコアを10倍して、50を足すことで、正の値に変換する方法が編み出されました。これが「偏差値」の求め方です。偏差値は、つまりZスコアそのものなのですね。

さて、「うみの」さんの国語のZスコアを偏差値に直すとすると、-0.86を10倍して50を足してみましょう。すると41.4となります。これが「うみの」さんの国語の成績です。もっと頑張らないといけませんね。


さて、今回の講義は、「集団の性質を記述する」という意味で、「記述統計」と呼ばれる手続きについて説明しました。統計学には、さらに先があります。集めたデータを、ある集団からのサンプルとして扱い、その元となる集団の性質を推測する、という「推測統計」などがあります。推測統計については、今後どこかに記す可能性がありますが、今日はここまでにしておきましょう。

それでは。