
記述統計学と推測統計学
統計学にはいくつかの分野が存在しています。
- 記述統計学(descriptive statistics)
- 推測統計学(inferential statistics)
- ベイズ統計学(Bayesian statistics)
この3つの分野が統計学の基本的な分類になります。その中でも、日本の大学における基礎教養レベルの統計学で扱われる内容は、主に記述統計学と推測統計学の2分野が中心となります。
記述統計学では、分析対象となるデータをうまく要約することによって、そのデータから分析に必要な情報を抽出する作業を扱います。データ要約の方法としては、例えばデータの中心に関する全体の特徴を代表するような指標として平均値、中央値、最頻値などの統計量が使われます。また、ヒストグラムや散布図といったグラフもデータを要約するための手法として利用されています。
データの中心に関する特徴を表す統計量のことを代表値(measure of central tendency)と呼ぶ。主に、平均値(mean)、中央値(median)、最頻値(mode)などが使われる。
推測統計学は、データの分布に関する分析に関して用いられる統計手法の総称ですが、基本的には母集団から(無作為)抽出された標本を用いて、分析対象である母集団分布の特徴を推測するという作業を行います。その際、確率論に基づいた推測が行われるというのが推測統計の最大の特徴です。
今回は、記述統計学の入門的な内容として、標本データを要約するために使われる主な統計量を勉強します。具体的には上で挙げた3つの代表値の1つである平均とデータの散らばりの程度を表す分散・標準偏差を学びます。
平均と分散・標準偏差
データの平均:データの中心を要約する
今、あなたはインターネットビジネスに関するコンサル業務をあるブログの運営者から依頼されていると仮定します。
そのコンサル業務の一環として、あなたは依頼者から「(日本語で運営されている)アフィリエイトブログの収益ってだいたいどれくらいなんでしょうか?」という調査依頼を受けています。あなたはこの依頼に応えるために、日本語で運営されているアフィリエイトブログの収益に関する以下のデータを手に入れて、そのデータを分析した結果を報告しなくてはなりません。

楽勝!楽勝!あ、報酬は弾んでよね!!
もしもクライアントに対して、「ブログ1の月収は100万円、ブログ2は20万円で・・・」でなどと、データを馬鹿正直に並べるだけの報告書を提出しようjものなら、このコンサル契約は解消されてしまうことでしょう。


ここで依頼者はアフィリエイトブログでどのくらい稼げるのかという情報を端的に示す1つの数字を要求しているわけです。その要求に応えるためには、うまく手元のデータの情報を要約するような方法を考えなくてはいけません。
以下に、具体的なデータを挙げておきます。日本語で運営されているアフィリエイトブログは無数に存在するわけですが、そのすべてについて収益データを収集することは不可能です。そのため、統計分析を行う際には、全体のデータから抽出された一部のデータを用いることで逆に全体のデータが持っているであろう特徴を推測するというプロセスが基本となります。つまり、ここで扱う平均や分散といった統計量は記述統計学の概念であると同時に、推測統計学における分析への初めの一歩ともなるわけです。
さて、これら無数に存在するアフィリエイトブログの収益データ全体を指して、統計学ではこれを母集団(population)と呼びます。この母集団に対して、実際の分析に使うための限られたデータのことを標本(sample)と呼び区別します。コストや時間などの制約から、母集団全体のデータを得られない代わりに、母集団から抽出した標本を分析に使うわけです。つまり、今見ている具体的なデータは標本データということになります。
アフィリエイトブログ | 収益(月) |
ブログ1. | 100万円 |
ブログ2. | 20万円 |
ブログ3. | 5万円 |
ブログ4. | 15万円 |

さて、このサイズ4の標本データから、1つのブログあたりの収益を代表するような1つの数字をつくり出してみましょう。
まずは1つの数字にするために、標本データの要素をすべて足し合わせてみます。すると、
$$100万 + 20万+ 5万+15万 =140万(円)$$
となりますが、このままでは1つのブログあたりの収益を代表するとは言えそうにありません。そこで、1つあたりの値にするための操作として、標本のサイズ4で割ることにします。結果として、
$$(100万 + 20万+ 5万+15万)/4 =140万/4=35万(円)$$
となります。このように、データ全体の数字を足し合わせて、データ1つあたりの数値にしたものを平均と言います。

これを数式でまとめておくと、次のようになります。
$$ \bar x = \frac{1}{N}\sum_{i=1}^{N}x_i $$
ここで、\(x_i\)は標本データの各観測値(observation)を表しています。大文字のシグマを使って、すべての観測値、つまりここでは4つの観測値を合計しています。大文字のシグマを使った記号表現は\(x_i\)を\(i=1\)から\(i=4\)まですべて足し合わせるという演算を表しているわけです。そしてデータ1つあたりの数値にするために、標本データのサイズN(ここでは4)で割っているわけです。

データの分散:データの散らばり具合を要約する
データを分析する際に、そのデータがどの程度の散らばり具合で分布しているのかという情報を要約することがあります。ここでは、分散と呼ばれるデータの散らばり具合を要約する統計量を説明します。
散らばり具合を見るためには、まず基準となる点を決める必要があります。その基準点を中心にして、そこからどの程度離れて(散らばって)データが分布しているのかを考えるわけです。
それでは、その基準点としてどのような点を選ぶべきでしょうか?統計学ではデータの散らばりを見るための基準点はデータの中心とします。つまり、統計学ではデータが中心からどの程度散らばってデータが分布しているのかに興味があるわけです。
少し現実の例で考えてみましょう。もしも、学校のクラスメイトがどこに住んでいるのかを調べようとすれば、各生徒の家の所在地が観測値になります。その住所がどの程度散らばって分布しているのかに関心がある場合、どの場所を基準として距離を測りますか?おそらく、その学校のある場所を基準に考えるのではないでしょうか?なぜなら、このような分布に関心がある場合、隣町の学校を基準にしても、そこから得られる距離情報(散らばりの情報)にはあまり意味がないからです。そして学校には学区があり、それは学校からの距離で通学範囲を規定するものですから、学校は生徒の居住地の中心に位置するはずです。
この例のように、多くの場合で中心からの散らばり具合を考えるのは、その分析によって何かしらの意味を見出せる可能性が高いからです。我々は統計学を用いて、データから何かしらの解釈を導き出したいという目的があるので、このように中心に注目するわけです。
さて、実際には何をもってデータの中心とするのでしょうか?勘がよい方は、すでにお気づきになっているかもしれませんね。そうです。先ほど学んだデータの平均値をデータの中心として、データの散らばりを測るための基準点にします。すでに説明したように、平均はデータの中心を要約する最も基本的な統計量だからです。これで基準点(ここでは平均値)と各データとの距離(偏差)を計る準備が整いました。
それでは実際に、平均のところで使ったデータを使って、各データの平均からの偏差を調べてみましょう。

(各データの値) ー (平均値)で計算しよう。
アフィリエイトブログ | 収益(月) | 平均からの偏差 |
ブログ1. | 100万円 | +65万円 |
ブログ2. | 20万円 | -15万円 |
ブログ3. | 5万円 | -30万円 |
ブログ4. | 15万円 | -20万円 |
合計 | 140万円 | 0円 |
ここで我々はデータ全体の散らばりの程度を要約したいので、とりあえず各データの散らばり具合の指標である各データの平均からの偏差をすべて足し合わせてみましょう。ただの足し算なので計算は簡単にできますね。

このデータはまったく散らばっていないんだね!!!

データの平均からの偏差の合計は0円!これがデータの散らばり具合の答え…とはなりません。実は平均からの偏差の合計は常に0になってしまいます。困りました。このままではデータ全体の散らばり具合を表現できません。
この問題を解決するためにはいくつかの方法があります。ここでの基本となる考え方は、符号がマイナスになるものを全て正の値にして足し合わせるというものです。
簡単に思いつく方法としては各偏差の絶対値を足し合わせるという方法があります。しかし、今回の例では簡単に計算できますが、符号で場合分けするというのは本来大変面倒な処理です。そこで、もう一つの方法として、各偏差の2乗をとって合計するという方法をとります。
これで、全体の散らばり具合の情報が1つの値に集約されました。このままでも、データの散らばりの指標と言えますが、最後にデータのサイズで割ることで、データ1つあたりの指標に修正しておきましょう。そうすることで、サイズの違う標本間での比較が可能になります。この処理をしないと、標本サイズが大きいほど散らばりが大きいという問題が発生してしまい、比較に意味がなくなってしまいます。
これで、ようやくデータの散らばり具合を要約する統計量である分散が完成しました。平均と同様に数式でまとめておきましょう。
$$ Var(x) = \frac{1}{N}\sum_{i=1}^{N}(x_i -\bar x)^2 $$

データの標準偏差:分散の修正
さて、散らばりの指標として分散を定義したのですが、実は分散には大きな問題があります。それは単位が元のデータとずれてしまっているということです。元のデータやその中心を表す統計量の平均は円が単位でしたが、データの散らばりを示す分散は2乗の計算をしている関係で、単位も2乗された円\(^2\)となってしまっています。
できれば、元のデータと同じ単位をもつ散らばりの指標も欲しいというのが人情というものです。また、長々と面倒なことをしないといけないのかと思った人もいると思いますが、安心してください!このような指標を得ることは簡単にできます。単純に分散の正の平方根をとってあげれば、元のデータと同じ単位をもつ散らばりの指標となる統計量が完成します。これも数式でまとめておきましょう。
$$ \sqrt {Var(x)} = \sqrt {\frac{1}{N}\sum_{i=1}^{N}(x_i -\bar x)^2} $$
今回はここまでです。平均については多くの人がすでに知っている内容だったと思いますが、分散や標準偏差も平均と同じくらい強力なデータ要約のツールですので、ぜひとも定義を覚えておきましょう!