最近のコメント
    ヤスチカ
    なぁなぁ
    スミスの偏差値っていくつなの?
    ゴールドスミス
    え、偏差値?この前の校内模試だと60くらいかなぁ。

    受験生みんなが気になるもの、そうそれは偏差値!!今回はこの偏差値というものがどのように定義されているのか?それが何を意味する数字なのか?を考えていきたいと思います。

    今まさに受験生で、自分の偏差値の低さに頭を抱えている人も、まだまだ受験は先だから偏差値とかどうでもいいという方も、この記事を読んで偏差値に対する理解を深めれば、模試の偏差値が意味するところを正しく理解できるようになるかも知れませんよ!?

    それから、高校1、2年生で全国模試の偏差値が高いというみなさんも、受験学年になると、その偏差値が下がってしまう可能性があるということをご存知でしょうか?なぜ?この記事を最後まで理解できればその答えがわかります。

    ヤスチカ
    ぷぷぷw
    60とか低すぎだろw
    俺なんかこの前受けた模試で偏差値65だぜ!!
    ゴールドスミス
    あ、こいつ偏差値の意味わかってないんだろうなぁ・・・

    まず、偏差値というものを説明する前準備として、確率変数とその標準化について解説していきます。長くなると思うので、すでに理解できている人や、すぐにでも結論が知りたいという方は、目次から3つ目の項目まで飛んでください!!それでは確率変数から勉強していきましょう!

    確率変数(random variable)とは何か?

    物事を分析する際の基本は、【対象を細分化して複雑なことをより単純化して考える】という姿勢です。ここでは、確率変数の定義を確認したいわけですが、この確率変数という用語、概念を確率変数という2つの単語(概念)に分割して考えてみたいと思います。

    ゴールドスミス
    ルネ・デカルトも著作の「方法序説」の中で、同様のことを述べているよね。

    変数の定義

    Def. 変数

    変数とは変化する数、つまり、さまざまな実現値をとり得る数のことを言う。。

    ヤスチカ
    あの〜
    Def.って何のこと?
    定義を意味するdefinitionを略してDef.って表記することがよくあるんだよ

    例えば生徒数が40人のクラスで数学のテストを行い、その結果の点数を考えてみましょう。今、この結果の点数を変数として考え、変数Xというように、Xという文字を、分析の対象となる変数を表現するためのラベルとして貼りつけておきます。この時、生徒1人1人に番号を割り振っておくと、数学のテストを受けた生徒全体は

    $$\Omega = \{1, 2, 3, ……, 38, 39, 40\}$$

    ゴールドスミス
    確率論では標本空間とよばれる集合を大文字のオメガで表すんだよね

    のような集合として表すことができます。この集合の要素を使って変数Xのとり得る実現値全体の集合Rを表現すると

    $$R = \{x_1, x_2, x_3, …, x_{38}, x_{39}, x_{40}\}$$

    ゴールドスミス
    Realization? Result?

    のように表せます。より具体的には、

    $$R = \{x_1=60, x_2=70, x_3=55, …, x_{38}=80, x_{39}=49, x_{40}=90\}$$

    のような数字の集合として実現値全体が表せます。この集合Rの各要素は全て、変数Xのとり得る値となっているわけです。

    続いて、確率の定義について見ていきましょう。

    確率の定義(ラフな定義)

    例えば、サイコロを投げるという試行(trial)を考えてみましょう。このとき、試行の結果であるサイコロの個々の出目のことを根元事象(elementary event)(互いに異なる最も小さな事象)と呼びます。そして、この根元事象全体の集合のことを標本空間(sample space)と呼び、\(\Omega\)(大文字のオメガ)で表現します。さらに、この標本空間\(\Omega\)の部分集合を事象(event)と呼びます。事象は\(E\)で表すことが多いです。

    $$\Omega = \{\omega_1, \omega_2, …, \omega_n\}$$

    より具体的には、今回のサイコロの例の場合、

    $$\Omega = \{\omega_1=1, \omega_2=2, …, \omega_6=6\}$$

    となります。ここで、各事象にはその実現可能性の程度を表す確率というものが与えられます。確率は、以下のように事象\(E\)を定義域として、この\(E\)の要素に、実数の部分集合である0から1までの閉区間の要素を対応させる関数\(P\)によって与えられます。この\(P\)を確率関数と呼んでおきましょう。

    $$P : E \rightarrow [0,\ 1]$$

    例えば、\(P(E_{1, 3} = \{\omega_1, \omega_3\}\))=\(\frac{1}{3}\)、任意の\(i\)に対して\(P(E_i = \omega_i)=\frac{1}{6}\)という具合に各事象に対する確率の値が確率関数によって与えられます。

    さて、まだ確率の定義は終わっていません(汗。確率は次の公理系によって定義されます。

    Axiom: 確率の公理系
    1. 任意の\(i\)に対して、\(0 \leq P(\omega_i) \leq 1\)
    2. 全事象つまり標本空間そのものが表す事象に対して、\(P(\Omega)=1\)
    3. 任意の\(i, j, i \neq j\)に対して、\(P(E_{i, j}=\{\omega_i, \omega_j\})=P(\omega_i)+P(\omega_j)\)

    ゴールドスミス
    Axiomは公理のことだよ。公理というのは、数学理論の出発点となる仮定・命題のことなんだ。

    この3つの性質(公理)を満たすものを確率と呼ぼうと決めてしまうわけです。ここで重要なことは、標本空間と事象の定義をおさえた上で、確率が各事象の実現可能性を表現する概念であり、3つの公理を満たす確率関数によって与えられるということを理解しておくことです。

    確率論を厳密に理解しようと思うと深みにはまってしまうと思うので、純粋な理論家ではない数学ユーザーの立場としては、この程度のざっくりとした理解で事足りるのではないかと思います。(別の記事で現代数学における確率の定義については扱いたいと思っています。)

    確率変数の定義(ラフな定義)

    確率と変数を合わせた概念が確率変数です。定義としてまとめておきましょう。

    Def. 確率変数

    確率変数とは様々な実現値をとる変数であり、かつその実現値が確率関数によって与えられる変数である。

    この定義もかなりラフな定義です。もう少し厳密な定義では確率変数は写像(関数)として定義されます。これを説明するためには、現代数学における確率測度に基づいた確率の定義を知っておく必要があるので、これについては別の記事で解説したいと思います。(\(\sigma\)加法族、可測空間、確率測度といった概念を知る必要があります。)

    ヤスチカ
    なんだか難しそう…

    確率変数の変換:確率変数の標準化

    偏差値を求めるためには、確率変数の標準化という操作を知らなくてはなりません。統計学の中でよく使われる重要な操作なので、ぜひ公式として覚えて下さい!

    まずは、確率変数の期待値と分散の定義について復習するところから始めましょう。(詳しくは別の記事で解説予定です。)

    Def. 確率変数の期待値

    $$ E(X) = \sum_{i=1}^{n}x_iP(x_i) $$

    Def. 確率変数の分散

    $$ Var(X) = E((x_i – E(X))^2) $$ $$= \sum_{i=1}^{n}(x_i – E(X))^2P(x_i) $$

    ゴールドスミス
    EはExpectation(期待値)、VarはVariance(分散)のことだ。分散は分布の散らばり具合をあらわす指標だったね。

    期待値と分散の定義を復習したところで、次に確率変数の標準化(standardization)を学びましょう。

    さて、確率変数はすでに学んだように、確率付きの変数のことでした。確率変数はその定義から、何かしらの確率分布を持っていることがわかります。

    確率分布については、ひとまずここでは、確率変数の実現値とその値に対応する確率のペア全体のことだと理解しておいて下さい。

    ある確率分布の下で、その分布に対応する確率変数は、特定の期待値(平均)と分散を持ちます。このとき、この平均と分散がわかりやすい値であるとうれしいなと思うことがあります。

    そこで、確率変数にある変換を施して、その平均を0、かつ分散が1となるように確率分布を変化させてしまいますこれが確率変数の標準化(基準化)と呼ばれる操作です。この操作を数式で定義すると以下のようになります。

    Def. 確率変数の標準化(基準化)

    $$ Z = \frac{X – E(X)}{\sqrt{Var(X)}} $$

    この標準化によって、確率変数Xは新たな確率変数Zとなったわけです。

    ヤスチカ
    えぇーーー!?
    これって大丈夫なの?まるっきり別の分布になっちゃてない?
    ゴールドスミス
    大丈夫だよ。この操作は、分布の性質を保存したまま、分析する際に理解しやすいように「言い換え表現」を使っているのと同じことなんだ。

    ここまで長かったですが、この標準化という操作を理解してしまえば、ゴールまであと少しです。いよいよ、偏差値の求め方についての説明に入ります。

    偏差値の定義・求め方

    偏差値を求めるという操作は、すでに学んだ標準化と同じく、確率変数の変換の一種です。つまり偏差値化の操作では、ある確率変数が持つ分布を、平均50、標準偏差10を持つように変換してしまいます。

    今、ある確率変数Xに標準化を行い、平均0、分散1の確率変数Zが定義されていると仮定しましょう。この標準化された確率変数と以下の計算規則を用いることで、確率変数Xの偏差値化を行うことができます。

    確率変数の計算規則

    $$ E(aX + b) = aE(X) + b \tag{1}$$ $$ Var(aX + b ) = a^2Var(X) \tag{2}$$

    ゴールドスミス
    ここでaとbは定数だから注意してね!計算規則(1)は線型性と呼ばれる性質だよ。それから、計算規則(2)では定数aを2乗し忘れないように注意しよう。
    Def. 確率変数の偏差値への変換

    $$ T = 10Z + 50$$ $$= 10 \times \frac{X – E(X)}{\sqrt{Var(X)}} + 50 $$

    本当に、この変換によって平均が50で標準偏差が10になっているのか確認しておきましょう。まずは計算規則の(1)を使って、

    $$ E(T)=E(10Z + 50)$$ $$=10E(Z) + 50 = 50$$

    となります。ZはXが標準化された確率変数なので\(E(Z)=0\)であることに注意して下さい。変換後の期待値は50になっていますね。続いて分散及び標準偏差を見ていきます。ここでは計算規則の(2)を使います。

    $$ Var(T)=Var(10Z + 50)$$ $$=100Var(Z) =100 \times 1 = 100 $$

    Zは標準化された確率変数なので\(Var(Z)=1\)となっていることに注意して下さい。標準偏差は分散の正の平方根であることから、

    $$ \sqrt{Var(T)}=\sqrt{100} =10 $$

    となります。確かに、偏差値化によって確率変数Xが平均が50で標準偏差が10となる確率変数Tに変換されていることが確認できました。

    ゴールドスミス
    分散は分布の散らばり具合を表す指標であるということは説明した通りなんだけど、定義から分散は2乗計算を使っているから、その単位も2乗されてしまっていて、元の単位と桁がずれてしまっている。

    このような状態をオーダーが違うなんて表現することもあるんだけど、元の単位に戻したい時があるよね。それで、この散らばりの指標を元の単位で表現するために正の平方根をとって標準偏差にしているんだね。

    つまり、ある確率変数の各実現値を偏差値化するには以下のように変換を施せば良いことがわかります。

    具体的な実現値を偏差値に変換する方法

    $$ T_i = 10Z_i + 50 $$ $$= 10 \times \frac{X_i – E(X)}{\sqrt{Var(X)}} + 50 $$

    ここで、40人の学生が数学のテストを受けるという例を思い出して下さい。この場合、対象となる母集団は全て把握できているので、各実現値となるテストの点数がどれだけの頻度で現れるのかは正確にわかっています。つまり、各実現値に対応する確率は容易に計算できます。

    言い換えると、このテストの結果である点数分布は、確率分布として理解できるわけです。あとはこの、テストの点数にXというラベルを貼りつけて確率変数Xと名付けてしまえば、分布の平均と標準偏差を求めた上で上記の変換を行うことにより、テストを受けた各学生の偏差値が求まるわけです。

    偏差値の意味:なぜ単純に比較できないのか?

    偏差値の求め方は理解できたでしょうか?偏差値は日本人にとって馴染みのある概念でありながら、確率変数に関係する基本的な概念をおさえるのにうってつけのトピックなので、ぜひとも復習してみて下さいね!

    最後に、偏差値が持っている意味についてコメントしておこうと思います。

    すでに学んだように偏差値化は平均を50、標準偏差を10にする変換でした。学校のテストを例にすれば、数学と英語のテストを同じ集団が受験した時に、当然、2つのテストの結果分布は異なると予想されます。

    例えば、英語は平均70点で標準偏差が5、一方の数学は平均40点で標準偏差が15だとしましょう。仮に、英語で70点とっていて、数学でも70点取っている学生がいるとしましょう。

    この時、どちらの科目の方が優秀な結果をおさめていると言えるでしょうか?点数だけをみると、同じになってしまいますが、各科目の点数分布を考慮すれば、数学の方が傑出した結果だと予測がたつのではないでしょうか。

    これの予想を理論的に分析するために、それぞれの点数を偏差値化してやれば、英語は偏差値50、数学は偏差値70になります。この偏差値の比較により、英語の方が相対的に優れた成績であることが説明できます。

    このように、分布の異なるテストの結果を、同じスケール、つまり各分布を平均50かつ標準偏差10を持つように言い換えてあげれば、両科目での相対的な傑出度を知ることができるわけです。

    ただし、これは異なるテストを同じ集団(母集団)が受験しているから成り立つ比較であることに注意して下さい。ある母集団内で、各科目の成績が相対的にどれだけ傑出しているかを示したものが偏差値なのです。

    なぜなら、同じテストを別の母集団が受験したと仮定すると、テストの点数の期待値と標準偏差は一般に異なることが予想されるからです。偏差値の変換方法を見ても明らかなように、同じ点数をとったとしても、対象となる母集団が変われば、期待値と標準偏差の変化を通じて、偏差値も異なる値となります

    例えば、東大に余裕で合格するような生徒だけが受験する模試があったとして、その模試で偏差値50をとる生徒がいるとしましょう。この場合、この生徒はかなり優秀であると言えるでしょう。東大合格確実とされる集団の中で、平均的な成績をとっているわけですから当然ですね。

    仮にこの生徒が、より一般的な全国模試を受験して、玉石混交状態の母集団の中に放り込まれたとすれば、偏差値80以上 といった突出した結果が予想されるわけです。母集団が異なれば、同じ能力の人間でも、そこでの相対的な傑出度は変わりますよね。

    他にも、全国模試を受験した際の偏差値が、全国偏差値と校内偏差値で異なるという例も参考になるかもしれません。全国偏差値が70でも、トップ校の生徒の校内偏差値は60以下になるかも知れませんし、逆にその生徒が底辺校の生徒である場合、偏差値80を超えるような校内偏差値を叩き出すかも知れません。

    長々とコメントしてしまいましたが、まとめると、

    偏差値の意味

    偏差値はある母集団内での相対的な傑出度を示す指標であり、それは対象となる母集団に依存して決まる値である

    と言えます。母集団の異なる模試の偏差値を単純に比較することには意味がないということが理解できたでしょうか?

    ゴールドスミス
    それで、ヤスチカが受験した模試ってどういうものだったの?
    ヤスチカ
    中学1年生向けの模試だよ!めっちゃ簡単だった!!やっぱり俺って天才なのかなw
    ゴールドスミス
    君、今何年生だと思ってるの!!!
    ヤスチカ
    次はどの模試受けようかなぁ〜あっ、模試の過去問見っけ!!この模試受けようっと。これで偏差値70はかたいよね!笑
    ゴールドスミス
    ヤスチカが偏差値の意味をちゃんと理解できる日は来るのだろうか?・・・

    Twitterでフォローしよう

    おすすめの記事