計量経済学 1:古典的線形回帰モデル①

今回から計量経済学の最も基本的な理論について概観していきたいと思います。とりあえず全10回の予定で、扱う内容としては第1回から5回までで古典的線型回帰モデルと最小自乗推定量について、第6回で決定係数などに触れつつ、第7回と8回で正規分布と仮説検定(t検定とF検定)を学習します。残りの2回で一般化線型回帰モデルと一般化最小自乗法についてカバーしたいと思っています。(その後については未定です。)

さて、昨今では統計ソフトウェアの発達が著しいこともあり、統計学や計量経済学についての専門的な知識を持たない人でも簡単に統計分析を行うことができるようになりました。ビッグデータの活用などの議論が一般大衆紙に登場するなどデータサイエンスに対する関心・需要は驚くほど高くなってきています。

このような時代だからこそ、データサイエンスに多少なりとも関わる人は、それ相応に統計分析の土台となる理論についても理解しておくことが求められています。しかし、残念ながら、これまでに数学・統計学・計量経済学といったデータサイエンスに関わる諸分野について十分に学んだ経験がない人にとって、厳密な理論を0から理解するということはかなりハードルの高いことだと言わざるを得ません。そのような人にとって、教科書中心で独学するというのは大変骨が折れる苦行です。そのような学習者の苦しみをなんとか和らげることができないかということで、今回のシリーズを企画しました。(見切り発車企画なのもあって、あとから何度も改訂することになると思います。ご容赦下さい。)

本シリーズでは計量経済学の基礎理論を、レベルを落とすことなく、簡潔に解説していきます。レベルを落とさない以上、ある程度の前提知識が必要になりますが、その部分については初学者が躓きそうなとろこを中心に解説し、それでもカバーできない部分は参考文献を紹介できればと思っています。

最終的には大学院レベルの本格的な教科書で計量理論を学ぶ予定だが、基本的な部分は先に理解しておきたいという人にぜひとも読んで貰えたらと思います。それでは始めましょう!

計量経済学におけるモデルとは?

伝統的な計量経済学においては、ある変数\(y\)(従属変数; dependent variable, regressand)を他の変数\(x\)(説明変数; explanatory variable, independentory variable, regressor)を用いた式で説明できると考えるところから議論が始まります。この考えの下で、従属変数と説明変数の間になんらかの関係(式)が置かれることから計量モデルの構築が始まるのです。

$$y_i = \beta_1 x_{i1} + \beta_2 x_{i2} + … + \beta_K x_{iK} + \varepsilon_i, i = 1,2, …, N$$

計量経済学における最も基本的なモデルは古典的線形回帰モデル(classical linear regression model, CLRM)と呼称されます。このモデルは重回帰モデル(multiple regression model)と呼ばれる線形回帰モデルに分類されるものです。ここでいう“重”回帰とは定数項を除く説明変数が複数(2個以上)あるという意味です(上記の式において右辺の第1項目を\(x_{i1}=1\)とすれば定数項となりますが、定数項となる\(x_{i1}\)の項以外に2個以上の説明変数があるものを重回帰モデルと呼ぶことが多いです。定数項を無くした場合もあり得ますが、それは、重回帰の式が原点を通る直線を表すという、相当に強い仮定となります。)一方、定数項を除く説明変数が1個の場合には単回帰モデル(simple regression model)と呼ばれることになりますが、これは広義には重回帰モデルに含まれます。古典的線形回帰モデルはこの重回帰という形にいくつかの以下で説明するいくつかの制約を加えたものとなります。

ここまでのおおざっぱな理解だと計量経済学におけるモデルは、従属変数と説明変数の間に置かれる関係(式)ということになります。このような理解は間違いではありませんが、少し厳密な理解からはズレています。より厳密に計量経済学におけるモデルについて理解するためには、まず始めに計量経済学における従属変数と説明変数の取り扱い方について確認しておく必要があります。

大学で使われる学部レベルの教科書では、従属変数が確率変数として扱われる一方で、説明変数が非確率的であるという仮定が置かれていることが多いのですが、これは妥当な仮定なのでしょうか?計量経済学が扱う変数が社会経済的な(socioeconomic)ものである以上、このような仮定はかなり非現実的な仮定なのではないでしょうか?実際、多くの社会経済的な変数が対象とする被観測主体は膨大な数に及ぶのが常であり、全数調査を行うことは、時間やコストといった制約上、事実上不可能です。したがって、説明変数が非確率的な状況というのは非常に稀で、説明変数は確率変数として扱われる方が自然だということになります。

このような理解の下では、当初の「従属変数と説明変数の間になんらかの関係(式)が置かれる」という話はもう少し、厳密な言葉で理解されることになります。今、従属変数と説明変数の双方が確率変数なので、両者の関係を考えるということは、これらの確率変数の結合分布1結合確率分布については今後解説記事を書く予定です。(同時分布; joint distribution between random variables)について考えることでもあります。したがって、単にこれらの確率変数の間に関係式を置くことだけに留まらず、この結合分布に対するあらゆる仮定によって、従属変数と説明変数の関係性が記述されるのです。

まとめると、計量経済学におけるモデルは(確率変数である)従属変数と説明変数の結合分布に対して置かれる仮定の集合として定義することができます。

ここでは説明変数を確率変数として考えたので、これを非確率的と考えた場合とではモデルの中身が少し変わってきます。しかし、確率変数として考えた場合のモデルは、非確率的な場合を含めたより一般的なモデルとなるので、これを理解することで説明変数が非確率的なモデルも同時に理解することができるでしょう。両モデルにおける仮定の差異については後述する予定です。

古典的線形回帰モデルを構成する仮定①②

それでは具体的に古典的線形回帰モデルを構成する仮定について見ていきましょう。

① 線形性(linearity)

線形性

$$y_i = \beta_1 x_{i1} + \beta_2 x_{i2} + … + \beta_K x_{iK} + \varepsilon_i, i = 1,2, …, N$$

この仮定は従属変数\(y_i\)が\(K\)個の未知パラメーター\(\beta_k\)(\(k=1,2,…,K\))の線形関数として記述できるということを述べています。ここで\(i\)は観測点を表すインデックスで、\(N\)はサンプル数(観測数)になります。この仮定は、従属変数と未知パラメーターとの間の線形関係が全ての観測点において成立するという意味になります。

このように従属変数と未知パラメーターとの間に線形性を仮定するのは、線形関数が最もシンプルで扱いやすい(または解釈がしやすい)関数のクラスだからです。今後本シリーズで扱うことになりますが、この仮定を置いたことで、未知パラメーターの推定量が都合の良い形で導出されます(最小自乗推定量)。また、この線形性の仮定によって、扱う計量モデルが元々の理論モデルから乖離するのではという疑問が生じるかもしれませんが、変数変換2追記します(transformation of variables)を用いることによって、理論モデルとの整合性を担保しつつ線形性の仮定を満たすことができる場合があることに注意してください。

Ex.

\(\varepsilon_i\)は撹乱項(disturbance; disturbance term)または誤差項(error term)と呼ばれ、説明変数を含んだ項の和だけでは説明できない部分を説明する観測不可の要素全体を表します。この変数\(\varepsilon_i\)も当然確率変数であると仮定されています。\(\beta_1 x_{i1} + \beta_2 x_{i2} + … + \beta_K x_{iK}\)の部分は回帰式(regression)と呼ばれ、未知パラメーター\(\beta_k\)は回帰係数(regression coefficients)と言います。

次の仮定はこの\(\varepsilon_i\)と説明変数の関係に対する制約となります。

② 厳密な外生性(strict exogeneity)

厳密な外生性

$$E[\varepsilon_i | X]=0, i=1,2,…,N$$

読者の皆さんは条件付き期待値というものを知っているでしょうか?(追記します…)

Twitterでフォローしよう

Recommended!