観測度数とセル確率から対数尤度を計算
- \(f_{ij}\):観測度数
B | B’ | |
---|---|---|
A | \(f_{11}\) | \(f_{12}\) |
A’ | \(f_{21}\) | \(f_{22}\) |
- \(p_{ij}\):セル確率
- モデルから計算されたセルの確率
- AとBに関連がないモデルにおいては、期待度数をサンプルサイズで割ったもの
B | B’ | |
---|---|---|
A | \(p_{11}\) | \(p_{12}\) |
A’ | \(p_{21}\) | \(p_{22}\) |
尤度関数を\(L\)とすると
\[ L = \prod_i \prod_j p_{ij}^{f_{ij}} = p_{11}^{f_{11}} \times p_{12}^{f_{12}} \times p_{21}^{f_{21}} \times p_{22}^{f_{22}} \]
各セルの確率を(観測度数)乗したものを全部掛け算
対数尤度はこれの対数を取ったもの
\[ \log L = \sum_i \sum_j f_{ij} \log p_{ij} = f_{11} \log p_{11} + f_{12} \log p_{12} + f_{21} \log p_{21} + f_{22} \log p_{22} \]
掛け算が足し算になるので計算しやすい
尤度比カイ2乗値との関係
尤度比カイ2乗値(\(G^2\))と観測度数(\(f\))・期待度数(\(F\))の関係は以下の式で表される(Hout 1983; McCutcheon 1987)
\[ G^2 = 2 \sum_i \sum_j f_{ij} \log \frac{f_{ij}}{F_{ij}} \]
なぜこうなるのか?対数尤度の比から考えてみる。
まず、AとBに関連がないというモデル(独立モデル)のもとで対数尤度を計算する。この条件ではセル確率\(p_{ij}\)は期待度数\(F_{ij}\)をサンプルサイズ\(N\)で割ったものになる。
\[ \log L_1 = \sum_i \sum_j f_{ij} \log p_{ij} = \sum_i \sum_j f_{ij} \log \frac{F_{ij}}{N} = \sum_i \sum_j f_{ij} \log F_{ij} - \sum_i \sum_j f_{ij} \log N \]
次に、AとBに関連があるというモデル(飽和モデル)のもとで対数尤度を計算する。この条件ではセル確率\(p_{ij}\)は観測度数\(f_{ij}\)をサンプルサイズ\(N\)で割ったものになる。
\[ \log L_2 = \sum_i \sum_j f_{ij} \log p_{ij} = \sum_i \sum_j f_{ij} \log \frac{f_{ij}}{N} = \sum_i \sum_j f_{ij} \log f_{ij} - \sum_i \sum_j f_{ij} \log N \]
対数尤度の差(=尤度の比)を計算すると
\[\begin{align} \log L_2 - \log L_1 &= \sum_i \sum_j f_{ij} \log f_{ij} - \sum_i \sum_j f_{ij} \log F_{ij} \\ \log \frac{L_2}{L_1} &= \sum_i \sum_j (f_{ij} \log f_{ij} - f_{ij} \log F_{ij}) \\ \log \frac{L_2}{L_1} &= \sum_i \sum_j f_{ij} \log \frac{f_{ij}}{F_{ij}} \\ \end{align}\]
それっぽい形になった。
さらに両辺を2倍すると
\[ 2 \log \frac{L_2}{L_1} = \log (\frac{L_2}{L_1})^2 = 2 \sum_i \sum_j f_{ij} \log \frac{f_{ij}}{F_{ij}} \]
したがって尤度比カイ二乗値は、尤度比の2乗の対数をとったものである。
あるいは、以下のように変形すればdeviance(-2対数尤度)の差としても表現できる。
\[ 2 \log \frac{L_2}{L_1} = (-2 \log L_1) - (- 2 \log L_2) \]