run test - 連検定¶
概要¶
- 数列の並び方の無作為規則性=無規則性・偶然性の検証を行う検定法
- 2値データを用いて検定する
- 2値以外のデータは、基準値未満と以上とで2値に変換
- 基準値には中央値が用いられることが多い
考え方¶
アイディア¶
- 無作為であれば、理論的には中央値以上の値Aも、中央値未満の値Bも1/2の確率でサンプリングされるはず。
- AもBも連続しすぎるのも、入れ替わりすぎるのもおかしい。
- よって、AやBが連続する程度に着目することで、無作為性を検証する。
具体的な手法¶
- AまたはBの一続きのまとまりを連(run)といい、その連に含まれる記号の個数を連の長さと言う。
- A・Bが連続しすぎると、連の長さが長くなり、連の数が少なくなる。
- 逆に入れ替わりすぎると連の長さが短くなり、連の数が多くなる。
- よって、「AやBが連続する程度」は、連の数によって捉えることができる。
検定の仮説¶
帰無仮説 : 「AとBの並び方は無作為である」 対立仮説 : 「AとBの並び方は無作為ではない」
記号の数を \(n\), Aの数を\(n_{1}\), Bの数を\(n_{2}\), 連の数を\(K\)とする。
例 : 以下の場合、\(n_{1}=13\), \(n_{2}=9\), \(K=9\) となる。
AAA BB AA BBB AAAAA BBB A B AA
帰無仮説のもとでnが十分に大きい場合、\(K\)は平均値\(\mu_{K}\), 分散\({\sigma_{K}}^{2}\)の正規分布に従う。 したがって、確率変数\(Z\)を用いて検定を行うことができる。
平均値¶
\[
\mu_{K} = \frac{2n_{1}n_{2}}{n_{1}+n_{2}}+1
\]
分散¶
\[
{\sigma_{K}} = \frac{2n_{1}n_{2}(2n_{1}n_{2}-n_{1}-n_{2})}{(n_{1}+n_{2})^2(n_{1}+n_{1}-1)}
\]
確率変数¶
\[
Z = \frac{K-\mu_{K}}{\sqrt{\sigma_{K}}}
\]
帰無仮説「AとBの並び方は無作為である」に対して、検定を行い、その結果が有意でなかったとする。すなわち、帰無仮説「AとBの並び方は無作為である」が正しい時に誤って棄却してします確率が低かった (p値が有意水準よりも小さかった) とする。この場合、立てた帰無仮説は棄却されず、無作為であったと言うことができる。