疫学系院生ブログ

統計、因果推論、プログラミングなどの備忘録です。

医療統計 群間の平均値比較(連続データ)

 対応のない連続データの群間比較を行う場合、基本的にはt検定かノンパラメトリック検定で考えると思います。またt検定ではアウトカムの正規性の仮定が必要なため、一部では「とりあえずノンパラメトリック検定を行えば良い」との意見があります。しかしこの考えにはいくつかの問題点があるとされています。今回はあまり数式を使わずにまとめてみました。

t検定(ウェルチの検定)

 対応のない連続データの群間比較では一般的な検定です。2つの集団の平均値と標準誤差を元にt統計量を計算し、p値を計算する方法です。他のサイトでも多く触れられているため数式には触れませんが、通常のt検定を行う場合、2群比較ではプール分散を使用することに注意です*1。プール分散を計算する前提には等分散の仮定が置かれています。また不等分散を許すウェルチの検定という方法もあります。等分散性が満たされている場合でも両者の結果にはほとんど違いがありません。したがって等分散のF検定をするくらいなら、最初からウェルチの検定を使うべきです*2

 t検定はアウトカムの平均値とその標準誤差を検定統計量に使用するため、「正規性の仮定」が必要です。なぜなら平均値と標準誤差は正規分布に従わない分布に対しては記述統計として解釈ができないためです。ここでいう「正規性」の仮定は、データが正規分布に従うということではなく、正規母集団からデータがサンプリングされているという仮定です*3。サンプルサイズが大きいならきれいな正規分布に従うかもしれませんが、小さい場合歪んだ分布をとるケースは多いです。それでも歪んだ分布が結果にどのような影響を与えるかはわからないため、一概に「正規性の仮定」を満たしていないとは言えないのです。いずれにせよt検定を使用する場合には、アウトカムの分布をヒストグラムや正規分位プロットで確認することは必須です。

ウィルコクソンの順位和検定(マンホイットニーのU検定)

 ノンパラメトリック検定の代表的な検定です。これは個々のデータを順位変数に変換し、検定統計量を構成する方法です。検定統計量の計算については簡単に触れて起きます。2標本データを一つに統合し、小さい値から順に1からランクを割り当てます(順位変数への変換)。次に各群でのランクの合計(順位和)を計算します。そしてマンホイットニーのU検定の検定統計量は以下の式で計算ができます。

\begin{split}
U_{k} = &N_{1}N_{2} + \frac{N_{k}(N_{k}+1)}{2} - T_{k} \cr
&*N_{1}とN_{2}:各群の標本数(N1>N2)\cr
&*T_{k}:各群の順位和T_{1}かT_{2}
\end{split}

ここで順位和Tkはウィルコクソン順位和検定の検定統計量に相当します。上記の式よりマンホイットニー検定の検定統計量U1とU2が計算されます。検定で使用するのは小さい方になります。実はマンホイットニーのU検定は、検定統計量の解釈が可能な数少ないノンパラメトリック統計量の一つです。2群の観測値をそれぞれXiとYi、標本数をそれぞれN1とN2とすると、UはXi<Yiとなる可能な全てのペア数を意味しています。したがって以下の関係が成立します。

$$
\frac{U}{N_{1}N_{2}}:
$$

ただしこの両群のN数の合計が20以上の大標本下であることが必要です。
実はこの検定の問題点は大きく分けて2つあります。

問題点① 検出力の低下

 小標本下ではノンパラメトリック検定はt検定と比較すると検出力の劣る方法です。結果を比較したシミュレーションを以下に示します。以下のデータは「平均値が異なる」という条件下で生成しています。つまり帰無仮説が間違っている下で有意差を見ていますので、有意差の回数は検出力として解釈できます。以下の結果を見ると、順位和検定の方が有意な結果は少ないことがわかります。

問題点② 結果の解釈が難しく、推定に使用することもできない

 最大の問題が解釈の問題です。t検定では帰無仮説は「平均値が等しい」なので、有意差が出れば平均値が異なると解釈できます。しかし順位和検定の帰無仮説は「2つの群の分布形状が等しい」なのです*4。これは2群のどのような分布下で帰無仮説が棄却されるかを考えれば理解できます。まず分布の形状が等しく、2つの集団の平均値が異なれば、順位和の帰無仮説は棄却されます。しかし分布の形状が異なる場合、2つの集団での順位和の違いは、平均値の違いではなく分布が異なることに起因している可能性があります。つまり順位和の違いというのは、片方の群よりも大きいもしくは小さい値が多いという大雑把なことしか意味していないのです。
 またt検定は標準誤差や信頼区間の推定に利用できますが、順位和検定ではこのような区間推定は基本的に不可能です。

ではどうすればよいのか

 データの分布を見て判断し、歪んでいればt検定とノンパラメトリック検定を両方行い結果を比較するのが妥当です。もし2つの結果が異なれば、ノンパラメトリック検定の結果を解釈するという結論になります。t検定には正規性の仮定が必要ですが、データが歪んでいたとしても、実際にその歪みがどの程度結果に影響するのかは未知数です。したがってデータが歪んでいて正規性の仮定が疑われるようであれば、パラメトリック・ノンパラメトリック解析の結果を比較することが必要だと考えます。注意したいのは、仮定を満たしているかを検証するためのF検定や正規性の検定はあまり意味がないということです(多重性の問題、有意性のない結果の解釈が難しいため)。
 実はノンパラメトリック検定だけを行えばよいという意見は、統計家の先生の間でも賛否があるようです。私はAltman先生の意見を支持し、以上のように判断しました。統計学は難しい学問ですね。。。