疫学系院生ブログ

統計、因果推論、プログラミングなどの備忘録です。

回帰診断について

統計検定準1級の2017年6月過去問でわからなかった問題があったのでメモ。
意外と回帰分析について理解できていないことが発覚。。。

残差プロット

残差と予測値のプロット

残差の全体像を観察できる。線形性が成り立っている場合、残差は0を中心に一様に分布する。分布が一様でなく曲線的な傾向がある場合、線形性の仮定の妥当性が疑われる。また残差の分布の一様性からのズレが少数の外れ値によることも。

標準化残差の平方根と予測値のプロット

標準化残差の絶対値の全体像を観察できる。
プロットが予測値に対して増加・減少傾向がある場合、等分散性が成り立っていないと考えられる。この場合は説明変数か目的変数を変数変換することで等分散に近づけることができる。例えば残差が予測値に応じて増加傾向にある場合は目的変数を対数変換、減少傾向なら説明変数を対数変換する。一応通常の残差プロットでも問題なし。

Q-Qプロット

残差と正規分布の累積分布関数の分位点プロット。標準化残差と標準正規分布で主に使用。
残差が正規分布に従っているか視覚的に判断できる。正規分布から外れた外れ値を見つけることができる。

てこ比と残差のプロット

てこ比とは、ある目的変数を1増やしたときの、予測値の変化のこと。残差の回帰係数への影響度を確認できる。てこ比が大きいほど回帰係数への影響度が大きいと判断できる。cook距離大きいものは外れ値の候補になる。
cook距離は全データを用いた場合と特定の1データを除いて回帰分析を行った場合での、回帰係数の差を示す。cook距離が大きいほど予測値に

変数変換による決定係数の改善の確認

外れ値について、変数変換前のモデルよりもcook距離が小さくなっていれば改善していると言える。また残差の一様性の分布の改善が改善し、残差変動に曲線などの傾向がなくなれば、決定係数は大きくなっていると判断できる。

実測値と残差プロットから残差・予測値を特定

実測値に値を入れると、予測値を代入することで直線が得られる
実測値=予測値+残差
この直線を通るデータが特定したい残差・予測値である


自然科学の統計学 (基礎統計学)

自然科学の統計学 (基礎統計学)

  • 発売日: 1992/08/01
  • メディア: 単行本

日本統計学会公式認定 統計検定 1級・準1級 公式問題集[2018〜2019年]

日本統計学会公式認定 統計検定 1級・準1級 公式問題集[2018〜2019年]

  • 発売日: 2020/03/11
  • メディア: 単行本(ソフトカバー)