#statistics #baysian

https://gist.github.com/tanutarou/309cd8c0c725224d96526f25c20d3262

https://www.slideshare.net/tanutarou/ss-80824894

ですが、めちゃくちゃ面白いですね。以下は色々コメント。

(1) MAP推定の事前分布の対数の $-1$ 倍は所謂「正則化項」と同じ。

例えば、標準偏差 $\sigma$ に関する事前分布が正規分布の$$
\varphi(\sigma)\propto\exp(-\lambda \sigma^2)
$$ならば、$L^2$ 正則化項$$
\lambda\sigma^2
$$を付け加えたのと同じ。標準偏差が大きくなることが抑制され、「フィッティングの結果が暴れること」が抑制されます。

15次式で正則化項無しでフィッティングすると推定結果の15次式が大きく暴れる。正則化項を付け加えると暴れ難くなります。

過学習の程度は、目で見て確認するだけではなく、何らかの情報量基準を計算して確認するべきことだと思いました。

最小二乗法、ガウスノイズモデル、ベイズ線形回帰モデルによる多項式あてはめ

最小二乗法、ガウスノイズモデル、ベイズ線形回帰モデルによる多項式あてはめ

#statistics #baysian

(2) ベイズ推定法の予測分布の定義は「事後分布による確率モデルの平均」です。

どうして、その予測分布が「データのないところの不確かさを表現しているように見える」のか?

それは「データがあるところでのフィッティングの精度」をあまり落とさないまま3次式を摂動させると、データがない部分で3次式の値が大きく動くからだと思いました。

事後分布を表現するMCMCのchainには、3次式の係数と上下への分散の組の列が格納されており、フィッティングが相対的にうまく行っている組がたくさん含まれ、うまく行っていない組は相対的に少ない。

データがない部分でフィッティングする義理はないので、そういう部分で3次式は暴れることになります。(chainに含まれる各パラメーターごとに3次式をプロットすればこのことは確認できるはず。)

大きく暴れている部分では確率密度は非常に小さくなり、プロットすると非常に薄い色で表示されることになります。

1次式による直線によるフィッティングだとかなり遠くまで離れないと薄くなりません。

#statistics #beyesian

(3) ガウシアンじゃないモデルでどうなるかも見てみたかったです。

例えば残差が$$
\rho\times t(\nu)
$$の形になる場合とか。ここで $t(\nu)$ は自由度 $\nu$ のt分布に従う確率変数。

通常のガウシアン(正規分布)なモデルでは残差が$$
\mathrm{Normal}(0,\sigma)
$$になると仮定します。

上のt分布のモデルで $\nu\to\infty$ とすると $\sigma=\rho$ の正規分布のモデルに一致します。

事前分布で $\nu$ の値が大きくなることを抑制すると、一見して外れ値があるように見えても実際には正規分布でうまく行く場合に性能が悪くなります。

しかし、$\nu$ の値が大きくなることを全然抑制しないと、ガウシアンな推定に近付いてしまい、外れ値がある場合の性能が落ちます。

事前分布の取り方が推定の精度に大きな影響を与えることになります。

データは外れ値を含むことが多いので結構面白い実験になるはず。

情報量基準を計算しないと客観的なことがあまり言えなくなる。

#statistics #baysian

サンプルの「誤差」にあたる部分が正規分布で生成されている場合には、適切なモデルを発見しさえすれば最尤法でうまくフィッティングできる場合が多いと思います。

しかし、サンプルが「外れ値」を含むと色々うまく行かなくなります。

外れ値が出る仕組みをモデルに組み込んで事後分布を計算することはMCMCを使えば易しいのですが、その代わりにWAICやLOOCVのような情報量基準の計算が大変になってしまい(MCMCの方法で避けることができていた数値積分に付き合わなければいけなくなる)、推定結果が改善されたかどうかの判断を付け難くなってしまう。

個人的にこれは結構問題で、大事な問題だと繰り返し主張しています。