#JuliaLang #Mamba #MCMC #tdistribution #Beyesian #statistics

ベイズ統計に関する「事前分布の選び方は分析者の主観的な思い込みで決まる」というような説明は極めてよろしくないと思う。WAICやWBICの類の情報量基準の話はどこに行った?

そして、「事前分布の取り方に主観を入れたくなければ、座標不変性のあるJeffreys事前分布を選べばよい」もひどい説明だと思う。座標不変性の条件を課して、なにか推定の信頼性が増すのか?数学的な証拠を見せてくれ!

実はそんなものはない。Jeffreys事前分布を使ってよい人工的な場合と使うべきではない自然な場合については渡辺澄夫著『ベイズ統計の理論と方法』のp.169を参照。

その前頁のp.168にwaicの計算式が一本にまとめられていますね。$W_n$ を2n倍すると、AICや対数尤度比のカイ二乗検定で採用されている伝統的なスケールのWAICになります。2n倍する前の渡辺澄夫さんが採用しているスケールはKL情報量のスケールと一致。どちらのスケールにも数学的な合理性がある。

#JuliaLang #Mamba #MCMC #tdistribution #Beyesian

t分布とベイズ統計の技術(MCMC by NUTS)を使った線形回帰の実験が次のリンク先にまとまっています。

http://nbviewer.jupyter.org/gist/genkuroki/906dcd225895a9599e05403ea80efb6f

1. Julia言語で確率分布を定義する方法がわかる。

2. Julia言語でベイズ統計を扱う方法がわかる。

3. AICやWAICを計算する方法がわかる。

4. WAICの比較で事前分布を選択する方法もわかる。WAICがより低い事前分布を使った方が予測分布による真の分布の予測精度がより高いと推定される。

内容的に色々お得な #Jupyter notebook です。

特に「カラオケにおける抑揚と点数」のサンプルが絶妙に良いテストサンプルになっているので、「外れ値」の問題で遊んでみたい場合にはそのテストサンプルを試してみるべき。上のリンク先にテストサンプルの数値があります。

他の人がどのように扱うかを見てみたい。

Jupyter Notebook Viewer

#statistics #beyesian

(3) ガウシアンじゃないモデルでどうなるかも見てみたかったです。

例えば残差が$$
\rho\times t(\nu)
$$の形になる場合とか。ここで $t(\nu)$ は自由度 $\nu$ のt分布に従う確率変数。

通常のガウシアン(正規分布)なモデルでは残差が$$
\mathrm{Normal}(0,\sigma)
$$になると仮定します。

上のt分布のモデルで $\nu\to\infty$ とすると $\sigma=\rho$ の正規分布のモデルに一致します。

事前分布で $\nu$ の値が大きくなることを抑制すると、一見して外れ値があるように見えても実際には正規分布でうまく行く場合に性能が悪くなります。

しかし、$\nu$ の値が大きくなることを全然抑制しないと、ガウシアンな推定に近付いてしまい、外れ値がある場合の性能が落ちます。

事前分布の取り方が推定の精度に大きな影響を与えることになります。

データは外れ値を含むことが多いので結構面白い実験になるはず。

情報量基準を計算しないと客観的なことがあまり言えなくなる。