Private planes, mansions and superyachts: What gives billionaires like Musk and Abramovich such a massive carbon footprint

Billionaires have carbon footprints hundreds of times higher than the average American. Two scholars tried to put a number on it.

The Conversation

I’m sure someone has done a statistical study of how statistics vary with increased sample size, but I haven’t found any understandable sources.

#statistics #baysian

I’m sure someone has done a statistical study of how statistics vary with increased sample size, but I haven’t found any understandable sources.

#statistics #baysian

The expiry dates on products in your local pharmacy are the result of extensive research
and experiments. We recently published Bayesian methodology to predict shelf life in a more robust
and interpretable way. For the science behind a simple date on a packet of pills, look at our AAPS SciTech paper here: https://oa.eu/soBMjH

#baysian #datascience #statistics #shelflife #pharma

A Bayesian Approach to Kinetic Modeling of Accelerated Stability Studies and Shelf Life Determination - AAPS PharmSciTech

Kinetic modeling of accelerated stability data serves an important purpose in the development of pharmaceutical products, providing support for shelf life claims and expediting the path to clinical implementation. In this context, a Bayesian kinetic modeling framework is considered, accommodating different types of nonlinear kinetics with temperature and humidity dependent rates of degradation and accounting for the humidity conditions within the packaging to predict the shelf life. In comparison to kinetic modeling based on nonlinear least-squares regression, the Bayesian approach allows for interpretable posterior inference, flexible error modeling and the opportunity to include prior information based on historical data or expert knowledge. While both frameworks perform comparably for high-quality data from well-designed studies, the Bayesian approach provides additional robustness when the data are sparse or of limited quality. This is illustrated by modeling accelerated stability data from two solid dosage forms and is further examined by means of artificial data subsets and simulated data.

SpringerLink

#statistics #baysian

計算量のことを考えなければ、階層モデルという用語は必要ありません。全部同じ単なる確率モデルです。

あと、階層モデルはベイズ統計特有の概念ではありません。最尤法でも計算量のことを考えなければ階層モデルの概念を考えることができる。

階層モデルとはパラメーター
$z$ 付きの確率モデル $p_1(x|z)$ とパラメーター $w$ 付きの確率モデル $p_2(z|w)$ がネストしているモデルのことです。

計算量のことを考えなければ、表に出て来ない変数 $z$ について積分して得られる確率モデル$$
p(x|w)=\int p_1(x|z)p_2(z|w)\,dz
$$と上の階層モデルは同じものだとみなせます。

実際には、その積分を数値積分で実装しなければいけないことになったりして、計算量的に色々大変な思いをしなければいけなくなります。

階層モデルにおいて、WAICの定義おける $p(x|w)$ はまさに上のように積分して得られたものになります。

WAICやLOOCVの計算におけるこの問題は頭が痛いので誰か解決してほしいです。

#statistics #baysian

AICの定義は、上の $p^*$ の定義を最尤法の予測分布$$
p^*(x)=p(x|w^*)
$$で置き換えて、$T_n$ は全く同様に定義し、$$
\operatorname{AIC}_n = 2nT_n + 2d
$$とすることによって得られます。ここで $d$ はモデルの有効なパラメーターの個数です。見た目のパラメーターの個数から実際には固定されているパラメーターの個数を引けば有効なパラメーターの個数が得られます。パラメーターが動ける次元のことです。

最尤法がうまく行くケースでは、AICとWAICはほぼ同じ値になります。

渡辺澄夫著『ベイズ統計の理論と方法』の読者で自分でコードを書ける人が最初にやるべきことはWAICの実装だと思います。

最尤法でAICを計算し、ベイズ推定でWAICを計算すれば、WAICの方が精度が高そうなことをやっていることをすぐに実感できます。

階層モデルのケースでのAICとWAICの計算が難しいことの理由も自分で実装すればすぐにわかります。

#baysian #waic

渡辺澄夫著『ベイズ統計の理論と方法』からWAICの計算法を抽出するためには、

p.5 (1.8) 予測分布 $p^*(x)$ の定義

p.9 (1.21) 経験損失 $T_n$ の定義

p.117 定義22, 汎函数分散 $V_n$ の定義

p.118 定義23, WAIC $W_n$ の定義

を参照する必要があります。

というか、そこだけ見れば自分で計算できる。

AICの伝統的な流儀とスケールを合わせるためには、$2nW_n$ を WAIC と定義すればよいです。

伝統的なAICのスケールの利点はすでに解説したように対数尤度比のカイ二乗検定と関係を付け易いところです。

渡辺澄夫さんのスケールの利点はKullback-Leibler情報量と同じスケールになっていることです。

どちらもにも一長一短があります。私は渡辺澄夫さんのスケールでのWAICは小さめの数字になるので、waicと小文字で書けばよさそうだと思っています。$\mathrm{waic}=W_n$.

#statistics #baysian

サンプルの「誤差」にあたる部分が正規分布で生成されている場合には、適切なモデルを発見しさえすれば最尤法でうまくフィッティングできる場合が多いと思います。

しかし、サンプルが「外れ値」を含むと色々うまく行かなくなります。

外れ値が出る仕組みをモデルに組み込んで事後分布を計算することはMCMCを使えば易しいのですが、その代わりにWAICやLOOCVのような情報量基準の計算が大変になってしまい(MCMCの方法で避けることができていた数値積分に付き合わなければいけなくなる)、推定結果が改善されたかどうかの判断を付け難くなってしまう。

個人的にこれは結構問題で、大事な問題だと繰り返し主張しています。

#statistics #baysian

(2) ベイズ推定法の予測分布の定義は「事後分布による確率モデルの平均」です。

どうして、その予測分布が「データのないところの不確かさを表現しているように見える」のか?

それは「データがあるところでのフィッティングの精度」をあまり落とさないまま3次式を摂動させると、データがない部分で3次式の値が大きく動くからだと思いました。

事後分布を表現するMCMCのchainには、3次式の係数と上下への分散の組の列が格納されており、フィッティングが相対的にうまく行っている組がたくさん含まれ、うまく行っていない組は相対的に少ない。

データがない部分でフィッティングする義理はないので、そういう部分で3次式は暴れることになります。(chainに含まれる各パラメーターごとに3次式をプロットすればこのことは確認できるはず。)

大きく暴れている部分では確率密度は非常に小さくなり、プロットすると非常に薄い色で表示されることになります。

1次式による直線によるフィッティングだとかなり遠くまで離れないと薄くなりません。

#statistics #baysian

https://gist.github.com/tanutarou/309cd8c0c725224d96526f25c20d3262

https://www.slideshare.net/tanutarou/ss-80824894

ですが、めちゃくちゃ面白いですね。以下は色々コメント。

(1) MAP推定の事前分布の対数の $-1$ 倍は所謂「正則化項」と同じ。

例えば、標準偏差 $\sigma$ に関する事前分布が正規分布の$$
\varphi(\sigma)\propto\exp(-\lambda \sigma^2)
$$ならば、$L^2$ 正則化項$$
\lambda\sigma^2
$$を付け加えたのと同じ。標準偏差が大きくなることが抑制され、「フィッティングの結果が暴れること」が抑制されます。

15次式で正則化項無しでフィッティングすると推定結果の15次式が大きく暴れる。正則化項を付け加えると暴れ難くなります。

過学習の程度は、目で見て確認するだけではなく、何らかの情報量基準を計算して確認するべきことだと思いました。

最小二乗法、ガウスノイズモデル、ベイズ線形回帰モデルによる多項式あてはめ

最小二乗法、ガウスノイズモデル、ベイズ線形回帰モデルによる多項式あてはめ