チョコボール統計

チョコボールの秘密を統計解析で明らかにしていく。おもちゃのカンヅメ欲しい。

ベイズ推定で【銀の】エンゼルの出現確率を予測する

はじめに

以前の記事では、 金のエンゼルの出現確率をベイズ推定(MCMC)を使って予測してみました。
上記の記事では、金のエンゼルの出現確率が二倍になる代わりに、 銀のエンゼルが出現しないというキャンペーンをやっている中だったので、 しかたなく金のエンゼルの予測をしてみたのでした。

今回、番外編の計測で、 現行のキャンペーン外の賞品を開封したら銀のエンゼルが出てしまうという事件が起こってしまいました。
そこでこの記事では、金のエンゼル2倍キャンペーン外のパッケージの商品を使って、 銀のエンゼルの出現確率をベイズ推定してみます。

なお、記事の内容に間違いや意見ありましたら、ツッコミいただけるとすごく嬉しいので、 コメントお気軽におねがいします。

【トップに戻る】

データ

現在のデータでは、現行キャンペーン外の商品を9箱開封し、銀のエンゼルが1枚現れています。
銀のエンゼルは8箱目に出ました。

【トップに戻る】

ベイズ推定

ベイズ推定というのは、 当ブログのこの記事この記事 で書いたように、 あるデータ(X)が得られた際のパラメータ( \theta)をp(\theta | X) という事後分布の形で予測する手法でした。

事後分布で予測するため、 データが少なく結果に確信が持てないような場合には、 分布が広がり「確信が持てない」ことを明示的に表現できます。 なので、一般的にベイズ推定は、異常検知や戦略立案などへの応用が期待できるものです。

詳しくは、下記参考書や様々な方がブログ書いてくれているので、そちらを参照ください。

【トップに戻る】

最尤推定で予測してみる

ベイズ推定で予測すると言いながら、 まずは比較のために最尤推定してみます。

以前の記事で書いたとおり、 銀のエンゼルの出現は二項分布でモデル化できます。 二項分布のパラメータの最尤推定量は頻度(p = \frac{x}{n})になります。

ということで、最尤推定量はp = \frac{1}{9} = 0.111 (11.1\%)になります。

【トップに戻る】

ベイズ推定でのエンゼル出現確率予測

前節では、最尤推定に依って銀のエンゼルは11.1%で出現するという結論が導かれましたが、 ベイズ的にはどのような確率が予測されるのかを試してみましょう。

今回もベイズ推定の近似計算にMCMCを使いますが、 MCMCの説明やコードは以前の記事を参照ください。

ということで、いきなり結果です。

f:id:hippy-hikky:20171225001721p:plain

赤線は95%ベイズ信用区間を示しており、0.385でした(銀のエンゼルは38.5%以下であると95%の確率で確信している)。
また、中央値は0.158でしたので、最尤推定量よりも少し高めの予測をしています。

次に、予測の推移を見てみます。

f:id:hippy-hikky:20171225000815p:plain
データが1〜9個での予測事後分布の推移。横軸は銀のエンゼルの出現確率。赤線は95%ベイズ信用区間

8箱目に銀のエンゼルが出ていますので、 7箱まではどんどん0に収束していくように分布が変化しています。 8箱目で分布の形状が変わっており、確率は0ではないことがはっきりしました。

最後に、9箱まで開封した場合の予測分布の推移をgifアニメーションにしました。 f:id:hippy-hikky:20171225002322g:plain

【トップに戻る】

おわりに

銀のエンゼルの出現確率をベイズ推定してみました。 結果、現状のデータでは、39%以下の確率であると予測できました。 しかし、分布を見ると明らかに、データが少なくて確信が持てていないようです。

0ではないということがはっきりしたというくらいですね。

ということで、今後も計測を続けて金のエンゼルも銀のエンゼルも出現確率の予測精度を高めていきたいと思います。

【トップに戻る】

参考文献

定番の参考書。 ただ、ベイズ推定については載っていない。

上記の書籍の続き。 ベイズ推定など統計学の醍醐味はこっちに書いてある。

pymcの使い方というところに焦点を当てており、細かい理論は書いてないが、 pythonMCMCしたいときにはとても参考になる。

【トップに戻る】

森永製菓  チョコボール<ピーナッツ>  28g×20箱

森永製菓 チョコボール<ピーナッツ> 28g×20箱