で、結局、チョコボール何個買ったらエンゼルが出るの?
概要
- 当ブログではベイズ推定によってエンゼルの出現確率の分布を推定しています
- 出現確率が予測できたら、次は、いくら投資すればおもちゃのカンヅメがもらえるのか知りたいですよね?
- ということで、チョコボールを何個買ったらエンゼルが当たるのかを計算してみます
- 結果は、85個買えば銀のエンゼルが5個当たる確率が50%を超えます。85箱買うのだ!
目次
はじめに
当ブログでは、日々チョコボールの金/銀エンゼルの出現確率を予測しています。 最近の調査では、銀のエンゼルについては、予測分布がだいぶ収束してきた感じがします。 金のエンゼルはキャンペーンの期間外ではまだ出てない。。。
しかし、エンゼルの出現確率の分布が予測できただけでは不十分ですよね?
おもちゃのカンヅメを手に入れることが目的の我々にとっては、
エンゼルの出現確率分布が予測できたなら次は、
おもちゃのカンヅメが得られるまでに投資するべき金額の見積もりを立てる必要があります。
じゃないと予算申請できません(どこに?)
というわけで今回は、 エンゼル出現確率の予測分布に基づいて、 チョコボールを何個買ったらおもちゃのカンヅメが手に入るのかを計算してみます。
先行調査との比較
2018/01/28の記事で、金のエンゼルが78箱目で得られた確率について計算していました。
chocolate-ball.hatenablog.com
この時の調査では、幾何分布のパラメータを一般の先行研究のデータを参考にして、
点推定したものを利用していました。
現在、エンゼルの予測分布がかなり収束してきているので、予測分布を活用して
何個買えばエンゼルが当たるのかを計算してみます。
点推定、分布推定については、 LTしたときの資料や下記参考資料、 webなどにたくさん解説があるので、そちらを参考にしてください。
当たりをk回引くまでにx回の試行が必要となる確率
この問題は、チョコボールだけでなく、ガチャや宝くじのように確率的な事象に対して
いくら投資すれば当たりが期待できるのか見積もりを立てるために応用できます。
クジ全般は確率的な事象なので、以下の計算で赤字になるようなら手を出さないのが鉄則です。
もしも確率以外の現象を仮定するなら、つまり、そのクジは不正に操作されていると言えるので、
もっと手を出しちゃいけませんね。
基本
以前の記事にも書いたように、 成功(確率p)か失敗(確率1-p)という二値の事象で、 毎回の確率pは変化しないという試行のことをベルヌーイ試行といいます。 チョコボールのエンゼルなどクジは基本的にこの仮定を前提にしています。
ベルヌーイ試行に従う事象で成功が起こるまでの回数の分布は幾何分布(下式)に従うことが知られています。
金のエンゼルは一つで良いので幾何分布を考えれば良いのですが、
銀のエンゼルは5つ当たらなければおもちゃのカンヅメと交換できません。
そこで、「負の二項分布(下式)」を利用します。
ここで、pは成功確率、kは成功数、xはk回成功するまでの失敗回数です。
幾何分布と比較すると、k回成功するのでとなっていますね。
この式から、k=1であれば幾何分布と同様の式になることがわかります。
ただし負の二項分布では、k回成功するまでの失敗回数の分布であることがちょっと違うので注意が必要です。
負の二項分布について詳しくは「参考文献1」などを参照ください。
成功確率p=10%、成功数5回の場合の負の二項分布の例を図1に示します。
図1右の累積確率をみることで、 確率が10%であるなら、41回までの失敗回数で5回の成功が得られる確率が50%を超えるということがわかりました。
このように、確率が一点でわかっている場合には、負の二項分布から直接失敗回数の見積もりを立てることができます。
確率が分布で与えられる場合
成功確率を点推定で予測する場合には、上記の通り負の二項分布を直接利用すれば良いです。 しかし、ここでは予測の曖昧さも含めて成功確率が分布として得られていた場合にどのように計算すれば良いのかを考えます。
成功確率でk回の成功が得られるまでの失敗回数xの分布を
とします
(この分布は上記の通り負の二項分布で表現されます)。
次に、データDを用いて予測した成功確率の事後分布を
とします
(これはいつも当ブログでベイズ推定により求めているエンゼル確率の予測分布などです)。
成功確率が一点で与えられない場合には、成功確率の確率を用いて期待値を計算すれば良いです。
つまり、これら2つの分布の積をとりに対して周辺化(積分)します。
積分の簡略化
上記の式を計算すれば、試行回数の見積もりが立てられることがわかったのですが、 実際に計算しようとすると大きな2つの問題があります。
の式ってなに?
- 積分の計算が超大変(かも)
一つ目の問題は、の予測方法に依存しています。
ベイズ推定で事後分布がよく知られた分布になるように共役事前分布を利用すれば数式で分布を表現できます。
しかし、MCMCなどで予測した場合には、数式で表現できません。
二つ目の問題は、がたとえよく知られた分布であったとしても、
負の二項分布との積の積分を解析的に解くのはなかなか面倒です。
これらの問題は、実は、確率の事後分布をMCMC法によって
サンプルの集合で表現することで、簡単に解決することができます。
MCMCで得られたサンプルは、事後分布を離散値の集合で表現します。
そこで、前節に書いた周辺化(積分)は、MCMCサンプル毎の平均で近似されるのです。
ここで、は
のサンプル集合、Nはサンプルの数を表します。
これで複雑な積分を計算する手間が削減されました。 たとえ共役事前分布を使って解析的にベイズ推定しても、その後の計算が複雑になってしまう場合はよくあると思います。 なので、近似ではありますが、 MCMCのようなサンプルベースの手法で分布の表現を持っておくと便利な場合があります。
エンゼル出現までの購入個数の予測
ここまでで、 エンゼルが出るまでに買わなければならないチョコボールの個数の見積もり方について解説してきました。 実際に現時点で得られたデータを使って、いくら買えば良いのか見積もって見ましょう。
データ概要
2018年7月8日現在、金のエンゼル二倍キャンペーンを除いたデータ数は以下の通りです。
項目 | 数 |
---|---|
計測データ数 | 156 |
銀のエンゼル出現数 | 8 |
金のエンゼル出現数 | 0 |
最尤推定量(サンプル平均)では、 銀のエンゼルの出現確率は、5.13%、 金のエンゼルは0.00%となっています。
このデータをベイズ推定で予測すると、事後分布は以下のようになります。
銀のエンゼルの場合
上記の銀のエンゼル出現確率の事後分布を利用して、 銀のエンゼルが5つ当たるまでに必要なチョコボールの購入数を計算します。 計算に利用したコードは下に載せておきますので、必要な方はご参照ください。 5章に書いたことをそのままコードにしているだけですが。
結果は以下のとおりでした。
図3右の赤の縦線は、累積確率が50%を超えるラインを示していて、80個でした。 つまり、85箱チョコボールを買えば、銀のエンゼルが5つ当たる確率が50%を超えるということです。 (失敗数80個+銀のエンゼル5箱=85箱)
一応、最尤推定量を使って計算した結果も図4に載せます。
図4右の累積確率が50%を超えるラインは86箱であり、ベイズ推定の結果と比較すると少し弱気な予測となりました。 おそらく、ベイズ推定による事後分布が少し右に偏った分布になっているからと考えています。
金のエンゼルの場合
続いて、金のエンゼルの場合にも同様の計算をしてみましょう。 はたして、いくら買えば金は当たるのでしょうか??
図5右の累積確率が50%を超えるラインは147箱でした。 が、結局金のエンゼルはまだ一つも出ておらず、これはだいぶ甘い予測になっていると考えられます。
以下に、以前の記事で引用させて頂いた 他の方の調査を載せた3つの記事の結果を使ってみます。 上記の記事をまとめると、金のエンゼルの出現確率の最尤推定量は0.14%となります。
累積確率が50%超えるまでには、494箱必要との見積もりになります。
金のエンゼルについては、 そもそも一つも金のエンゼルが出ていない状態ですので予測分布が収束していないものと思われます。 予測の事前分布に一様分布を用いているのも問題で、 先行研究で0.14%という予測が出ているので、事前分布をもう少し工夫するべきかなと思っています。
実験コード
まとめ
ということで、予測分布を利用して、何個買えばエンゼルが現れるのかを見積もってみたところ、 50%の確率で5枚の銀のエンゼルを獲得するためには85箱必要との結果が出ました。 チョコボールのコンビニ価格は80円なので、6,800円の投資でおもちゃのカンヅメが手に入りそうです!
ここで冷静に、メルカリでおもちゃのカンヅメがいくらで出ているのか調べて見ました。
だいたい1,000円〜2,000円ですね(笑)
どこに価値を置くかが重要なので、メルカリでいくらで出品されているかなんて関係ないんです!
おわりに
ということで、予測分布を利用して、何個買えばエンゼルが現れるのかを見積もってみました。 これで根拠を持って予算申請できますね!
また、 MCMCを使って事後確率を予測していたことで、 積分が簡単になるメリットが享受できましたね。 どうしても厳密解にこだわらないのであれば、 MCMCのようなサンプルベースの手法が応用しやすくて良いのかなと思っています。 サンプル数を増やせば厳密解に近づいていきますし。
参考文献
統計学入門
有名な統計学の入門書。かっちり書いてあるので、統計学を学ぶにはすごく良い。- 作者: 東京大学教養学部統計学教室
- 出版社/メーカー: 東京大学出版会
- 発売日: 1991/07/09
- メディア: 単行本
- 購入: 158人 クリック: 3,604回
- この商品を含むブログ (79件) を見る
自然科学の統計学
ベイズ推定はもちろん、回帰など統計の醍醐味がいろいろ載っている。 上記の入門書を読んでから入ると良いかも。- 作者: 東京大学教養学部統計学教室
- 出版社/メーカー: 東京大学出版会
- 発売日: 1992/08/01
- メディア: 単行本
- 購入: 26人 クリック: 308回
- この商品を含むブログ (22件) を見る
データ解析のための統計モデリング入門
通称「みどり本」。 MCMCについての理論的な部分はこのくらいは読んでおけば良いかも。データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)
- 作者: 久保拓弥
- 出版社/メーカー: 岩波書店
- 発売日: 2012/05/19
- メディア: 単行本
- 購入: 16人 クリック: 163回
- この商品を含むブログ (29件) を見る
- pythonのMCMCパッケージであるpymcの使い方を学ぶにはちょうどよい。 ただし、プログラムとして書くためのノウハウが主なので、理論的な部分はほとんど載っていない。 理論は上記の参考書などを読むと良い。
Pythonで体験するベイズ推論 PyMCによるMCMC入門
- 作者: キャメロンデビッドソン=ピロン,玉木徹
- 出版社/メーカー: 森北出版
- 発売日: 2017/04/06
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (1件) を見る