チョコボール統計

チョコボールの秘密を統計解析で明らかにしていく。おもちゃのカンヅメ欲しい。

第49回 チョコボール計測

本日の計測結果です。
同僚から2箱+自分で5箱買いました。

計測結果

date best_before weight box_weight number factory shop angel net_weight mean_weight
2018-04-14 2018-11-01 34.376 4.817 16 小山工場 コンビニ(千代田区 なし 29.559 1.847
2018-04-14 2018-11-01 34.224 4.856 14 小山工場 コンビニ(千代田区 なし 29.368 2.098
2018-04-14 2018-09-01 33.955 4.723 15 小山工場 スーパー(さいたま市) なし 29.232 1.949
2018-04-14 2018-09-01 35.214 4.757 16 小山工場 スーパー(さいたま市) なし 30.457 1.904
2018-04-14 2018-09-01 34.000 4.728 16 小山工場 スーパー(さいたま市) なし 29.272 1.830
2018-04-14 2018-09-01 33.853 4.738 15 小山工場 スーパー(さいたま市) なし 29.115 1.941
2018-04-14 2018-09-01 34.060 4.738 15 小山工場 スーパー(さいたま市) なし 29.322 1.955

7箱開封するもエンゼルはれませんでした。

同僚からもらった分を撮影するの忘れてた。。。

基礎集計

この集計はピーナツ味のチョコボールの集計結果です。 今回、イチゴ味もあるんですが、イチゴ味の方は飛ばします。

項目
計測データ数 131
銀のエンゼル出現数 0
金のエンゼル出現数 1
最小 中央値 最大値 平均
正味重量 28.913 29.385 30.508 29.446
個数 14.000 16.000 20.000 16.557

f:id:hippy-hikky:20180414213438p:plain この図は正味の重量のヒストグラムです。 赤い縦線が仕様(28g)を表しています。 青い太線で正規分布と仮定した最尤推定量をプロットしています。

エンゼル出現確率の予測

通常版のエンゼルの予測を行っていきます。 これまでの通常版パッケージの開封結果は次の通りです。

項目
計測データ数 55
銀のエンゼル出現数 2
金のエンゼル出現数 0

この結果を使ってベイズ推定によるエンゼルの出現確率推定を行います。

はじめに銀のエンゼルの出現確率の推定です。
90%信用区間(上下それぞれ5%)は、下側が1.50%、上側が10.54%という結果です。
f:id:hippy-hikky:20180414213521p:plain

次に金のエンゼルの出現確率の推定です。 90%信用区間(上下それぞれ5%)は、下側が0.07%、上側が5.19%という予測になっています。
f:id:hippy-hikky:20180414213601p:plain

広告

Amazonの欲しいものリスト作ってみました。 チョコボールのカンパ募集中です。
チョコボールをカンパする

第48回 チョコボール計測

本日の計測結果です。
同僚から2箱もらいました。

イチゴ味とピーナツ味の2箱です。

計測結果

date best_before weight box_weight number factory shop angel net_weight mean_weight
2018-04-12 2018-11-01 34.046 4.824 15 小山工場 コンビニ(千代田区 なし 29.222 1.948
2018-04-12 2018-11-01 31.529 4.786 15 小山工場 コンビニ(千代田区 なし 26.743 1.783

エンゼルは今日も現れませんでした。

今回協力してもらった同僚ですが、前回の分析記事の同僚Aです。 昨日も協力してもらったんですが、未だに連続ハズレ記録を更新中です。

基礎集計

この集計はピーナツ味のチョコボールの集計結果です。 今回、イチゴ味もあるんですが、イチゴ味の方は飛ばします。

項目
計測データ数 124
銀のエンゼル出現数 0
金のエンゼル出現数 1
最小 中央値 最大値 平均
正味重量 28.913 29.388 30.508 29.445
個数 14.000 17.000 20.000 16.629

f:id:hippy-hikky:20180413005757p:plain この図は正味の重量のヒストグラムです。 赤い縦線が仕様(28g)を表しています。 青い太線で正規分布と仮定した最尤推定量をプロットしています。

エンゼル出現確率の予測

通常版のエンゼルの予測を行っていきます。 これまでの通常版パッケージの開封結果は次の通りです。

項目
計測データ数 48
銀のエンゼル出現数 2
金のエンゼル出現数 0

この結果を使ってベイズ推定によるエンゼルの出現確率推定を行います。

はじめに銀のエンゼルの出現確率の推定です。
90%信用区間(上下それぞれ5%)は、下側が1.75%、上側が11.93%という結果です。
f:id:hippy-hikky:20180413005840p:plain

次に金のエンゼルの出現確率の推定です。 90%信用区間(上下それぞれ5%)は、下側が0.11%、上側が5.31%という予測になっています。
f:id:hippy-hikky:20180413005904p:plain

広告

Amazonの欲しいものリスト作ってみました。 チョコボールのカンパ募集中です。
チョコボールをカンパする

第47回 チョコボール計測

本日の計測結果です。
同僚から3箱もらいました。

パッケージがいつもと違うのに気づきましたか?
キョロちゃんセブンイレブンの制服着てます。

f:id:hippy-hikky:20180412010056j:plain

計測結果

date best_before weight box_weight number factory shop angel net_weight mean_weight
2018-04-11 2018-10-01 34.526 4.789 16 小山工場 コンビニ(千代田区 なし 29.737 1.859
2018-04-11 2018-10-01 33.998 4.780 16 小山工場 コンビニ(千代田区 なし 29.218 1.826
2018-04-11 2018-10-01 33.889 4.748 16 小山工場 コンビニ(千代田区 なし 29.141 1.821

エンゼルは今日も現れませんでした。

基礎集計

この集計はピーナツ味のチョコボールの集計結果です。

項目
計測データ数 123
銀のエンゼル出現数 0
金のエンゼル出現数 1
最小 中央値 最大値 平均
正味重量 28.913 29.389 30.508 29.446
個数 14.000 17.000 20.000 16.642

f:id:hippy-hikky:20180412010402p:plain この図は正味の重量のヒストグラムです。 赤い縦線が仕様(28g)を表しています。 青い太線で正規分布と仮定した最尤推定量をプロットしています。

エンゼル出現確率の予測

通常版のエンゼルの予測を行っていきます。 これまでの通常版パッケージの開封結果は次の通りです。

項目
計測データ数 46
銀のエンゼル出現数 2
金のエンゼル出現数 0

この結果を使ってベイズ推定によるエンゼルの出現確率推定を行います。

はじめに銀のエンゼルの出現確率の推定です。
90%信用区間(上下それぞれ5%)は、下側が1.73%、上側が12.56%という結果になるようです。
f:id:hippy-hikky:20180412010440p:plain

次に金のエンゼルの出現確率の推定です。 90%信用区間(上下それぞれ5%)は、下側が0.13%、上側が6.45%という予測になっています。
f:id:hippy-hikky:20180412010508p:plain

広告

Amazonの欲しいものリスト作ってみました。 チョコボールのカンパ募集中です。
チョコボールをカンパする

第46回 チョコボール計測

本日の計測結果です。
近所のコンビニで3箱買いました。

計測結果

date best_before weight box_weight number factory shop angel net_weight mean_weight
2018-04-10 2018-11-01 34.179 4.913 16 小山工場 コンビニ(さいたま市 なし 29.266 1.829
2018-04-10 2018-11-01 34.349 4.934 17 小山工場 コンビニ(さいたま市 なし 29.415 1.730
2018-04-10 2018-11-01 34.215 4.906 15 小山工場 コンビニ(さいたま市 なし 29.309 1.954

エンゼルは今日も現れませんでした。
金のエンゼル2倍キャンペーンが終わってからまだ一度も見ていないです。。。 そろそろ出て欲しい。。。

基礎集計

この集計はピーナツ味のチョコボールの集計結果です。

項目
計測データ数 120
銀のエンゼル出現数 0
金のエンゼル出現数 1
最小 中央値 最大値 平均
正味重量 28.913 29.389 30.508 29.448
個数 14.000 17.000 20.000 16.658

f:id:hippy-hikky:20180410234057p:plain この図は正味の重量のヒストグラムです。 赤い縦線が仕様(28g)を表しています。 青い太線で正規分布と仮定した最尤推定量をプロットしています。

エンゼル出現確率の予測

通常版のエンゼルの予測を行っていきます。 これまでの通常版パッケージの開封結果は次の通りです。

項目
計測データ数 43
銀のエンゼル出現数 2
金のエンゼル出現数 0

この結果を使ってベイズ推定によるエンゼルの出現確率推定を行います。

はじめに銀のエンゼルの出現確率の推定です。
90%信用区間(上下それぞれ5%)は、下側が1.95%、上側が13.64%という結果になるようです。
f:id:hippy-hikky:20180410234145p:plain

次に金のエンゼルの出現確率の推定です。 90%信用区間(上下それぞれ5%)は、下側が0.12%、上側が6.43%という予測になっています。
f:id:hippy-hikky:20180410234222p:plain

広告

Amazonの欲しいものリスト作ってみました。 チョコボールのカンパ募集中です。
チョコボールをカンパする

森永製菓  チョコボール<ピーナッツ>  28g×20箱

森永製菓 チョコボール<ピーナッツ> 28g×20箱

購入者によってエンゼルの出る確率は違う?

はじめに

運が強い弱いってこと、気になったことありますか?
チョコボールのエンゼルを含む「当たりクジ」をやたらと引いてしまう人がいるとかいないとか。 ゲン担ぎとか。

ということで今回は、チョコボールの購入者毎に、現時点での当たり確率を予測してみます。

【トップに戻る】

データ

データは、金のエンゼル2倍キャンペーンでは“無い”期間のチョコボールを対象にします。

ここまでの開封結果は下表の通りです。 同僚4人に協力してもらっています。

購入者 銀のエンゼル 総数
同僚A 0 8
同僚B 1 6
同僚C 0 2
同僚D 0 2
筆者 1 22

合計で40箱開封済みです。

頻度を見てみる

上記のデータを見てもらえばわかりますが、 筆者以外は購入数が10に満たない状態で、同僚A,C,Dはまだエンゼルが出ていません。

頻度を計算すると、同僚A,C,Dは0%、同僚Bは17%という値になります。

ここで、同僚AとC,Dでは購入数に違いがあります。 2箱しか開封していないC,Dに対して、Aは8箱も開封しています。
C,Dと比較してAの引きの弱さを感じないですか?

【トップに戻る】

少ないデータに対しての予測

本ブログでは、 このようにデータ数がまだ足りない場合の予測方法として、 「ベイズ推定」を使うアプローチをとってきました(以下の記事参照)。

chocolate-ball.hatenablog.com

ベイズ推定を使えば、 予測分布の広がり(分散)をもって、予測の信頼度を測ることができるのでした。
ということで今回も、ベイズ推定により購入者毎のエンゼル出現確率の予測をやってみます。

ベイズ推定による出現確率予測

ベイズ推定については、本ブログの他の分析記事や、参考文献等を参照ください。
上記のデータを使って、予測した結果が以下の図です。

f:id:hippy-hikky:20180409000900p:plain

この図は、以下の記事のコードをほぼ流用しています。 必要であればご参照ください。

ベイズ推定でエンゼルの出現確率を予測する - チョコボール統計

ベイズ推定で【銀の】エンゼルの出現確率を予測する - チョコボール統計

この図を見ると、 Aの予測分布が0に偏っているのに対し、 C,Dの分布がまだ広がっていることがわかります。 このことから、同僚Aの引きの弱さの直感が表現できていますね。

また、同僚Bの分布は広がってはいるものの、他と比較して高い位置に分布していることが見えます。

エンゼル出現数が0の同僚A,C,Dですが、 購入数の違いにより、Aの引きの弱さが分布に表現出来ているのが、ベイズ推定の面白いところですよね。

【トップに戻る】

まとめ

ということで、購入者別のエンゼル出現確率を予測してみました。

こういう分析は話のネタとしてはちょっとだけ笑えますが、 この結果はデータが少ないためのバラつきと考えられます。
結果の図を見てみると、 予測分布がいずれの購入者でもほぼ重なっている状態であり、 有意な差は見いだせません。

ランダムなサンプルの中からクジを引く場合、 当たりクジが入っている割合に依存して確率的に当たりが出るはずです。 (もしも確率に偏りが生じているなら、イカサマをしているという証拠)
しかし、今回のデータのようにサンプルが少ない場合には、 ばらつきのために運が良いとか悪いとか見えてしまう場合があります。 データを増やしていけば、この分布が収束していき、ほぼ重なるはずです。

もし重ならないようであれば、超常的な力が働いているのかも。。。

【トップに戻る】

おまけ

これだけだと、記事として軽いので、もう少しだけ分析を続けます。

データが少ない場合の予測は難しいものですが、 人間であれば常識や事前の知識に基づいてある程度のあたりをつけてデータを眺めることがあります。 良い場合と悪い場合あると思いますが、データが少ない場合には、大きく外す予測をしにくいという利点があります。

本ブログでは、 過去の記事で、 エンゼルの出現確率は不明なんだから無情報事前分布(一様分布)を使うということにしていました。

しかし今手元には、40箱開封して2個の銀のエンゼルが出たという証拠があります(5%)。

そこで、真の確率も5%から大きく外れた値ではないだろうというあたりをつけて予測をしてみたいと思います。

事前分布の設計

このような確率を扱う問題に対しての事前分布には、 ベータ分布が良く用いられます。 (ベータ分布については参考文献参照)

ベータ分布に従う確率変数は0から1の実数を取るので、確率をモデル化するのに調度良いという性質があります。

ベータ分布は、以下の式で表現され、パラメータは(\alpha, \beta)の2つです。

{ \displaystyle
f(x | \alpha, \beta) = \frac{x^{(\alpha - 1)}(1-x)^{(\beta-1)}}{B(\alpha, \beta)}
}

ここで、B(\alpha, \beta)はベータ関数を表します。

今回は、\alpha = 2.0\beta = 15.0として、約5%の値にピークを持つベータ分布を事前分布としてみました。(下図)

f:id:hippy-hikky:20180410003621p:plain

出現確率予測

上記のベータ分布を事前分布として、銀のエンゼルの出現確率の予測をしてみます。

実装は簡単で、過去の記事を基本にすると、 getMCMCResult関数の中で、事前分布の関数を以下のように変えているだけです。

# 出現確率pの事前分布
p = pm.Beta('p', alpha=2, beta=15)   ← この部分を変えているだけ
# 観測を結びつける
obs = pm.Bernoulli('obs', p, value=data, observed=True)

予測結果

予測結果は以下の図の通りです。

f:id:hippy-hikky:20180410003814p:plain

結論としては上記の結論とそう変わりはないのですが、 各購入者の予想分布が近づいています。
常識的に考えて、出現確率が50%を超えるようなことはまずありえないので、 妥当な結果なのかなと思います。

データが多量にあれば、事前分布の設計に気を付けることは必要ないのですが、 データが少なく、常識や事前知識がある程度ある場合には、 このように事前分布を適切なものに設計することで、 より早く妥当な分布に収束しやすくなると言えます。

また、ここでは言及しませんが、 今回のようにモデルにベルヌーイ分布を使っている場合、 ベータ分布は共役事前になり、事後分布もベータ分布になります。 つまりMCMCを使わずとも解析的に計算ができてしまいます。

このあたりの話も別の機会に書けたらと思います。

【トップに戻る】

参考文献

Pythonで体験するベイズ推論 PyMCによるMCMC入門

Pythonで体験するベイズ推論 PyMCによるMCMC入門

【トップに戻る】

広告

Amazonの欲しいものリスト作ってみました。 チョコボールのカンパ募集中です。
チョコボールをカンパする

森永製菓  チョコボール<ピーナッツ>  28g×20箱

森永製菓 チョコボール<ピーナッツ> 28g×20箱

第45回 チョコボール計測

本日の計測結果です。
近所のコンビニで2箱買いました。
久しぶりに近所のコンビニで買った気がします。

計測結果

date best_before weight box_weight number factory shop angel net_weight mean_weight
2918-04-02 2018-11-01 34.260 4.844 17 小山工場 コンビニ(さいたま市 なし 29.416 1.730
2918-04-02 2018-10-01 34.518 4.848 16 小山工場 コンビニ(さいたま市 なし 29.670 1.854

今日も現れませんでした。

基礎集計

この集計はピーナツ味のチョコボールの集計結果です。

項目
計測データ数 117
銀のエンゼル出現数 0
金のエンゼル出現数 1
最小 中央値 最大値 平均
正味重量 28.913 29.389 30.508 29.451
個数 14.000 17.000 20.000 16.675

f:id:hippy-hikky:20180402230859p:plain この図は正味の重量のヒストグラムです。 赤い縦線が仕様(28g)を表しています。 青い太線で正規分布と仮定した最尤推定量をプロットしています。

エンゼル出現確率の予測

通常版のエンゼルの予測を行っていきます。 これまでの通常版パッケージの開封結果は次の通りです。

項目
計測データ数 40
銀のエンゼル出現数 2
金のエンゼル出現数 0

この結果を使ってベイズ推定によるエンゼルの出現確率推定を行います。

はじめに銀のエンゼルの出現確率の推定です。
90%信用区間(上下それぞれ5%)は、下側が2.09%、上側が14.75%という結果になるようです。
f:id:hippy-hikky:20180402230940p:plain

次に金のエンゼルの出現確率の推定です。 90%信用区間(上下それぞれ5%)は、下側が0.16%、上側が7.00%という予測になっています。
f:id:hippy-hikky:20180402231006p:plain

広告

Amazonの欲しいものリスト作ってみました。 チョコボールのカンパ募集中です。
チョコボールをカンパする

森永製菓  チョコボール<ピーナッツ>  28g×20箱

森永製菓 チョコボール<ピーナッツ> 28g×20箱

第ex10回 チョコボール計測

番外編の10回目です。

今回はいちご味の集計です。
同僚からもらっていたものを開封します。

計測結果

では今回の計測結果です。

date best_before weight box_weight number factory shop angel net_weight mean_weight
2018-04-01 2019-01-01 31.845 4.817 16 小山工場 コンビニ(千代田区 なし 27.028 1.689

ということで、エンゼルは現れませんでした。
新パッケージになって20箱ほど開封しましたが、まだ銀のエンゼルも出てきません。

基礎集計

新旧合わせたいちご味の集計値です。

項目
計測データ数 12
銀のエンゼル出現数 0
金のエンゼル出現数 0
最小 中央値 最大値 平均
正味重量 26.327 26.640 27.067 26.662
個数 15.000 15.000 16.000 15.333

重量分布

f:id:hippy-hikky:20180401220042p:plain

上図の濃い縦線は仕様上の重量を表しています。

エンゼルの出現確率推定

金のエンゼル2倍ではないパッケージの開封結果に基づいたエンゼルの予測結果です。 ベイズ推定により出現確率の分布を予測しています。
これまでの開封結果は以下の通りです。

項目
計測データ数 38
銀のエンゼル出現数 2
金のエンゼル出現数 0

銀のエンゼルの出現確率予測

銀のエンゼルの出現確率の予測結果は以下のとおりです。

f:id:hippy-hikky:20180401220109p:plain

90%信用区間(下上それぞれ5%)は、下限が2.16%、上限が15.46%という予測になっています。

金のエンゼルの出現確率予測

金のエンゼルの出現確率の予測結果は以下のとおりです。

f:id:hippy-hikky:20180401220146p:plain まだこのパッケージで金のエンゼルが出ていないので、0に近いところに山になっています。
90%信用区間(下上それぞれ5%)は、下限が0.12%、上限が7.07%という予測になっています。

森永製菓  チョコボール<ピーナッツ>  28g×20箱

森永製菓 チョコボール<ピーナッツ> 28g×20箱

森永製菓  チョコボール<いちご>  25g×20箱

森永製菓 チョコボール<いちご> 25g×20箱