チョコボール統計

チョコボールの秘密を統計解析で明らかにしていく。おもちゃのカンヅメ欲しい。

第60回 チョコボール計測

今日の計測報告です。
お菓子のまちおかで大人買いしたチョコボール開封の続きです。

これから、

4箱開封しました。

計測結果

date best_before weight box_weight number factory shop angel net_weight mean_weight
2018-05-16 2018-11-01 34.49 4.883 17 小山工場 スーパー(さいたま市 なし 29.607 1.742
2018-05-16 2018-11-01 34.25 4.876 16 小山工場 スーパー(さいたま市 なし 29.374 1.836
2018-05-16 2018-11-01 34.321 4.909 14 小山工場 スーパー(さいたま市 なし 29.412 2.101
2018-05-16 2018-11-01 34.785 4.909 16 小山工場 スーパー(さいたま市 なし 29.876 1.867

今回はエンゼルさん現れませんでした。

基礎集計

この集計はピーナツ味のチョコボールの集計結果です。

項目
計測データ数 171
銀のエンゼル出現数 4
金のエンゼル出現数 1
最小 中央値 最大値 平均
正味重量 28.913 29.384 31.487 29.456
個数 14.000 16.000 20.000 16.450

f:id:hippy-hikky:20180516233908p:plain この図は正味の重量のヒストグラムです。 赤い縦線が仕様(28g)を表しています。 青い太線で正規分布と仮定した最尤推定量をプロットしています。

エンゼル出現確率の予測

通常版のエンゼルの予測を行っていきます。 これまでの通常版パッケージの開封結果は次の通りです。

項目
計測データ数 95
銀のエンゼル出現数 6
金のエンゼル出現数 0

この結果を使ってベイズ推定によるエンゼルの出現確率推定を行います。

はじめに銀のエンゼルの出現確率の推定です。
90%信用区間(上下それぞれ5%)は、下側が3.50%、上側が12.22%という結果です。
f:id:hippy-hikky:20180516233944p:plain

次に金のエンゼルの出現確率の推定です。 90%信用区間(上下それぞれ5%)は、下側が0.05%、上側が3.13%という予測になっています。
f:id:hippy-hikky:20180516234005p:plain

広告

Amazonの欲しいものリスト作ってみました。 チョコボールのカンパ募集中です。
チョコボールをカンパする

第59回 チョコボール計測+おまけ

今日の計測報告です。
昨日とは別の同僚から2箱もらいました。

この同僚、同僚の中では最もたくさん購入してもらっているのに、 未だにエンゼルが1枚もあたっていません。
今回はどうなるでしょうか?

計測結果

date best_before weight box_weight number factory shop angel net_weight mean_weight
2018-05-15 2018-12-01 34.473 4.881 19 小山工場 コンビニ(千代田区 なし 29.592 1.557
2018-05-15 2018-12-01 34.308 4.88 18 小山工場 コンビニ(千代田区 なし 29.428 1.635

今回はエンゼルさん現れませんでした。 この同僚の連続ハズレ記録更新中です。

基礎集計

この集計はピーナツ味のチョコボールの集計結果です。

項目
計測データ数 167
銀のエンゼル出現数 4
金のエンゼル出現数 1
最小 中央値 最大値 平均
正味重量 28.913 29.383 31.487 29.453
個数 14.000 16.000 20.000 16.467

f:id:hippy-hikky:20180515234217p:plain この図は正味の重量のヒストグラムです。 赤い縦線が仕様(28g)を表しています。 青い太線で正規分布と仮定した最尤推定量をプロットしています。

エンゼル出現確率の予測

通常版のエンゼルの予測を行っていきます。 これまでの通常版パッケージの開封結果は次の通りです。

項目
計測データ数 91
銀のエンゼル出現数 6
金のエンゼル出現数 0

この結果を使ってベイズ推定によるエンゼルの出現確率推定を行います。

はじめに銀のエンゼルの出現確率の推定です。
90%信用区間(上下それぞれ5%)は、下側が3.48%、上側が12.59%という結果です。
f:id:hippy-hikky:20180515234258p:plain

次に金のエンゼルの出現確率の推定です。 90%信用区間(上下それぞれ5%)は、下側が0.05%、上側が3.38%という予測になっています。
f:id:hippy-hikky:20180515234326p:plain

おまけ:購入者毎のエンゼル出現率予測

chocolate-ball.hatenablog.com

この記事で、購入者ごとの運の違いが出るのか?という分析をしてみました。 (実際は、データが増えれば平均に回帰していくはずなので、購入者毎の違いは出ないはず)
あの記事以降、 同僚AとBから追加してもらったので、改めて最近の状況を見てみます。 (最近だと、58回の計測では同僚B、今回は同僚Aからもらいました)

データ

購入数が多い、同僚A、B、筆者の3人分の計測データ数です。 カッコの中は銀のエンゼルの数です。
同僚A、未だエンゼル現れず!

購入者 2018-04-10 2018-04-22 2018-05-14
同僚A 8(0) 20(0) 22(0)
同僚B 6(1) 9(1) 16(2)
筆者 22(1) 32(1) 42(4)

出現確率予測結果

手法やコードについては上記の記事を参照ください。

まず、4/22時点の結果です。同僚Aの運のなさが現れていましたね。

f:id:hippy-hikky:20180423000308p:plain
2018-04-22時点の予測結果。購入数が多い3人の結果だけに限定。

次に、最近の結果を載せます。

f:id:hippy-hikky:20180516000023p:plain
2018-05-15時点の予測結果。

最近のエンゼルラッシュのおかげで私の予測分布が同僚Bと同じようになってきましたね。

そして、同僚Aの予測分布について、0付近への偏りが凄い!

ということで、同僚Aの運の無さがさらに際立ってきたという結果でした。

広告

Amazonの欲しいものリスト作ってみました。 チョコボールのカンパ募集中です。
チョコボールをカンパする

森永製菓 チョコボール<ピーナッツ> 28g×20箱

森永製菓 チョコボール<ピーナッツ> 28g×20箱

第58回 チョコボール計測

今日の計測報告です。
同僚から4箱もらいました。

計測結果

date best_before weight box_weight number factory shop angel net_weight mean_weight
2018-05-14 2018-11-01 34.13 4.795 16 小山工場 ドラックストア(横浜市 29.335 1.833
2018-05-14 2018-11-01 34.001 4.871 16 小山工場 ドラックストア(横浜市 なし 29.130 1.821
2018-05-14 2018-11-01 34.352 4.894 16 小山工場 ドラックストア(横浜市 なし 29.458 1.841
2018-05-14 2018-11-01 34.036 4.871 17 小山工場 ドラックストア(横浜市 なし 29.165 1.716

今回もエンゼルさん現れてくれました! 連続!!

基礎集計

この集計はピーナツ味のチョコボールの集計結果です。

項目
計測データ数 165
銀のエンゼル出現数 4
金のエンゼル出現数 1
最小 中央値 最大値 平均
正味重量 28.913 29.382 31.487 29.452
個数 14.000 16.000 20.000 16.442

f:id:hippy-hikky:20180514211055p:plain この図は正味の重量のヒストグラムです。 赤い縦線が仕様(28g)を表しています。 青い太線で正規分布と仮定した最尤推定量をプロットしています。

エンゼル出現確率の予測

通常版のエンゼルの予測を行っていきます。 これまでの通常版パッケージの開封結果は次の通りです。

項目
計測データ数 89
銀のエンゼル出現数 6
金のエンゼル出現数 0

この結果を使ってベイズ推定によるエンゼルの出現確率推定を行います。

はじめに銀のエンゼルの出現確率の推定です。
90%信用区間(上下それぞれ5%)は、下側が3.77%、上側が12.54%という結果です。
f:id:hippy-hikky:20180514211140p:plain

次に金のエンゼルの出現確率の推定です。 90%信用区間(上下それぞれ5%)は、下側が0.03%、上側が3.12%という予測になっています。
f:id:hippy-hikky:20180514211201p:plain

銀のエンゼル、思ったよりも出ますね。 今の予測分布の期待値としては、7%超えちゃいます。

広告

Amazonの欲しいものリスト作ってみました。 チョコボールのカンパ募集中です。
チョコボールをカンパする

第57回 チョコボール計測

前回記事で購入した大人買いチョコボールの開封の続きです。

今日も4箱開封しました。

計測結果

date best_before weight box_weight number factory shop angel net_weight mean_weight
2018-05-12 2018-11-01 34.367 4.874 14 小山工場 スーパー(さいたま市 なし 29.493 2.107
2018-05-12 2018-11-01 34.223 4.875 18 小山工場 スーパー(さいたま市 なし 29.348 1.630
2018-05-12 2018-11-01 34.102 4.872 18 小山工場 スーパー(さいたま市 29.230 1.624
2018-05-12 2018-11-01 34.321 4.889 17 小山工場 スーパー(さいたま市 なし 29.432 1.731

今回、エンゼルさん現れてくれました!

これで銀のエンゼル5個集まったので、おもちゃのカンヅメと交換ができます。

エンゼルの印刷の濃さもバラつきがあるような。 新たな分析ネタになるかも。

基礎集計

この集計はピーナツ味のチョコボールの集計結果です。

項目
計測データ数 161
銀のエンゼル出現数 3
金のエンゼル出現数 1
最小 中央値 最大値 平均
正味重量 28.913 29.383 31.487 29.457
個数 14.000 16.000 20.000 16.447

f:id:hippy-hikky:20180512101422p:plain この図は正味の重量のヒストグラムです。 赤い縦線が仕様(28g)を表しています。 青い太線で正規分布と仮定した最尤推定量をプロットしています。

エンゼル出現確率の予測

通常版のエンゼルの予測を行っていきます。 これまでの通常版パッケージの開封結果は次の通りです。

項目
計測データ数 85
銀のエンゼル出現数 5
金のエンゼル出現数 0

この結果を使ってベイズ推定によるエンゼルの出現確率推定を行います。

はじめに銀のエンゼルの出現確率の推定です。
90%信用区間(上下それぞれ5%)は、下側が3.24%、上側が11.90%という結果です。
f:id:hippy-hikky:20180512101526p:plain

次に金のエンゼルの出現確率の推定です。 90%信用区間(上下それぞれ5%)は、下側が0.06%、上側が3.30%という予測になっています。
f:id:hippy-hikky:20180512101551p:plain

広告

Amazonの欲しいものリスト作ってみました。 チョコボールのカンパ募集中です。
チョコボールをカンパする

森永製菓  チョコボール<ピーナッツ>  28g×20箱

森永製菓 チョコボール<ピーナッツ> 28g×20箱

開封 金のキョロちゃん缶

概要

  • 金のエンゼルとおもちゃのカンヅメを交換
  • 届いたので開封してみたよ

【トップに戻る】

はじめに

chocolate-ball.hatenablog.com

金のエンゼル2倍キャンペーン中に、金のエンゼルが現れてくれました。
保存していようかとも思ったのですが、おもちゃのカンヅメと交換しました。

【トップに戻る】

応募ハガキ

普通のハガキに、エンゼルを貼り付け、住所・氏名等を記入します。 住所等はチョコボールの箱で隠しているところに書いてます。

f:id:hippy-hikky:20180512113620j:plain:w200

金のエンゼルだと1枚だけなので、 ハガキがずいぶん簡素ですね。

このハガキを送付したのが4/22でした。

【トップに戻る】

おもちゃのカンヅメ届く

5/10、宅配ボックスに入っていたのがこれです。

f:id:hippy-hikky:20180512113249j:plain:w300

配送伝票が直接この箱に貼られていたので、ほんとにこのまま配送されてました。

【トップに戻る】

開封

開けてみました。

緩衝材に包まれているキョロちゃん。 薄く目が見えるのがちょっと怖い。

f:id:hippy-hikky:20180512113336j:plain:w300

金のキョロちゃん缶です。

f:id:hippy-hikky:20180512113407j:plain:w300

【トップに戻る】

動作確認

キョロちゃんのクチバシを撫でるとしゃべります。

youtu.be

セリフ数はけっこう多くて、いろいろしゃべりますよ。 また、低確率でしゃべる秘密のセリフってのもあるらしいです。
詳しく知りたい人は自分で当ててね!

ちなみに、撫でるとしゃべる仕組みについては、 公式サイトに少し情報が載ってます。
クチバシ部分にスイッチがあって、クチバシを”押す”ことでしゃべる仕組みのようです。

これも、おもちゃのカンヅメなので中にはおもちゃが入っています。 が、これは公開しません。 知りたい人は自分で当ててね!

【トップに戻る】

広告

Amazonの欲しいものリスト作ってみました。 チョコボールのカンパ募集中です。
チョコボールをカンパする

森永製菓  チョコボール<ピーナッツ>  28g×20箱

森永製菓 チョコボール<ピーナッツ> 28g×20箱

第56回 チョコボール計測

計測記事がだいぶ時間空いてしまいました。 時間が空いた理由は、先にアップした記事にあるように、 判別モデルのための前処理プログラムを書いていたからです。

今後は、データを集めなければならないので、ペース上げて更新していく予定です。
ということで、近所のお菓子のまちおかで20箱セットを買ってきました。

この中から今日は4箱開封しました。

計測結果

date best_before weight box_weight number factory shop angel net_weight mean_weight
2018-05-11 2018-11-01 36.361 4.874 16 小山工場 スーパー(さいたま市 なし 31.487 1.968
2018-05-11 2018-11-01 34.001 4.914 16 小山工場 スーパー(さいたま市 なし 29.087 1.818
2018-05-11 2018-11-01 34.179 4.896 17 小山工場 スーパー(さいたま市 なし 29.283 1.723
2018-05-11 2018-11-01 34.266 4.884 15 小山工場 スーパー(さいたま市 なし 29.382 1.959

今回はエンゼルさん現れませんでした。

基礎集計

この集計はピーナツ味のチョコボールの集計結果です。

項目
計測データ数 157
銀のエンゼル出現数 2
金のエンゼル出現数 1
最小 中央値 最大値 平均
正味重量 28.913 29.383 31.487 29.459
個数 14.000 16.000 20.000 16.439

f:id:hippy-hikky:20180512012902p:plain この図は正味の重量のヒストグラムです。 赤い縦線が仕様(28g)を表しています。 青い太線で正規分布と仮定した最尤推定量をプロットしています。

エンゼル出現確率の予測

通常版のエンゼルの予測を行っていきます。 これまでの通常版パッケージの開封結果は次の通りです。

項目
計測データ数 81
銀のエンゼル出現数 4
金のエンゼル出現数 0

この結果を使ってベイズ推定によるエンゼルの出現確率推定を行います。

はじめに銀のエンゼルの出現確率の推定です。
90%信用区間(上下それぞれ5%)は、下側が2.48%、上側が11.08%という結果です。
f:id:hippy-hikky:20180512012946p:plain

次に金のエンゼルの出現確率の推定です。 90%信用区間(上下それぞれ5%)は、下側が0.07%、上側が3.50%という予測になっています。
f:id:hippy-hikky:20180512013009p:plain

広告

Amazonの欲しいものリスト作ってみました。 チョコボールのカンパ募集中です。
チョコボールをカンパする

森永製菓  チョコボール<ピーナッツ>  28g×20箱

森永製菓 チョコボール<ピーナッツ> 28g×20箱

パッケージ画像からエンゼルの出現を予測できるのか? 〜問題設定、前処理編〜

概要

  • エンゼル獲得の攻略情報をGoogleで検索すると、「パッケージの印刷のズレで識別できる」という複数の情報が見つかる
  • 印刷ラインが違うのでという、一見すると納得感のある予想がされているが、本当か?
  • 人が見てわかるなら画像識別モデルにより予測ができるはず
  • 予測モデル構築のための、前処理を作ってみた
  • 予測モデルの構築はもう少しデータを集めてから

【トップに戻る】

はじめに

これまでに当ブログでは、エンゼルの出現確率は実際にどのくらいなのかを予測してきました。(継続中)

ベイズ推定でエンゼルの出現確率を予測する - チョコボール統計

ベイズ推定で【銀の】エンゼルの出現確率を予測する - チョコボール統計

しかし、出現確率がわかったところで、 実際にコンビニでチョコボールを買うとき、 今手に持っているチョコボールにエンゼルが入っているのか否かを予測することには役に立ちません。

この問題に対して、ネットでエンゼルの攻略情報を検索してみるとたくさんの情報がヒットします。
チョコボール エンゼル 見分け方 - Google 検索

これらの情報を見てみると、以下の記事のように、 エンゼルの入っているパッケージは他の多くのパッケージと印刷の違いがあり、 その細かな差で判別できるとされています。 netallica.yahoo.co.jp

あたり箱とハズレ箱の間に生じている相違点を探します。同じグループであるにもかかわらず、印刷などの部分に違いがある「仲間外れ」の箱を探すのです。

これは本当なのでしょうか? 私がざっくりと情報を調べた限り、 一つまたは極少数の当たりパッケージとその他の少数のパッケージとの違いをもって 仮説を検証するとしているものが多いように見受けられます。 しかし、これまでに当ブログで言及してきたように、一つの例をもって一般化することはできません。 また、目視での比較では規準が曖昧です。

そこで、パッケージの印刷の違いでエンゼルの当たりが識別できるのかを、 識別モデルを用いて検証して見たいと思います。

ですが今回は、問題設定と前処理部分の説明になります。 現段階では、まだまだパッケージ画像が集まっていないため、 実際に識別モデルを構築するまでには至っていません。
今後、ある程度データが集まったら分析を開始する予定です。

【トップに戻る】

問題設定

仮説

エンゼルが入っているパッケージと入っていないパッケージでは、 印刷のズレ、ノイズ、色の違い文字の太さの違いなどの違いがあると仮定します。

目的は、この仮説の検証です。

データ取得環境

上記の仮説を検証するために、 チョコボールのパッケージ画像を用意します。

撮影位置や照明環境を統一するために、 パケージを展開して、スキャナで画像ファイルを作成します。

スキャナは、以下の機種を利用します。 2年位前にビックカメラで買いました。

データ例

上記環境で収得した画像データは以下のようなものです。 サイズはA4サイズで、2512x3484pixelsです。

f:id:hippy-hikky:20180510233331p:plain:w300

アプローチ

上記のパッケージ画像をトリミングするなどの前処理を行い、 Angel有無の確信度を出力する識別モデルを構築します(下図)。

f:id:hippy-hikky:20180510235613p:plain

識別モデルの構成は今後設計していきますが、 数層のConvolutional Neural Network(CNN)から初めて見ようと思います。 最初はベーシックなモデルからスタートしてみるってことですね。

【トップに戻る】

前処理

前処理は、モデルの構造やデータ数に応じて設計していく必要があります。

今回のデータは、パッケージを展開してスキャナで取り込みます。 そのためパッケージを展開する際に、糊付け部分が汚くなってしまいます(下図Aの破線部分)。 また、スキャナを利用して手動で画像を取り込むので、どうしても傾いたり位置がずれたりします。

f:id:hippy-hikky:20180511001910p:plain:w300

エンゼル有無を示す印刷のズレはあまり大きく無いと予想されます。 対して、上図Aのように画像毎に差異がはっきり出てくるような箇所があると、 本来見たい印刷の差異ではなく、このようなはっきりした差に過適応してしまうことが予想されます。

そこで、特定の部分だけをトリミングした画像(下図のような)を利用します。 今回は、画像を並行になるように回転し、上図中のB点を原点に一定の大きさを切り出すという処理を行いました。

f:id:hippy-hikky:20180511001537p:plain:w300

エンゼルの出現率が多くないと予想されるので、 Augumentationなども必要ではないかと思いますが、 それらは具体的にモデルを設計する段で検討します。

前処理コード

前処理なので、汎用的ではないですが、一応参考までに前処理用のコードをあげておきます。 誰かの参考になれば幸いです。

ざっくりと解説を示します。

画像のトリミングをするために、 左と上の辺を見つけるために、茶色の領域を検出します。
そこで、2番めのセルで、特定の色の領域を示すフィルタ(ROI)を作成する関数を定義しています。 色の指定は、RGBでの指定よりもHSV色空間で指定するとわかりやすいかなと考えたのですが、 逆にわかりにくくなったかもしれません。

3番めのセルでは、 上記のROIでの色領域の境を検出するための関数を定義しています。 単純に1ピクセルでも反応するようにしてしまうと、ノイズを拾ってしまう可能性があるので、 n_filter個のピクセルが連続で反応する位置を境として検出します。

画像を取り込み、色フィルタをかけた様子が、5番目のセルに表示されています。 茶色が見えにくくなっていますが。。。

6番目から9番目のセルで回転補正しています。 ここでは、簡単のために、パッケージ上部の辺の一部が平行になるように補正しています。 茶色部分の座標を取得し(セル7)、 取得した座標を単回帰して傾きを検出しています(セル8)。 OpenCVのハフ変換で直線の検出ができるかと考え、試してみたのですが、 さっぱりうまくいかなかったので、このようなめんどくさい手法をとっています。

残りの部分で、パッケージの表に出ている部分(上の面と底の面を除く)だけを切り抜きます。 大きさが一定だと信じて、規定量を切り抜くように書いていますが、 もっとうまい方法を思いついた方いましたら教えてください。

前処理後の画像例

前処理後の画像は以下のようになります。 だいたい想定通りに切り出せていますね。
ちなみに、以下の4枚の画像には銀のエンゼルが出たパッケージが2枚あります。 どれかわかりますか?

f:id:hippy-hikky:20180511010655p:plain

答えは、BとCです。

【トップに戻る】

まとめ

エンゼルの有無がパッケージの印刷のズレで検出できるのかを検証するためにデータを取り始めました。 まだ始まったばかりなのですが、ある程度データが集まったら識別モデルを試行してみようと思います。

今回の記事だけでは面白みは無いと思いますが、 チョコボールの永遠の課題に取り組み始めたので今後の展開をご期待いただけたらと思います。

また、データ収集手伝ってくれるよという奇特な方がいらっしゃったら、連絡いただけたらすごく嬉しいです。

【トップに戻る】

広告

Amazonの欲しいものリスト作ってみました。 チョコボールのカンパ募集中です。
チョコボールをカンパする

森永製菓  チョコボール<ピーナッツ>  28g×20箱

森永製菓 チョコボール<ピーナッツ> 28g×20箱