チョコボール統計

チョコボールの秘密を統計解析で明らかにしていく。おもちゃのカンヅメ欲しい。

第322回 チョコボール計測(ピーナッツ)【計26.52kg】

こんばんは、チョコボール統計研究所です。
今夜はピーナッツ味を2箱計測します。いろいろあってしばらく休んでましたので久しぶりの更新です。

f:id:hippy-hikky:20220301235230j:plain

こちらも更新してます → Chocolate Ball Viewer

計測結果

date best_before weight box_weight number factory shop angel net_weight mean_weight
2022-03-01 2022-06-01 33.0 4.804 16 小山工場 スーパー(さいたま市 なし 28.196 1.762
2022-03-01 2022-06-01 33.269 4.734 17 小山工場 スーパー(さいたま市 なし 28.535 1.679

今日はエンゼルさんは現れませんでした。

f:id:hippy-hikky:20220301235318j:plain

基礎集計

ピーナッツ味の集計です。

項目
計測データ数 701
銀のエンゼル出現数 30
金のエンゼル出現数 1
最小 中央値 最大値 平均
正味重量 27.330 29.265 32.232 29.173
個数 14.000 16.000 20.000 16.218

f:id:hippy-hikky:20220301235442p:plain

この図は正味の重量のヒストグラムです。 赤い縦線が仕様(28g)を表しています。 青い太線で正規分布と仮定した最尤推定量をプロットしています。

エンゼル出現確率の予測

これまでに得られているデータを利用して金と銀のエンゼルの確率を推定します。 推定方法の詳細は以下の記事を参照ください。

銀のエンゼルと金のエンゼルの出現確率をベイズ推定する(金と銀を合わせて推定) - チョコボール統計

これまでに取得したデータは次の通りです。

項目
計測データ数 934
銀のエンゼル出現数 39
金のエンゼル出現数 1

この結果を使ってベイズ推定によるエンゼルの出現確率推定を行います。

ハズレ、銀のエンゼル、金のエンゼルの確率の推定結果は以下のとおりです。

f:id:hippy-hikky:20220301235505p:plain

銀のエンゼルは、3.5%〜6.3%の間と推定しており、期待値は4.9%です。

金のエンゼルは、0.00%~0.44%の間と推定しており、期待値は0.19%です。

広告

Amazonの欲しいものリスト作ってみました。 チョコボールのカンパ募集中です。
チョコボールをカンパする

第321回 チョコボール計測(ピーナッツ)【計26.52kg】

こんばんは、チョコボール統計研究所です。
今夜はピーナッツ味を2箱計測します。

f:id:hippy-hikky:20211215220548j:plain

こちらも更新してます → Chocolate Ball Viewer

計測結果

date best_before weight box_weight number factory shop angel net_weight mean_weight
2021-12-15 2022-06-01 33.889 4.819 16 小山工場 スーパー(さいたま市 なし 29.070 1.817
2021-12-15 2022-06-01 33.508 4.735 16 小山工場 スーパー(さいたま市 なし 28.773 1.798

今日はエンゼルさんは現れませんでした。

f:id:hippy-hikky:20211215220646j:plain

基礎集計

ピーナッツ味の集計です。

項目
計測データ数 699
銀のエンゼル出現数 30
金のエンゼル出現数 1
最小 中央値 最大値 平均
正味重量 27.330 29.266 32.232 29.176
個数 14.000 16.000 20.000 16.217

f:id:hippy-hikky:20211215220817p:plain

この図は正味の重量のヒストグラムです。 赤い縦線が仕様(28g)を表しています。 青い太線で正規分布と仮定した最尤推定量をプロットしています。

エンゼル出現確率の予測

これまでに得られているデータを利用して金と銀のエンゼルの確率を推定します。 推定方法の詳細は以下の記事を参照ください。

銀のエンゼルと金のエンゼルの出現確率をベイズ推定する(金と銀を合わせて推定) - チョコボール統計

これまでに取得したデータは次の通りです。

項目
計測データ数 932
銀のエンゼル出現数 39
金のエンゼル出現数 1

この結果を使ってベイズ推定によるエンゼルの出現確率推定を行います。

ハズレ、銀のエンゼル、金のエンゼルの確率の推定結果は以下のとおりです。

f:id:hippy-hikky:20211215220838p:plain

銀のエンゼルは、3.5%〜6.3%の間と推定しており、期待値は4.9%です。

金のエンゼルは、0.00%~0.44%の間と推定しており、期待値は0.19%です。

広告

Amazonの欲しいものリスト作ってみました。 チョコボールのカンパ募集中です。
チョコボールをカンパする

チョコボールデータの分析対象としてのポテンシャルについて

【概要】


【目次】


はじめに

これは、統計/機械学習の推しトピック Advent Calendar1日目用に作成した記事です。AdventCalendar、誰でも参加いただいてOKなので、お気軽に参加いただけるとうれしいです。

統計学機械学習の技術を学習する際に、書籍を読むだけだと「書いてることは何となくわかるけど、よくわからないなー」ってことありませんか?私はめちゃくちゃあります。

こういう時に、具体例を使って理論を確認すると理解が進みます。理解ができればとても楽しいです。

では、具体例として何を扱うかというのが問題となってきます。この時の対象として、チョコボールデータというのは、ほどよく単純で扱いやすい題材だと思っています。
チョコボール、美味しいですし。

そこでこの記事では、チョコボールデータを使って具体的にどんなことができるのか、分析事例を交えて紹介していきます。

【トップに戻る】

データ管理の題材として

「データ計測/管理」は、データ分析では裏方の役割になると思いますが、実用上は非常に重要なので始めに触れておきます。

データは自然に存在するわけではなくて、「何を知りたいか?」という目的に基づいて能動的に収集します。 私は、「能動的に」という部分が重要だと思っています。計測方法や計測項目を変更してしまうと、データ全体の扱いが難しくなってしまうことがあります。なので、予め目的を定めて計測方法などを定義することが重要と思います。*1

当ブログでは一番最初に、計測機器と計測項目を以下の記事で定義しました。

chocolate-ball.hatenablog.com

【トップに戻る】

統計モデルと推定の例

重量/個数のばらつき

チョコボールはピーナツ味など複数の種類があります。この中でも特にピーナツ味は、ピーナツにチョコレートがコーティングされているという製品です。なので、ピーナツ自体のばらつきが原因で全体の重さや個数がばらつきます。なお、いちご味なども製造時のばらつきによって個数や内容量にばらつきがあります。

ばらつきがあるということは、そのばらつき方を確認したいですよね。 まずは最近の内容量の分布をヒストグラムで確認してみます。

f:id:hippy-hikky:20211130011014p:plain

見事な二峰性の分布になっていますね。こういうの見ると興奮します。

このようなばらつきのある対象を確率モデルで表現することが、「統計モデリング」などと呼ばれる分野です。

この重量分布、ある時期から傾向が変わったようなのです。この件について当ブログでは、以下の記事で内容量の傾向変化のタイミングを推定してみました。

chocolate-ball.hatenablog.com

この件については、まだまだ以下のような分析をしてみたいと思っています。

エンゼル出現確率の推定

チョコボールといえば、おもちゃのカンヅメですよね。おもちゃのカンヅメといえば、銀/金のエンゼルですよね。

このエンゼルの含有率などについては公式な解説はされていません。

秘密にされているということは、そこを覗きたいのが統計愛好家としての性です*2

特に金のエンゼルの出現率は非常に低く、単純に頻度を推定値としてしまうとデータのばらつきに過度に敏感になってしまいます(過学習)。そこで以下の記事では、事前分布を設定して*3、確率モデルを設計して推論を行いました。

chocolate-ball.hatenablog.com

最新の推論結果は以下のようになっています(銀のエンゼルは約4.9%、金のエンゼルは約0.2%)。

f:id:hippy-hikky:20211130011040p:plain

この件については、まだまだ以下のような分析をしてみたいと思っています。

  • 箱買いした場合とバラで買った場合の銀のエンゼル出現確率の差
  • 味によってエンゼル出現確率に差異はあるのか?

【トップに戻る】

統計的仮説検定の例

エンゼルの含有については公式に解説がないため、ランダムに含有していると仮定して分析をしてきました。 しかし、箱買いした場合とバラで買った場合で、箱買いした時のエンゼル出現数がランダム過程にしては多いような感覚があります*4

そこで、以下の記事でランダムに含まれているのかを検定してみました。

chocolate-ball.hatenablog.com

結果は、残念ながら、ランダムであるという帰無仮説が棄却されてしまったわけです。。。でも、一つづつバラで購入すればランダムになるので、分析結果に大きな影響は出てこないのかなーとは思っていますが。

この件については、まだまだ以下のような分析をしてみたいと思っています。

  • 単純に箱買いのデータを増やしたい

【トップに戻る】

系列データの解析としての例

エンゼルの出現確率は、景品に関する法律を考慮すると、変動する可能性があります。

感覚的に2020年から2021年あたりから何となくエンゼルの出現が減ってきているような気がしないでもないです(個人的な感想)。

そこで以下の記事では、銀のエンゼル出現確率の変化があるのかを系列データの分析として扱ってみました。

chocolate-ball.hatenablog.com

結果は、減少しているとははっきりとはわかりませんでした。でも、系列データの分析楽しいですね。たくさんの仮定を入れているので、今後はモデルの改良をしていきたいです*5

この件については、まだまだ以下のような分析をしてみたいと思っています。

  • 変化点の検出
  • 確率が変化したことを明示的に持つモデルに改良(HMMなどを検討中)

【トップに戻る】

機械学習としての題材

日々の計測が楽になるかと期待して、チョコボールの個数を自動で計測するアプリを作ってみました。

chocolate-ball.hatenablog.com

結局、手作業の方が手っ取り早いということで、実用化はしなかったんですけどね。(主に、サーバスペック=予算の問題です)

この件については、まだまだ以下のような分析をしてみたいと思っています。

  • エンゼルが含まれる商品に特徴はあるのか?

【トップに戻る】

まとめ

ということで今回は、統計解析などを学習する際の題材としてチョコボールデータというのはとても面白いですよねという話をしました。 チョコボール、食べても美味しいですし。

身近な題材に注目してデータを集めるところから始めると楽しいですし、きっと仕事などにも役立つと思います。

最後に、私が溜め込んでいるデータは欲しい方には提供も考えていますので、欲しい方は使途を連絡いただけたらと思います。

【トップに戻る】

*1:「データを取ってから」考えるってアプローチはよく聞きますが、よくある失敗例でもありますよね。仮説を持たずにデータを扱っても何も生まれません。

*2:「秘密は覗きたい」は人間の本能でしょう。

*3:いわゆるベイズモデル、ベイズ推定

*4:約5%の確率だとすると、20個入りを買ってその中に1つエンゼルが含まれる確率は50%程度です。これに対して、数は少ないものの、箱買いした全てで銀のエンゼルが含まれるという点に違和感を感じたわけです。

*5:ここで紹介した記事では、確率モデルとしてノンパラメトリックなモデルを設定していたりと個人的にはけっこうチャレンジでした。こういうこともあってここの分析は楽しかった思い出。

第320回 チョコボール計測(ピーナッツ)【計26.47kg】

こんばんは、チョコボール統計研究所です。
今夜はピーナッツ味を2箱計測します。

f:id:hippy-hikky:20211130010800j:plain

こちらも更新してます → Chocolate Ball Viewer

計測結果

date best_before weight box_weight number factory shop angel net_weight mean_weight
2021-11-29 2022-05-01 33.162 4.771 16 小山工場 スーパー(さいたま市 なし 28.391 1.774
2021-11-29 2022-06-01 33.196 4.752 16 小山工場 スーパー(さいたま市 なし 28.444 1.778

今日はエンゼルさんは現れませんでした。

f:id:hippy-hikky:20211130010937j:plain

基礎集計

ピーナッツ味の集計です。

項目
計測データ数 697
銀のエンゼル出現数 30
金のエンゼル出現数 1
最小 中央値 最大値 平均
正味重量 27.330 29.267 32.232 29.176
個数 14.000 16.000 20.000 16.218

f:id:hippy-hikky:20211130011014p:plain

この図は正味の重量のヒストグラムです。 赤い縦線が仕様(28g)を表しています。 青い太線で正規分布と仮定した最尤推定量をプロットしています。

エンゼル出現確率の予測

これまでに得られているデータを利用して金と銀のエンゼルの確率を推定します。 推定方法の詳細は以下の記事を参照ください。

銀のエンゼルと金のエンゼルの出現確率をベイズ推定する(金と銀を合わせて推定) - チョコボール統計

これまでに取得したデータは次の通りです。

項目
計測データ数 930
銀のエンゼル出現数 39
金のエンゼル出現数 1

この結果を使ってベイズ推定によるエンゼルの出現確率推定を行います。

ハズレ、銀のエンゼル、金のエンゼルの確率の推定結果は以下のとおりです。

f:id:hippy-hikky:20211130011040p:plain

銀のエンゼルは、3.5%〜6.3%の間と推定しており、期待値は4.9%です。

金のエンゼルは、0.00%~0.44%の間と推定しており、期待値は0.19%です。

広告

Amazonの欲しいものリスト作ってみました。 チョコボールのカンパ募集中です。
チョコボールをカンパする

第319回 チョコボール計測(イチゴ)【計26.41kg】

こんばんは、チョコボール統計研究所です。
今夜はイチゴ味を2箱計測します。

f:id:hippy-hikky:20211125005926j:plain

こちらも更新してます → Chocolate Ball Viewer

計測結果

date best_before weight box_weight number factory shop angel net_weight mean_weight
2021-11-24 2022-06-01 30.133 4.751 15 小山工場 スーパー(さいたま市 なし 25.382 1.692
2021-11-24 2022-06-01 30.771 4.875 15 小山工場 スーパー(さいたま市 なし 25.896 1.726

今日はエンゼルさんは現れませんでした。

f:id:hippy-hikky:20211125010031j:plain

基礎集計

イチゴ味の集計です。

項目
計測データ数 93
銀のエンゼル出現数 2
金のエンゼル出現数 0
最小 中央値 最大値 平均
正味重量 25.048 26.061 27.654 26.149
個数 14.000 15.000 16.000 15.000

f:id:hippy-hikky:20211125010205p:plain

この図は正味の重量のヒストグラムです。 赤い縦線が仕様(28g)を表しています。 青い太線で正規分布と仮定した最尤推定量をプロットしています。

エンゼル出現確率の予測

これまでに得られているデータを利用して金と銀のエンゼルの確率を推定します。 推定方法の詳細は以下の記事を参照ください。

銀のエンゼルと金のエンゼルの出現確率をベイズ推定する(金と銀を合わせて推定) - チョコボール統計

これまでに取得したデータは次の通りです。

項目
計測データ数 928
銀のエンゼル出現数 39
金のエンゼル出現数 1

この結果を使ってベイズ推定によるエンゼルの出現確率推定を行います。

ハズレ、銀のエンゼル、金のエンゼルの確率の推定結果は以下のとおりです。

f:id:hippy-hikky:20211125010231p:plain

銀のエンゼルは、3.5%〜6.3%の間と推定しており、期待値は4.9%です。

金のエンゼルは、0.00%~0.44%の間と推定しており、期待値は0.19%です。

広告

Amazonの欲しいものリスト作ってみました。 チョコボールのカンパ募集中です。
チョコボールをカンパする

第318回 チョコボール計測(ピーナッツ)【計26.36kg】

こんばんは、チョコボール統計研究所です。
今夜はピーナッツ味を2箱計測します。

f:id:hippy-hikky:20211116180011j:plain

こちらも更新してます → Chocolate Ball Viewer

計測結果

date best_before weight box_weight number factory shop angel net_weight mean_weight
2021-11-16 2022-05-01 33.405 4.763 18 小山工場 スーパー(さいたま市 なし 28.642 1.591
2021-11-16 2022-06-01 33.346 4.753 17 小山工場 スーパー(さいたま市 なし 28.593 1.682

今日はエンゼルさんは現れませんでした。

f:id:hippy-hikky:20211116180059j:plain

基礎集計

ピーナッツ味の集計です。

項目
計測データ数 695
銀のエンゼル出現数 30
金のエンゼル出現数 1
最小 中央値 最大値 平均
正味重量 27.330 29.267 32.232 29.178
個数 14.000 16.000 20.000 16.219

f:id:hippy-hikky:20211116180315p:plain

この図は正味の重量のヒストグラムです。 赤い縦線が仕様(28g)を表しています。 青い太線で正規分布と仮定した最尤推定量をプロットしています。

エンゼル出現確率の予測

これまでに得られているデータを利用して金と銀のエンゼルの確率を推定します。 推定方法の詳細は以下の記事を参照ください。

銀のエンゼルと金のエンゼルの出現確率をベイズ推定する(金と銀を合わせて推定) - チョコボール統計

これまでに取得したデータは次の通りです。

項目
計測データ数 926
銀のエンゼル出現数 39
金のエンゼル出現数 1

この結果を使ってベイズ推定によるエンゼルの出現確率推定を行います。

ハズレ、銀のエンゼル、金のエンゼルの確率の推定結果は以下のとおりです。

f:id:hippy-hikky:20211116180337p:plain

銀のエンゼルは、3.5%〜6.3%の間と推定しており、期待値は4.9%です。

金のエンゼルは、0.00%~0.44%の間と推定しており、期待値は0.19%です。

広告

Amazonの欲しいものリスト作ってみました。 チョコボールのカンパ募集中です。
チョコボールをカンパする

第317回 チョコボール計測(ピーナッツ)【計26.30kg】

こんばんは、チョコボール統計研究所です。
今夜はピーナッツ味を2箱計測します。

f:id:hippy-hikky:20211112181429j:plain

こちらも更新してます → Chocolate Ball Viewer

計測結果

date best_before weight box_weight number factory shop angel net_weight mean_weight
2021-11-12 2022-05-01 32.412 4.781 16 小山工場 スーパー(さいたま市 なし 27.631 1.727
2021-11-12 2022-05-01 33.486 4.755 16 小山工場 スーパー(さいたま市 28.731 1.796

銀のエンゼルさん現れました!

f:id:hippy-hikky:20211112181618j:plain

基礎集計

ピーナッツ味の集計です。

項目
計測データ数 693
銀のエンゼル出現数 30
金のエンゼル出現数 1
最小 中央値 最大値 平均
正味重量 27.330 29.267 32.232 29.180
個数 14.000 16.000 20.000 16.215

f:id:hippy-hikky:20211112181909p:plain

この図は正味の重量のヒストグラムです。 赤い縦線が仕様(28g)を表しています。 青い太線で正規分布と仮定した最尤推定量をプロットしています。

エンゼル出現確率の予測

これまでに得られているデータを利用して金と銀のエンゼルの確率を推定します。 推定方法の詳細は以下の記事を参照ください。

銀のエンゼルと金のエンゼルの出現確率をベイズ推定する(金と銀を合わせて推定) - チョコボール統計

これまでに取得したデータは次の通りです。

項目
計測データ数 924
銀のエンゼル出現数 39
金のエンゼル出現数 1

この結果を使ってベイズ推定によるエンゼルの出現確率推定を行います。

ハズレ、銀のエンゼル、金のエンゼルの確率の推定結果は以下のとおりです。

f:id:hippy-hikky:20211112181958p:plain

銀のエンゼルは、3.5%〜6.4%の間と推定しており、期待値は4.9%です。

金のエンゼルは、0.00%~0.44%の間と推定しており、期待値は0.19%です。

広告

Amazonの欲しいものリスト作ってみました。 チョコボールのカンパ募集中です。
チョコボールをカンパする