チョコボール統計

チョコボールの秘密を統計解析で明らかにしていく。おもちゃのカンヅメ欲しい。

チョコボールデータの分析対象としてのポテンシャルについて

【概要】


【目次】


はじめに

これは、統計/機械学習の推しトピック Advent Calendar1日目用に作成した記事です。AdventCalendar、誰でも参加いただいてOKなので、お気軽に参加いただけるとうれしいです。

統計学機械学習の技術を学習する際に、書籍を読むだけだと「書いてることは何となくわかるけど、よくわからないなー」ってことありませんか?私はめちゃくちゃあります。

こういう時に、具体例を使って理論を確認すると理解が進みます。理解ができればとても楽しいです。

では、具体例として何を扱うかというのが問題となってきます。この時の対象として、チョコボールデータというのは、ほどよく単純で扱いやすい題材だと思っています。
チョコボール、美味しいですし。

そこでこの記事では、チョコボールデータを使って具体的にどんなことができるのか、分析事例を交えて紹介していきます。

【トップに戻る】

データ管理の題材として

「データ計測/管理」は、データ分析では裏方の役割になると思いますが、実用上は非常に重要なので始めに触れておきます。

データは自然に存在するわけではなくて、「何を知りたいか?」という目的に基づいて能動的に収集します。 私は、「能動的に」という部分が重要だと思っています。計測方法や計測項目を変更してしまうと、データ全体の扱いが難しくなってしまうことがあります。なので、予め目的を定めて計測方法などを定義することが重要と思います。*1

当ブログでは一番最初に、計測機器と計測項目を以下の記事で定義しました。

chocolate-ball.hatenablog.com

【トップに戻る】

統計モデルと推定の例

重量/個数のばらつき

チョコボールはピーナツ味など複数の種類があります。この中でも特にピーナツ味は、ピーナツにチョコレートがコーティングされているという製品です。なので、ピーナツ自体のばらつきが原因で全体の重さや個数がばらつきます。なお、いちご味なども製造時のばらつきによって個数や内容量にばらつきがあります。

ばらつきがあるということは、そのばらつき方を確認したいですよね。 まずは最近の内容量の分布をヒストグラムで確認してみます。

f:id:hippy-hikky:20211130011014p:plain

見事な二峰性の分布になっていますね。こういうの見ると興奮します。

このようなばらつきのある対象を確率モデルで表現することが、「統計モデリング」などと呼ばれる分野です。

この重量分布、ある時期から傾向が変わったようなのです。この件について当ブログでは、以下の記事で内容量の傾向変化のタイミングを推定してみました。

chocolate-ball.hatenablog.com

この件については、まだまだ以下のような分析をしてみたいと思っています。

エンゼル出現確率の推定

チョコボールといえば、おもちゃのカンヅメですよね。おもちゃのカンヅメといえば、銀/金のエンゼルですよね。

このエンゼルの含有率などについては公式な解説はされていません。

秘密にされているということは、そこを覗きたいのが統計愛好家としての性です*2

特に金のエンゼルの出現率は非常に低く、単純に頻度を推定値としてしまうとデータのばらつきに過度に敏感になってしまいます(過学習)。そこで以下の記事では、事前分布を設定して*3、確率モデルを設計して推論を行いました。

chocolate-ball.hatenablog.com

最新の推論結果は以下のようになっています(銀のエンゼルは約4.9%、金のエンゼルは約0.2%)。

f:id:hippy-hikky:20211130011040p:plain

この件については、まだまだ以下のような分析をしてみたいと思っています。

  • 箱買いした場合とバラで買った場合の銀のエンゼル出現確率の差
  • 味によってエンゼル出現確率に差異はあるのか?

【トップに戻る】

統計的仮説検定の例

エンゼルの含有については公式に解説がないため、ランダムに含有していると仮定して分析をしてきました。 しかし、箱買いした場合とバラで買った場合で、箱買いした時のエンゼル出現数がランダム過程にしては多いような感覚があります*4

そこで、以下の記事でランダムに含まれているのかを検定してみました。

chocolate-ball.hatenablog.com

結果は、残念ながら、ランダムであるという帰無仮説が棄却されてしまったわけです。。。でも、一つづつバラで購入すればランダムになるので、分析結果に大きな影響は出てこないのかなーとは思っていますが。

この件については、まだまだ以下のような分析をしてみたいと思っています。

  • 単純に箱買いのデータを増やしたい

【トップに戻る】

系列データの解析としての例

エンゼルの出現確率は、景品に関する法律を考慮すると、変動する可能性があります。

感覚的に2020年から2021年あたりから何となくエンゼルの出現が減ってきているような気がしないでもないです(個人的な感想)。

そこで以下の記事では、銀のエンゼル出現確率の変化があるのかを系列データの分析として扱ってみました。

chocolate-ball.hatenablog.com

結果は、減少しているとははっきりとはわかりませんでした。でも、系列データの分析楽しいですね。たくさんの仮定を入れているので、今後はモデルの改良をしていきたいです*5

この件については、まだまだ以下のような分析をしてみたいと思っています。

  • 変化点の検出
  • 確率が変化したことを明示的に持つモデルに改良(HMMなどを検討中)

【トップに戻る】

機械学習としての題材

日々の計測が楽になるかと期待して、チョコボールの個数を自動で計測するアプリを作ってみました。

chocolate-ball.hatenablog.com

結局、手作業の方が手っ取り早いということで、実用化はしなかったんですけどね。(主に、サーバスペック=予算の問題です)

この件については、まだまだ以下のような分析をしてみたいと思っています。

  • エンゼルが含まれる商品に特徴はあるのか?

【トップに戻る】

まとめ

ということで今回は、統計解析などを学習する際の題材としてチョコボールデータというのはとても面白いですよねという話をしました。 チョコボール、食べても美味しいですし。

身近な題材に注目してデータを集めるところから始めると楽しいですし、きっと仕事などにも役立つと思います。

最後に、私が溜め込んでいるデータは欲しい方には提供も考えていますので、欲しい方は使途を連絡いただけたらと思います。

【トップに戻る】

*1:「データを取ってから」考えるってアプローチはよく聞きますが、よくある失敗例でもありますよね。仮説を持たずにデータを扱っても何も生まれません。

*2:「秘密は覗きたい」は人間の本能でしょう。

*3:いわゆるベイズモデル、ベイズ推定

*4:約5%の確率だとすると、20個入りを買ってその中に1つエンゼルが含まれる確率は50%程度です。これに対して、数は少ないものの、箱買いした全てで銀のエンゼルが含まれるという点に違和感を感じたわけです。

*5:ここで紹介した記事では、確率モデルとしてノンパラメトリックなモデルを設定していたりと個人的にはけっこうチャレンジでした。こういうこともあってここの分析は楽しかった思い出。