チョコボール統計

チョコボールの秘密を統計解析で明らかにしていく。おもちゃのカンヅメ欲しい。

【検定】エンゼルが欲しいならチョコボールは大人買いすべき

【概要】

  • 当ブログでは、チョコボールのエンゼルはランダムに出てくると仮定して出現確率を推論してきました
  • でも、ほんとにランダムに現れるのだろうか?
  • ということで確認してみた

【目次】


はじめに

当ブログではここまで、チョコボールのエンゼルは確率pに従ってランダムに出現すると仮定し、その確率pを推論してきました。

chocolate-ball.hatenablog.com

chocolate-ball.hatenablog.com

しかし、20個セットの箱買いをした場合に、いつもエンゼルが出てくることが気になっていました。

そこで今回は、箱買いした場合、エンゼルの出現はランダムなのか?それとも20個パッケージの中に少なくとも1つのエンゼルが含まれていたりしないか?を検定により確認してみます。

ただし、「まとめ」にも書いていますが、今回の結果は色々怪しいところもありますので、より良い方法や間違っている点について指摘してもらえるとすごく助かります。

【トップに戻る】

問題設定

売店では通常、チョコボールはバラバラで一箱づつ売られています(1個80円くらい)。しかし出荷時には、20個が一つにパッケージングされています。多くの店舗では、この20個パックで購入することもできますので、見たことがある方は多いと思います。本記事では、この20個のセットを「カートン」と呼ぶことにします。

当ブログではここまで、バラで購入したチョコボールが多いのですが、カートンで購入したチョコボールも複数あります。このカートンで購入したものについて、ランダムにエンゼルが含まれると仮定した場合に予想されるエンゼルの出現傾向と実際のデータとを比較し、ランダムに含まれるとの仮定(H_0, 帰無仮説)が棄却されるのか否かを確認してみます。なお、有意水準は5%とします。

【トップに戻る】

ランダム性の確認

検定に使う仮説を整理します。

  • 帰無仮説H_0:エンゼルの出現確率は確率pでランダム
  • 対立仮説H_1: エンゼルの出現はランダムではなく、カートンに一つ以上混入(カートン内のエンゼル出現確率p_1pより大きい)

有意水準は5%(片側検定)とします。

定式化

帰無仮説の下で1カートン内にエンゼルが少なくとも一つは含まれている確率\thetaは以下のように、確率pでn=20個中に0個出る確率を1から引いた確率です。

\displaystyle{
\begin{align}
  \theta = 1.0 - \mathrm{Bin}(X=0 | p, n=20)
\end{align}
}

\thetaに基づいて、1カートン内にエンゼルが一つ以上含まれている(Y=1)か、含まれていない(Y=0)かを確率変数として、Mカートン分の結果をデータとします(\mathbf{Y} = {Y_1, \cdots, Y_M})。Y_mは以下のベルヌーイ分布に従うことになります(帰無仮説の下で)。

\displaystyle{
\begin{align}
  p(Y) = \mathrm{Bern}(Y=y | \theta) = \theta^{y} (1-\theta)^{1-y}
\end{align}
}

S=\sum^M_{m=1} Y_mとすると、Sは中心極限定理を使って以下の標準正規分布に従います。

\displaystyle{
\begin{align}
  z = \frac{S - M \theta}{\sqrt{M \theta (1-\theta)}}
\end{align}
}

このzが検定統計量となります。

データ

当ブログで計測したチョコボールを整理すると、以下のようになります。

  • カートン購入数(M) : 8
  • エンゼルが含まれていたカートン数(S): 8
    • カートンでのエンゼル出現数: 9*1
  • 帰無仮説の下でのエンゼル出現確率の推定値(p): 0.047
    • 2021年6月28日の推論結果(推定事後分布の平均値)*2

検定

まず、1カートンにエンゼルが一つ以上含まれる確率\thetaを算出します。

\displaystyle{
\begin{align}
  \theta &= 1.0 - \mathrm{Bin}(X=0 | p=0.047, n=20) \\
  &\simeq 0.618
\end{align}
}

この結果から、検定統計量は以下のように算出されます。

\displaystyle{
\begin{align}
  z &= \frac{S - M \theta}{\sqrt{M \theta (1-\theta)}} \\
  &= \frac{8 - 8 \cdot 0.618}{\sqrt{8 \cdot 0.618 (1 - 0.618)}} \simeq 2.22
\end{align}
}

有意水準5%の棄却限界値はz_{\alpha} = 1.64なので、帰無仮説は棄却されます。

つまり今回の検定結果では、チョコボールのエンゼルはランダムでは無いと言えそうです。

8カートン中8カートンでエンゼルが現れる確率

データ数が8個しかないと言うこともあり、中心極限定理を適用しても良いものか不安だったので、ランダムにエンゼルが含まれる(H_0)との仮定の下で、8カートン中に8カートンでエンゼルが現れる確率も出してみました。

これは、以下のように、パラメータとして確率\thetaの二項分布となります。

\displaystyle{
\begin{align}
  \mathrm{Bin}(S=9 | p=\theta, n=8) \simeq 0.021
\end{align}
}

よって、8カートン中に8カートンでエンゼルが含まれる確率は2%程度と小さい値になりました。よって、帰無仮説は支持されないと言えます。

2%でも起こることは起こるので、絶対にランダムではないとは言い切れませんが、上記の検定結果と合わせて、ランダムに含まれているとは言えないのかなと思います。

【トップに戻る】

まとめ

ということで今回は、チョコボールのエンゼルがランダムに現れるのかを検定によって確認してみました。

結果、ここまでに当ブログで計測してきたデータによると、カートン内にエンゼルが含まれるか否かはランダムとは言えなさそう、つまり、1カートン内に少なくとも1つはエンゼルが含まれているのではないかと思われます。

と言うことで、銀のエンゼルを5枚集めるためにはバラで購入するのではなく、カートンで購入するほうが望ましいです。

ただ、あくまで8カートンでの結果であり、またそもそも一箱に出てくるエンゼルの確率の推定値はランダム性を仮定して推論した結果を利用していることもあり、この結果がそのまま信用できるかは疑わしいです。あくまで参考程度としてもらえればと思います。

より良い方法は是非是非教えて頂けたらと思います。

【トップに戻る】

参考文献

【トップに戻る】

*1:一つのカートンで2つのエンゼルが含まれているものがありました

*2:カートン、バラ両方を混ぜて推論した結果なのですが、もしかするとバラだけで推論した値を使ったほうが良かったかも?