チョコボール統計

チョコボールの秘密を統計解析で明らかにしていく。おもちゃのカンヅメ欲しい。

正味の重量分布を予測する(前半:最尤推定)

はじめに

そこそこデータも集まってきたので、ぼちぼち分析をはじめていきたいと思います。

今回は、正味重量(チョコボールの中身の重量)の分布がどのような分布なのかを予測します。 分布を予測するということは、 ばらつきがどのくらいあるのか、中心となる重量はどのくらいなのかを予測するということです。

重量の分布が予測できれば、 買ってきたチョコボールの量が少なかったり多かったりした場合に 製造工程の異常を正当に心配できるようになります。 なんとなく少ない気がするというふわっとした根拠ではなく、 製造工程における異常を統計的な根拠を持って指摘できるわけです。

【トップに戻る】

モデル

今回知りたいのは、正味重量の中心的な値と重量のばらつきです。

まずは、ここまでに計測できているデータを確認します。

f:id:hippy-hikky:20171126172553p:plain

これは、11/25までの計測データ(20点)のヒストグラムです。

約29.5gをピークに裾が広がって分布しているように見えます。 また、製品仕様は28g(図の赤線)ですが、実際に計測してみるとちょっと多めに入っているようです。

通常こういった重量分布は、設定値を中心にした正規分布を成すだろうと予想できます。 まだ20点しかないのでなんとも言えませんが、データからもそのような雰囲気を感じます。 そこで今回は、正規分布のパラメータである平均と分散を予測する問題として考えていきます。

出荷時の検査によって下限が決まり、対数正規分布のようになっているかもしれませんが、 モデルの正当性についてはおいおい検討していくということで。

【トップに戻る】

パラメータの予測

ここまでで、本問題は平均と分散という2つのパラメータを予測する問題であると定義しました。

今回は、これらのパラメータの予測を 「最尤推定」と「ベイズ推定」の2種類の推定方法で推定し、 それぞれ違いを見ていきます。 (本記事では、最尤推定についてだけ説明します。ベイズ推定については次回説明します。)

最尤推定

最尤推定というのは、尤度と呼ばれる値が最大になるようなパラメータを求める推定法です。 尤度というのは、得られたデータが発生する確率のようなものと考えられます(正確な定義ではちょっと違う)。

データをX = (x_1, x_2, ... , x_M) 、 モデル分布を p(x) = \it{N}(x | {\mu}, {\sigma}^{2}) (正規分布)とすると、 尤度(尤度関数) L(p)は以下のようになります。

{ \displaystyle
L(p) = \Pi_{i}^{M} \it{N}( x_{i} | {\mu}, {\sigma}^{2} )
}

データxは既に与えられているもの(=定数)なので、 尤度関数は {\mu} {\sigma}^{2}の関数になっています。 この尤度関数を最大化するような {\mu} {\sigma}^{2}を求めることが最尤推定での パラメータ推定です。

しかし尤度関数には総積が入ってきていて計算がやっかいなので、 普通は尤度の対数をとった対数尤度を最大化するパラメータを推定します。

{ \displaystyle
\ln{L(p)} = \sum_{i}^{M} \ln{ \it{N}( x_{i} | {\mu}, {\sigma}^{2} ) }
}

正規分布は、 { \displaystyle
\it{N}( x_{i} | {\mu}, {\sigma}^{2} ) = \frac{1}{(2\pi\sigma^{2})^{\frac{1}{2}}}\exp{ \{ - \frac{1}{2\sigma^{2}} (x-\mu)^{2} \} }
} なので、 対数尤度は以下のようになります。

{ \displaystyle
\ln{L(p)} = - \frac{1}{2\sigma^{2}}\sum_{i=1}^{M}{ (x_i - \mu)^{2} } - \frac{M}{2}\ln{(2\pi)} - \frac{M}{2}\ln{(\sigma^{2})}
}

尤度を最大化するパラメータ( {\mu} {\sigma}^{2})を求めたいので、  {\mu} {\sigma}^{2}でそれぞれ偏微分し、 偏微分が0になるように式を展開します。

式の展開は省略しますが、最終的には以下のようになります。

{ \displaystyle
\mu = \frac{1}{M} \sum_{i=1}^{M}{ x_i }
}

{ \displaystyle
\sigma^{2} = \frac{1}{M}\sum_{i=1}^{M}{(x_i - \mu)^{2}}
}

ということで、正規分布のパラメータを最尤推定すると、 標本平均と標本分散の式が出てきました。

データを収集して平均と分散を求めるということは良くやられると思いますが、 これはデータのモデルとして正規分布を仮定した場合の最尤推定量を求めているということだったわけです。

先に確認したデータのヒストグラム最尤推定の結果予測される分布を重ねて見ると以下のようになります。 だいたい想像通りの分布が予測できていますね。 f:id:hippy-hikky:20171125223153p:plain

ベイズ推定

最尤推定の分布推定は、とてもわかり易いのですが一つ問題があります。

今回の問題のように、まだまだデータ点が少ない場合には、 標本平均や標本分散は大きくブレる可能性があります。 それなのに、最尤推定ではこの値が最適だという1点だけしか知ることができません。 推定値がどのくらいの確かさを持っているのかまで知ることができれば、 まだ不安定だから何も言及しないでおこうという判断ができるはずです。

そこで、推定値を1点で予測するのではなく、 分布として予測する方法が欲しくなるわけです。 この欲求を解決する方法として、ベイズ推定があります。

今回は最尤推定まででちょっと長くなってしまったので、 次回、ベイズ推定によってパラメータの予測がどのようにできるのか詳しく説明します。

【トップに戻る】

終わりに

チョコボールの正味の重量分布を予測する方法として、 最尤推定をやってみました。 結果は、予想通りというか特に何も面白いものはなかったですが。

次回は、ベイズ推定で重量分布の予測をやってみます。

余談ですが、 実問題ではデータが大数の法則を適用できるくらい潤沢に用意できない場合がよくあると思います。 そのような中で何らかの判断をしなければならないときに、 標本平均や標本分散だけを持ってきて、 データからはこういうことしかわからないと真顔で断言しちゃうようなデータ分析者の方々には 申し訳ないですが仕事頼みにくいです。。。

【トップに戻る】

参考文献

最尤推定だけじゃなく、統計の基本が丁寧に書かれているのでおすすめ。

とりあえず細かい理論は置いておいても使ってみたいという時に参考になる。 ベイズ推定だけじゃなく、最尤推定についてもざっくり書いてある。

森永製菓  チョコボール<ピーナッツ>  28g×20箱

森永製菓 チョコボール<ピーナッツ> 28g×20箱