丸の内で働く技術屋のブログ

丸の内エンジニアというジャンルを流行らせたい

よく使う情報量基準(エントロピー編)

分析の仕事でよく使う情報量基準について書いていきます。相関係数とかはよく使われることが多いのですが、情報量基準となると丸の内界隈では親しみがない方も多い印象です。今回はエントロピーから。

エントロピー

みんな大好きエントロピー

{ \displaystyle H(x) = \sum_{x∈X}^{} P(x)log_2P(x) }

決定木分析などでもよく使用する情報量基準です。(情報理論におけるエントロピーを論じます)エントロピーとは確率分布の一様性を定量的に評価する基準と言われています。一様分布の時にエントロピーが最大となり、逆に分布がバラける場合エントロピーが小さくなっていきます。

例えば、社内に存在する案件で採算が取りやすい案件を探したいとします。100件の案件のうち、20の案件が高い採算が取れたとします。この場合、高い採算性が取れる可能性は20%、取れない可能性は80%です。

この時のエントロピーを計算すると

{ \displaystyle -0.2log_20.2 - 0.8log_20.8 }=0.7219

となります。

この状態ですと、闇雲に案件をこなしても20%の確率でしか高い採算を得られません。なるべく高採算性案件の条件を絞りたいところです。

ここで、公共案件で受注額が5億円以上という案件という条件の案件が25案件あり、その中に全て高採算案件が含まれていたとします。

その場合のエントロピーを計算すると

{ \displaystyle -0.8log_20.8 - 0log_20 }=0.2575

となります。

エントロピーが減少していますね。一様分布の時ほどエントロピーが高いため、エントロピーは減少するほど不確実性が減少するということになります。情報量即ち目新しさが減るという意味合いでしょうか。

上記の例で言えば、公共案件で受注額が5億円以上の案件を狙って獲得できれば80%の確率で高採算案件となるわけですから、ビジネス的には、エントロピーが減少するような条件を探し求められると嬉しいわけです。

基本的な決定木分析の条件分岐においてはエントロピーの減少量を基準として分割することが多くあります。

私が実際に適用した例としては、上記の例と逆で、赤字になりやすい高リスク案件の条件抽出をしたりしました。

※図は、Survivedを目的変数、Class、Sex、Ageを説明変数としたタイタニックの客室で生き残ったかどうかの決定木モデル 

f:id:nTakamichi:20170425233217p:plain