丸の内で働く技術屋のブログ

丸の内エンジニアというジャンルを流行らせたい

よく使う情報量基準(相互情報量基準編)

2つの変数の相関関係を評価する尺度として相互情報量があります。

以下の式で、2つの変数X,Yの相関関係を評価する尺度になります。

{ \displaystyle I(X;Y) = \sum_{x,y}^{} P(x,y)log_2\frac{P(x,y)}{P(x)P(y)}}

XとYが独立におこる時、xとyが同時に起こる確率P(x,y)=P(x)P(y)で,

{ \displaystyle \frac{P(x,y)}{P(x)P(y)}=1}

となり、I(X;Y)=0になります。

XとYに正の相関関係がある時、I(X;Y) >> 0

XとYに負の相関関係がある時、I(X;Y) << 0

になります。なんとなくわかりますかね。

相関関係と何が違うのか?というと相関係数は直線的な相関関係しか確認できないものの、相互情報量直線的な形に限らず適用できる、というところが特徴的です。

「21世紀の相関係数」として、非常に多く引用されたようです。

こちらの資料がわかりやすくまとまっています。

www.slideshare.net