2.3 最大信息系数MIC

一般在线性关系的刻画中,使用皮尔逊相关系数非常合适,但是想要刻画非线性的关系,就不是那么简单了。但是在实际情况中,非线性关系是比较普遍的,所以需要有一种比较好的可以刻画变量之间非线性关系的方法,而解决这个问题一种非常好的方法就是最大信息熵(Maximal Information Coefficient,MIC)。哈佛大学的Reshef等(2011)在Science杂志上首次提出MIC。在统计学中,它是一个衡量两个变量之间的线性和非线性相关大小的指标,主要是为了检测变量之间存在的潜在关系而提出的。变量与变量之间相依性关系,度量效果较突出的是MIC,它拥有广泛性和公平性两种非常重要的属性,在通信与信号处理等领域得到了广泛的应用。作为最大信息熵的非参探索统计量(Maximal Information-based Nonparametric Exploration,MINE)算法簇中的一分子,MINE具有探索大数据集中各维度间的相关程度的优点,而且还可以刻画数据的不同维度。MIC可以用于度量高维数据集中二元变量相关性,本书通过Python语言中的MINE库来实现对行业指数之间的MIC分析。

MIC一般利用互信息和网格划分的方法来进行计算。互信息是衡量变量与变量相关程度的一个指标(郭长胜,2011),如果给定变量A={aii=1,2,…,n}和B={bii=1,2,…,n},n为样本数量,那么互信息就定义为:

其中,pab)表示AB的联合概率密度,AB的边缘概率密度分别用pa)和pb)来表示,对上述概率密度用直方图来进行估计。若D={(aibi),i=1,2,…,n}是一个有限的有序对集合,如果G把变量A的值域划分成x段,把变量B的值域划分成y段,那么G就是x×y的网格。在得到的每一种网格划分内部,计算互信息MIAB),其中x×y的网格划分方式相同的有很多种,划分G的互信息值,可以取不同划分方式中的MIAB)最大值,把划分GD的最大互信息定义为:

其中,DG表示按照G方式对集合数据D进行划分后的结果。尽管最大信息系数通过互信息来表示网格的好坏,但是它并不是简单地估计互信息。把不同划分下得到的最大化MI值,组成一个特征矩阵,矩阵定义为MDxy,计算公式为:

则将最大信息系数定义为:

其中,Bn)表示网格划分x×y的上限值,一般情况下,ω(1)≤Bn)≤On1),0<ε<1。Reshef(2011)指出当Bn=n0.6时效果最好,故在本书实验中也采用该值。

最大信息系数具有如下四条基本性质:

(1)0≤MIC≤1,当XY相互独立时,MICXY=0。

(2)MIC有对称性,也就是MICXY=MICYX),因为交换变量XY,所得到的特征矩阵与交换前是一样的。

(3)当存在Y=fX)时,MICXY=1,也就是说,如果两个变量存在一定的函数关系,不管它们是何种关系,两个变量之间的MIC值都是1。

(4)如果对变量X做任意的单调函数gX)变换,MIC不会发生改变,即MICXY=MICgX),Y)。