马尔科夫网源自统计物理学中的马尔科夫随机场这一概念.有些资料中将马尔科夫网称之为马尔科夫随机场,指的都是同一个东西.
在介绍马尔科夫网之前,我们先来回顾一下贝叶斯网,对于下面的贝叶斯网:
可以这样计算他们的联合概率:
马尔科夫网
考虑这样一个例子,有四位同学要求两两组队来完成作业,A与C合不来,B与D刚刚结束了一段糟糕的恋情.
现在我们把可能的组队关系画出来:
因为事件之间没有因果关系,所以我们使用直线来绘制图形.这种无向图被称为马尔科夫网.
在无向图中,两个相连的事件没有因果关系,所以我们不能使用条件概率来参数化这个模型,直观上,无向边表达的是相关变量之间的亲密关系,我们可以使用一个函数来描述这种亲密关系,这个描述亲密关系的函数被称为因子.
于是我们定义四个因子来描述各变量之间的亲密度:
现在来思考如何通过因子来计算联合概率?我们非常希望马尔科夫网可以像贝叶斯网那样,局部模型可以以相乘的形式进行组合:
因为之间相乘之后不是一个概率,所以这里添加归一化常数Z将乘积转换为概率.从这里可知马尔科夫中的因子可以类比成贝叶斯网中的条件概率.
对于未归一化的因子乘积,可以表示为一个更大的因子:
团与极大团
下图是一个简单的马尔科夫网,对于图中结点的一个子集,若其中任意两结点间都有边连接,则称该结点子集为一个"团".若在一个团中加入另外任何一个结点都不再形成团,则称该团为"极大团";换言之,极大团就是不能被其他团所包含的团.例如在下图中,都是团,并且除了和之外都是极大团;但是,因为和之间缺乏连接,并不构成团.显然,每个结点至少出现在一个极大团中.
最少参数的马尔科夫网
又因为马尔科夫中的因子可以类比成贝叶斯网中的条件概率,对于概率公式:
可以类比成:
根据因子的这一性质,对于n个变量,所构成的集合为,与团对应的变量集合记为,则可以写成多个因子相乘的形式:
其中为归一化常数,确保结果是概率.
例如上图中的极大团为:
其联合概率可以表示为:
显然,若变量个数较多,则团的数目将会很多,这意味着上式会有很多乘积,注意到若团不是极大团,则必然被一个极大团所包含,这意味着变量之间的关系不仅体现在中,而且体现在包含的极大团中.所以联合概率可基于极大团来定义,即假定上式中的都为极大团.
对数线性模型
马尔科夫网中的因子函数可以任意指定,因子是表示两个变量之间关系的亲密程度的一个值,越亲密,值越大,反之越小.并且因子要保证不能为负.满足这个条件的函数有很多,我们定义如下:
我们看到其实的大小其实取决于,那么为什么不直接把定义为因子呢?因为我们想利用指数把乘法变成加法:
为极大团个数,被称为能级函数,变量之间相关性越高,能级函数越大.试想一下一个可能的能级函数:
能级函数可以写成特征函数与权值乘积的形式:
特征函数通常取0或1:
于是:
马尔科夫网中的独立性
成对马尔科夫性:设u和v是无向图G中任意两个没有直接相连的结点,结点u和v分别对应随机变量和.其他所有节点为O,对应的随机变量组是.成对马尔科夫性是指给定随机变量组的条件下随机变量和是条件独立的,即:
局部马尔科夫性:设是无向图G中任意一个节点,W是与v有边连接的所有节点,O是v,W以外的其他所有节点.v表示的随机变量是,W表示的随机变量组是,O表示的随机变量组是.局部马尔科夫性是指在给定随机变量组的条件下随机变量与随机变量组是独立的,即:
全局马尔科夫性:设节点及A,B是在无向图G中被节点集合C分开的任意节点集合,节点集合A,B,C所对应的随机变量组分别是.全局马尔科夫性是指给定随机变量组条件下随机变量组和是条件独立的.即:
以上三种定义是等价的.
参考:
Daphne Koller<概率图模型>