论文题目:含隐藏变量的因果模型的发现算法
Theme:Discovery Algorithms for Causal Models with Hidden Variables
摘要
本文由讨论在不可观测的隐藏变量存在的情况下,PC算法不可避免的局限性入手,在引入了新的图论概念后,引出了理论上可以保证给出正确结果的因果推断(CI)算法,继而又加以改进以降低算法复杂度,得到了效率更高的快速因果推断算法(FCI)算法。以上算法均基于条件独立性关系。文章的最后部分导出了不以条件独立性形式出现的限制性条件:Verma函数限制性条件和零化四分体差。对于零化四分体差给出了一个应用实例。如何寻找网络结构的Verma函数限制性条件则在最后的附录中做了深入探讨。
关键词:因果推断,隐藏变量,条件独立性, Verma限制条件
目录
Contents
1背景知识介绍 2
2PC算法和隐藏变量 2
3PC算法的局限性 4
4诱导路径 8
5诱导路径图 9
6部分定向的诱导路径图 11
7带有隐藏的共同原因的因果推断算法 13
8关于可探测的因果影响的定理 19
9非条件独立性约束条件 19
10一般化的统计不可识别性和线性性 20
11四分体表示定理 22
12一个例子:数学分数极其因果解释 23
13附录:关于Verma限制条件的一点深入探讨 25
参考文献 31
致谢 32
1背景知识介绍
这是一个普通的统计学幻想:在典型数据集中可观测变量之间的统计相关性和不可观测的原因之间完全没有关系这点是已知的。我们几乎不可能观测所有导致可观测变量变化的原因,而且我们经常不能观测作为多个可观测变量变化的共同原因的变量。然而社会科学的数据给人一种显著的印象:一项研究中的变量和其它研究中的变量相关。
在实验和非实验研究中不可观测的变量的存在(我们并没有意识到它们的存在)可以导致关于可观测变量间因果关系的错误结论。直到可靠的,基于数据的方法被用于识别不可观测的共同原因的存在与否,绝大多数基于可观测数据的因果推断不过是猜测,甚至有可能沦为伪科学。然而这样的方法是可能的吗?这无疑是统计学中最重要的理论问题之一。
在其它领域也有类似的各式各样的问题。如果,像我们相信的那样,没有可靠的经验主义研究可以不考虑相关变量是否不可观测,所以发表的不加控制的经验主义研究很少有可靠的。
在流行病学的研究中,General大夫1964年的吸烟与健康调查报告中引入的标准还时常被提倡作为一种判定暴露于危险因子A和疾病B之间的统计相关性是“因果关系”,很明显地表明A导致了B并且A和B没有共同的原因。这个标准包括:
(i) 增加剂量反应
(ii) 风险因子和疾病之间的统计相关性对于特定的疾病亚型和风险暴露条件而言是特异的
(iii) 统计上有很强的联系
(iv) 暴露于风险因子在危险性增加之前
(v) 缺乏其它的解释
即使在因果充分性系统中,所有的可观测变量的共同因素本身都是可测的,这样的标准也不能区别因果关系和相关变量。他们甚至不能把握不可观测的“混淆因子(confounder)”。标准(v)的问题恰恰在于对用同样的数据存在太多的解释方法。标准(iv)在决定是否存在可观测或不可观测的共同因素在起作用时毫无用处。
本文阐述一种关于不可观测的共同因素如何误导调查者关于可观测变量之间因果关系的判断的系统化说明,和如何探测这些不可观测的共同因素。我们把一般情况和线性结构区分开来讨论。但是本文的中心目标是展示如何在假设满足Markov和Faithfulness的条件下,适当的样本数据有时可以产生可靠的因果推断,不需要先验知识,也不管可观测变量之间是否具有因果充分性。

您当前的位置:
