1/2页12 跳转到查看:4419
发新话题 回复该主题

Heckman vs. Imbens

Heckman vs. Imbens

(微观)计量经济学界正在经历一场观念的更新,如果不是革命的话。
下面这个包包里的一些文章有助于我们理解这场争论。

Heckman 2008
Heckman & Urzua 2009
Imbens 2009

另附上
Imbens, G. W., and J. D. Angrist. 1994. “Identification and Estimation of Local Average Treatment Effects.” Econometrica, 62(2):467-476.
Imbens, G. W., and J. M. Wooldridge. 2009. "Recent developments in the econometrics of program evaluation", Journal of Economic Literature.
附件:您所在的用户组无法下载或查看附件

TOP

 

是的。从1994年LATE的发表开始,计量方法在十几年发生了很大的变化,领军人物就是大家比较熟悉的Imbens 和Angrist, 如果还要加就是Card。这个趋势用上次老徐用到的一个词就是计量变得更“谦虚”。

TOP

 

我觉得你的ID很酷,有星球大战的味道
may the force be with you
以前的签名档:我在巨蛋帮你听了Desperado,满眼都是泪。
现在的签名档:心里太阴暗,胸口长蘑菇。

TOP

 

回复 1# goasuplease 的帖子

补充一篇文章。Inbems (09) 的回应主要是其于Deaton (09)
Heckman谈的是计量经济学的任务(或者说作为“科学”的使命),Inbems谈的是数据的“谦虚”(在统计学意义上的effect of cause,而统计学本身能否被视为“科学”?)

最可怕的恐怕就是把宏大的计量经济学任务和数据的“谦虚”放在一起应用
附件:您所在的用户组无法下载或查看附件
最后编辑mingtsiang 最后编辑于 2009-06-08 16:57:46
不做助教了
Whatever affects one directly, affects all indirectly. I can never be what I ought to be until you are what you ought to be.

mail me without hesitation: mingtsianglee@gmail.com

TOP

 

回复 4# mingtsiang 的帖子

大家关注这套文献,很好啊。其实,心底里,我对LATE这一套文献有一个根本的疑问:经济学关注的是人的行为,计量经济学因此不可能离开人的主观能动性,离开人与人的差异,离开不同的个体的抉择,来谈政策的效果。有多少人愿意如同LATE中的complier,对于自己的未来,没有任何的掌控,被动地接受别人安排的命运呢?将人的作用从模型中剥离,倚靠外生的力量来识别政策果效固然是可以识别出来一些效果,甚至是很准确的效果,但是...so what?对于现实,有什么意义?

比如,我们通过一个精密的实验,发现对complier采用某种培训带来的收入增长是2%。这时,政策制定者问,如何才能达到10%,需要对这些人采取哪些措施,需要付出什么代价?计量经济学家们,能够给出什么答案?除了守住这个2%之外,实验还能告诉我们什么?

另外,用人做实验这事,骨子里透着一种令人怀疑的骄傲:一组精英可以设计一种程序,过程,方法,使得我的实验对象会按照我预期的方向行事。学者本身不抱着谦卑的态度能不能做出什么真正的经得住时间考验的东东,本身也是有待时间来考证的。而期待一些外生的,类似实验的政策变化来识别效果,也似枉然:期待外生政策和人只存在非常简单的互动,指望看似无关的变更能够告诉我们现有政策的效果却不花时间去多理解现有政策的机理,多少都有些水中望月。

当然,这些仅是个人观点。无论如何,这是现在备受关注的文献,大家不妨多了解这个文献,明白人家的方法,好形成自己的看法。另外,批评总是容易的,建造才见真功夫,而这,就需要更多踏踏实实的工作了。
最后编辑shenyan 最后编辑于 2009-06-10 10:51:07

TOP

 

在自然科学中,我们假设,然后建立模型,推出结论。为了证伪以检验假说,我们常常做可控试验以验证,例如控制其他变量后,验证X->Y的影响,并作出对这个理论的判断。
虽然经济学也作假设然后建立模型推出一些结论,但是与自然科学最大的不同是就是经济学家们很难做可控试验。而传统的计量方法的方法是用这个模型推出可以估计的计量模型(方程),然后带入数据,检验模型。但是这里有两个问题:其一是如果模型是正确的,当然这样带入数据验证是正确的,但是如果错误设定我们的计量模型就会碰到例如内生性问题。所以当我们带入数据检验模型正确性时,我们实际上已经假定模型是正确的了,唯一的问题是这个系数是多少,很明显,这样的检验就像拿着望远镜看月亮然后说月亮是圆的一样。其二是从理论模型到计量模型,我们需要更多的假定,例如我们常见的线性,遇见0-1模型我们假定Probit分布,等等,这些难以检验的假设常常制约着我们估出怎样的结果。其实现实当中,异质性和非线性是常态,我们怎么能这么相信这些假定呢?这也是我学计量一直的疑惑。
LATE给我们带来两个思路,首先与自然科学类似,我们也必须尽可能用可控试验的结果作为我们验证理论的基础,这正是IV和Matching的思路。其次是我们既然对计量模型的这些假定不那么自信,我们就应该看放松这些假定,我们最后能得到什么,这就得到comliers——这群人是我们最可质信的结果,至于其他群体有没有这样的结果,你可以再作假定(如果你能相信),例如假设没有异质性和非线性——就是线性模型,这样这群人的效果就可以推广。所以当我们以试验为识别基础,然后不再对模型作过多假定,我们用社会数据,只能识别大样本群体中的一部分人,但这部分人我们对其的效果是最能相信的。这种只能致信识别一部分的结果恰恰反映了社会科学与自然科学的差别。
但是这样也引申出一个问题,如果以试验为基础的识别方式只能识别很少一部分人(例如试验室试验)怎么办?这是很多人对试验的批评。但是回答应该是,这是在把最可信的结果推向一般人群时,我们才急切需要理论以及结构方程的帮助。因为正是结构方程和理论所展现的机制让我们对这种经济现象了解更深。
所以总结来看,在经济学,提出一个理论后,由于社会科学的数据结构决定我们用传统的计量方法难以科学地识别其“因果”关系,因而难以达到证伪的目的。LATE为代表的方法这是在这个方面做出有益的贡献(Internal validity)。但是社会科学的数据结构决定即使采用这样的方法,识别的人群仅仅是一部分,而正是在推广的意义上理论和结构方程体现了它的意义(external validity)。所以先可信地证伪,然后再提推广,Internal validity is first, then external validity,我想这正是LATE想说的。

TOP

 

回复 6# force 的帖子

这是对LATE想法优点的一个比较全面的总结。当然,一篇文章的作者总归是强调自己方法的优点并提出一些无关紧要的弱点,而致命的弱点,主要还是由他人评说,争论,然后留待时间检验。

Internal validity的想法是非常吸引人的。但是,就算存在internal validity,并假设complier占99%,还是有个so what的问题。凡事都有代价,我以为对于效果的精准的估计,是以放弃我们了解一项政策产生作用的真实原因,机理为代价的,而不是次要的实验方法是否代价太高,是否人道:因为透过实验,我们抽象掉了人和政策的互动,只看完全被动的人对于政策的反应。我们当然可以这样做,只要我们觉得这个代价是自己愿意付的,就可以。

有假定有互动机理,和无假定无互动机理,是两种不同的思路。我以为,传统方法给出假定,然后注重模型内在机理;现代方法却不肯给出假定,一切都由数据评说。前者给出假定,看似武断,但是思路是:我尊重生活的原貌,但是根据我有限的知识,我要解释这些现象,我需要做如下假定。这些假定可能很天真,但是随着时间的推移,研究者可以做出越来越贴近现实的假定。因此,前者要求研究者逼近真实,而不是逃避。而后者,看似一种谦卑,但是却也更多反应了研究者放弃了对于全局的掌控,疏于表达自己对于世界的观点。并且,这个“谦卑”,其实是在一个骄傲的基础之上:假如我可以设计生活,让人们照着我的思路做,那么我获得这样的数据之后,我就不再做任何假设,由我设计出的数据,按照它们高兴告诉我它们想说的是什么。因此,后者要求真实逼近实验。前者被人诟病比较容易,而后者却需要慢慢经过时间来累积,识别。你所说的思路,就是先识别出抽象的效果,然后再用理论和结构方程来解释,获得更深的了解,这听起来很不错,但是问题是,前面识别的效果,还是不能解决结构方程面临的异质性问题,后者如何能够帮助前者,我持保留意见。

想起今年在华盛顿和一个job market candidate面谈的情形。他研究的是中国某城市学生选择中学对于成绩的影响,透过一个摇号的机制,他认为可以复制实验的情形。因此他采用现有文献的方法,估计最后的结论是,其实那些有名的学校并没有能够帮助学生获得更好的成绩。当时我的问题是,既然如此,为什么家长们还是要趋之若鹜呢?而这个问题,这位candidate显然没有兴趣,他更关注的是我有没有完全了解,或者“懂得”,他方法的技术细节。如果我要相信他的结论,我就要相信,原来大多数家长,都是比较无知的。但是事实上,教育回报,是要看长期的果效,而一个学校名声的累积更是一个长期的过程,仅用两三年的数据来考察一项政策的长期果效,显然是不够的。而LATE这套文献在处理时间层面上的问题是先天不足的。

读博士期间刚接触treatment effect文献,确有耳目一新的感觉。现在却慢慢觉得这条路,未必就是真正能够行得通的,关键就在于研究者放弃了真实世界产生数据的机理。如果从真实世界退向象牙塔成为大势所趋,那么研究和真实世界渐行渐远,就是不足为奇的了。当然,文献总是在不断发展,也许在不久的将来,我们可以在这两个极端之间,寻找到更好的平衡,使我们离真实世界更接近一些。
最后编辑shenyan 最后编辑于 2009-06-11 10:23:11

TOP

 

机制的确很重要。但问题是这样的,机制本身是理论回答的问题,计量只是判定理论是否合理的工具。提出假设,然后再验证,这是两个步骤。而传统的结构方程实际上把两者合在一起解决,尽管看起来很有理论框架,但是实际上却两边都没站稳脚。就理论而言,结构方程常常多加很多假设,就验证问题,结构方程本质上不能解决识别问题,以得到证伪的结果。本来计量就应该关注与检验理论,但是把理论过程混在一起的结果就是,通过望远镜望月,两边都站不脚。实际上用结构方程本身就是对理论的非常的自信,问题是这种没有数据支持的自信哪里来?假设?
至于机制,结构方程的探讨机制问题还是通过理论,这一点没有错。但是错在结构方程没有真正解决识别问题,就下了结论。例如x对y有影响,然后理论告诉我们x是通过x1,x2
来影响y。我们用LATE发现x的确对Y有影响,然后开始探讨机制。但是探讨每一步机制,我们又会碰见识别问题,比较妥当的方法还是试验的思路,因为这是最可信的。与之相反,结构方程假定理论是对的,而把每一步的识别问题都忽略,然后看到X1x2系数是显著的,就说理论是正确的。这实际上违反了科学基本的证伪的方法。
例如举的那个例子,我们至少可以肯定地说至少对于那群人,名校对成绩正的效应是没有的,这就推翻了我们原来可能的直观或者理论的结论。正是有这样的肯定,我们才会问为什么会这样,是我们的直观/理论出了问题?这样接下来,我们才会对我们的理论加以修正。如果没有这一步,我们可能一直会在原来得理论中打圈。而至于探讨机制,why的问题,那是理论所要解决的问题,当面对社会数据,计量作为Test的工具真的做不了怎么多。尽管Heckman认为我们可以走的更远,但至少我没有这个自信。一步一步的识别,也许这才是正确的。
虽说如此,但计量经济学家仅仅满足test,那就不是经济学家,思考机制是经济学的核心。但是光是利用计量工具我们远远做不到这一点,我们也没有这个自信,所以对于计量工具我们也许更“谦虚”一些。

TOP

 

回复 8# force 的帖子

不错,想法很好。不妨将你我现在的看法保留下来,建议继续N年计量经济学的研究和探讨,再回头过来看看-.但是,研究本质上都是凭信心的。说到底,所有的研究都是基于一个最根本的假定:“世界是有规律可循,是可以研究的。”这个根本假定,有什么数据可以支持呢?事实上任何证明都已经要先承认这个假定成立才能开始收集数据,等等,等等。还有,如果我们知道一套经济理论,但是在实证中却害怕我们过于自信不敢用它,那么理论有什么用处呢?所以,在现实中,我们一面看到精妙的经济学纯理论,一面看到大量用很简单很简单,理论学者不屑一顾的方法来解释现实的实证研究。然后对于这种理论实证的渐行渐远,大家安之若素。如何看待这种现象,自然也是见仁见智。

世界不是完美的,研究方法总要附上一定的代价才行,因此,不管是哪种方法,都是有利有弊的。LATE当然有很多优点,不然不能如此流行并成为目前主流文献。但是我对于LATE结论的信心,有时没有你那么大。比如你相信名校对成绩正的效应是没有的,但是我觉得对于教育回报这个问题,光看两三年的果效并不合适。也许估计方法无比精密,极其准确,但是或许,有时我们没有采用合适的工具来研究合适的问题,结果也就得出一个似乎“证实”其实却“证伪”的结论。

说这么多,并没有贬低一个文献,更没有高抬传统文献的意思。如果我们先抱着开放的眼光,平衡看待不同角度,了解各自的得失利弊,对于我们了解世界,恐怕总有一些益处吧.
最后编辑shenyan 最后编辑于 2009-06-11 14:18:14

TOP

 

回复 6# force 的帖子

~~~~~~~~~
最后编辑mingtsiang 最后编辑于 2009-06-17 12:04:50
不做助教了
Whatever affects one directly, affects all indirectly. I can never be what I ought to be until you are what you ought to be.

mail me without hesitation: mingtsianglee@gmail.com

TOP

 

我想LATE文献强调可控试验,并没有“假如我可以设计生活,让人们照着我的思路做,那么我获得这样的数据之后,我就不再做任何假设,由我设计出的数据,按照它们高兴告诉我它们想说的是什么”的意思。它的目的只是说可控实验只是这些识别方法的一个重要和基本的参考系,并不是说我们为了识别就一定要做实验,这样的弊端大家都有了解。LATE,Matching等文献实际上在努力找社会本身就存在的可能的识别因果的机制来检验理论。例如LATE后面的RD的发展就是一个例子。RD常用的IV就是police,但是一般police就宏观来说一定是内生与社会的,但是对于个体就在一定程度上就是外生的,正是在寻找这个“程度”的意义上,RD得到了Internal validity,比较自信的结论。
我想从LATE出发的文献一直在强调我们识别的可靠性,强调社会数据与自然数据的不同而带来的困难。我想每一步LATE的过程都是对已有理论的检验,例如教育对收入的影响,收入对健康的影响,金融开放对经济增长的影响,并不是故意忽略机制,它只是“谦虚”的把自己放在比较可靠检验这些机制是否真的存在的位置而已。
当然这些都是个人观点。正如老师所言,我们需要一个开明的心态来对待各家理论,如果自己偏离太远,先做自我批评。:)

TOP

 

回复 11# force 的帖子

"...Ultimately, and this is really the key point, it seems difficult to argue that, in a setting where it is possible to carry a randomized experiment, one would ever benefit from giving up control over the assignment mechanism, by allowing individuals to choose their own treatment status" (Imbens, 2009,p14).

selectivity and heterogeneity 是处理微观数据的两个难点。randomization当然可以估出效果,只不过这个效果是直接抽去selectivity来对付heterogeneity。我们在实验室欢呼,但是如何将实验室结论推广到现实生活中,又需要一番大智慧了吧。RD确实有令人眼前一亮的效果,是很值得关注的-
最后编辑shenyan 最后编辑于 2009-06-12 10:35:18

TOP

 

这样讨论真好亚,我也来凑热闹b_b|||

Heckman的意见有两点是值得认真思考的。


第一点,什么是“科学”的理论。他认为科学应满足波普尔的证伪主义,因而我们的“科学”研究路径应该是:
1.提出可被证伪理论假说
2.推导出参数的方向
3.用数据验证

随后,Heckman区别了effect of causes以及cause of effect,他认为目前的实验思路有效仅识别了前者,而放弃了对后者的探究。

第二点,他指出了三类计量经济学问题
P1.评估历史上发生过的项目或政策
P2.预测已经施行的政策在另一种环境下会如何表现
P3.(根据经济学理论)预测那些历史上从未实行的政策的可能的表现

就“因果性”的涵义和实证方法的目标提到质疑,Heckman的批评无疑是有价值的。但坦率地讲,就估计的有效性而言,我站在Imbens等人一边。就目前而言,Heckman这套文献最大的问题是,它们可以在“哲学上”批评新近的进展,但是他们到目前为止似乎仍然无法回应Lalonde(1986)的挑战。Imbens等人挺刻薄的,呵呵,他们实际上是说,你们提的问题,很对,没错儿,对有些问题,experimentquasi-experiment确实很困难,但你们至少得告诉我,既然你们承认实验方法在P1这类问题上的有效性,那你们的方法至少得到P1这类问题上跟实验比较接近,不然怎么能让大家相信这套方法可以处理更为宏伟的P2P3问题呢?

Yeah, that’s really mean.

Heckman的两个主要批评,我这样看。第一个问题——因果性。对于“因果性”的定义是仁者见仁的。Heckman眼中的因果性说白了是一套“结构方程”。左边是结果,右边是原因,中间用“经济理论”连起来。“结构方程”就是因果性,只能他还没有被事实证伪,这就是“因果的”。Imbens等人则认为,“因果性”是指“随机的”X造成的对Y的影响,即使这里面的机制我们了解得不清楚。我们可以很容易地理解effect of causes,这正是实验方法要认别的,但究意什么是cause of effect?结构模型是么,那是假设啊。不如让我们暂且忘了计量经济学,问问自己什么是cause of effect,你会发现其实我们的alternative并不多。

因此,很难说Heckman意义上的“因果性”比后者更接近科学或物理学。因为几乎所有的经济学命题都在一定的场合下被证伪过,需求定律恐怕也不是定律吧,那么我们也许可以得出,任何经济学理论都不是普遍为真的。“实验文献”实际上注意到了这种“因果性”的局限性(locality),一再强调local是这个道理。但是公允地说,他们的因果性——或者推广一些,经济学的因果性——不是证伪主义的。不管你信不信,实证其实际上是在证实;证伪的论文(比如,一堆不显著的参数)是很难发表出来的(这是劳动经济学令人尊敬的地方,只要做得干净,不显著也是结果)。即使我们确实在一个场合下证伪了一个理论,往往也是为了排除一种机制,证实另一种机制罢了。

再推一步,如果要问经济学的“科学性”,我个人认为,社会科学不是科学,或者它是软科学,是“基于常识的共识”,具有很强的地方性和历史性。当然也可再推一步,问问自然科学的“科学性”,就回到科学哲学的千古命题了。对这部分讨论,可以参考汪丁丁老师的《知识、秩序、悟性浅说》,是对“科学主义”的一个反思。http://wang-dingding.blog.sohu.com/28984294.html



第二个问题:实证方法的目标
我赞同沈老师的观点,我们必须深入思索某种“效应”的机制。可能与我先前的表述略有矛盾,我也支持“证伪主义”在经济学中的适当应用。但是,证伪的,应该是经济理论,而非“计量经济学模型”,因为后者只是工具,在我看来,它永远是对现实的近似。Heckman似乎弄混了这一点。而就证伪经济理论而言,“实验方法”同样是有效的,同样可以讨论机制。我们可以也应该批评internal validity的适用范围,但当在各种环境中的实验屡次地出现了相似的结果,我们就可以较有信心地将这种validity向外、向不同环境、不同制度背景延展。这比“不证伪”一个“计量经济模型”来验证“因果性”给人更多的信心。而且,它既没有违反证伪主义,也更接近物理学的受控实验方法。注意,这里所指的“实验”是广义的,可以是IV,可是RD,也可以是自然实验或其他拟实验。

再退一步讲,其实我们可以用“实验方法”——因为它有很强的internal validity——来验证一个结构模型的有效性。如果用两种方法估计出的结果是接近的,也许可以说结构模型的设定还不错。但反过来,我们不能因为一个结构模型讨论了可能的机制,就认为它一定是正确,因为社会是一个复杂系统,我们不可能把握其中所有的奥秘和机制。
最后编辑goasuplease 最后编辑于 2009-06-12 13:24:03
以前的签名档:我在巨蛋帮你听了Desperado,满眼都是泪。
现在的签名档:心里太阴暗,胸口长蘑菇。

TOP

 

不错不错-. 我抛个砖,欢迎大家继续关注,我要出考卷去了...

TOP

 

to aries:终于看到你的回复,我们之间要有个了结了。
对着你在话说,第一点,什么是"科学"的理论,我的理解更粗俗一些,就是提出可验证的假说。按照波普尔主义,这种假说应该具有一般性,因为经验无法穷尽这种一般性,所以经验作为证伪的工具更为恰当。这里要注意,首先,如果承认波普尔主义,要承认假说具有一般性,具有某种全能性的推断能力。然后才有你所举出的研究路径。

Heckman在文章开头提的三个问题也是很重要的(在我看来恐怕是最重要的),就是计量经济学的任务

(a) Defining counterfactuals,
(b) Identifying causal models from idealized data of population distributions (infinite samples without any sampling variation), and
(c) Identifying causal models from actual data, where sampling variability is an issue.

counterfactuals,或者翻译成反事实,是一个逻辑学概念,其基本含义是如果一定条件能成立的话,则推论成立。遗憾的是汉语对虚拟语气的处理比较模糊。如果翻译成英文是
what would be the case if its antecedent were true.
与之相对应的是
what is (in fact) the case if its antecedent is (in fact) true.

counterfactuals,进行科学假设的基础,因为我们不能将一切的假设都基于经验。这里也就回答你提出的问题,是不是说“既然你们承认实验方法在P1这类问题上的有效性,那你们的方法至少得到P1这类问题上跟实验比较接近,不然怎么能让大家相信这套方法可以处理更为宏伟的P2,P3问题呢?”

这种理解是根本就混淆了counterfactual和与之对应的所谓indicative conditional。

P1解决的是后者的问题,而P2和P3是前者的问题,他们之间没有层级的递进关系,恰恰是反义关系。不是说P1解决的不好,P2,P3就无从解决。这个也许是语言缺陷本身造成的理解上的fallacy

对于因果性的定义当然是见仁见智,但是对于科学的定义只有一种,我不同意专门定义社会科学,即使社会科学面临研究上的困难,但是也不应该因此就削足适履缩进自己的圈子里去,经济学能成为社会科学之王,正式由于他对科学性的不断追求,而如果承认科学本身是在追求一种因果关系,那就无需重新给因果定义。那些形形色色的因果定义都是“浮云”,暂且当作一个terminology。何苦非要连篇累牍的去解释别人是如何制造一个新概念呢?

当然如果你承认,计量经济学不是独立的能够提供counterfactuals的学科,你可以为effect of cause做一切辩护,当然他是重要的,在有些情况下也是我们唯一关心的,正如Heckman所说的P1。

证伪不是一堆不显著的参数,证伪是一个开放的过程,我们说一个理论可以证伪,不是说他已经被证伪了,而是他开放可证伪的空间按,虽然不是最终被证实,但随时能被证伪。相比之下,RD做出的effect,(以及基于effect提出的“二手假说”),倒是不知道如何证伪。而且一次经验上的证伪并不能排除某种机制,(假设没有犯mgy说的第三类和第四类错误),这一点不妨更谦虚一些。积极的说,它提供了一种修正机制的可能,但是,始终,机制在哪里?举一个不恰当的例子,比如说薛定谔的猫,我们可以说打开箱子是treatment,猫死不死是effect,我不知道如何用这一套方法论本身来证伪这个treatment effect。(实际上我们根本不知道如何证伪)

社会科学在实然上不是科学,不代表研究社会科学的人不需要有科学的精神,如果你非要重新定义社会科学,那么就没有争论的基础,就像文学定义流派一样。
(为了凑数,准备另起一篇回应你的第二个问题)
最后编辑mingtsiang 最后编辑于 2009-06-13 12:31:15
不做助教了
Whatever affects one directly, affects all indirectly. I can never be what I ought to be until you are what you ought to be.

mail me without hesitation: mingtsianglee@gmail.com

TOP

 

回复 15# mingtsiang 的帖子

继续回复aries第二个问题

这里证伪主义暂且当作方法论用。虽然我认为其认识论的意义更大

这里一个论断是:证伪的,应该是经济理论,而非“计量经济学模型”,因为后者只是工具。我一直怀疑Late还算不算是计量经济学"模型",但我清楚的记得Macfadden,heckmen这些人在计量模型中嵌入的选择函数其实可以算是一种假说,甚至是一种经济理论的直接运用,其合意性也依赖于经济理论本身,这种形神合一的计量经济学模型,如果只是工具,我觉得诺贝尔奖也是眼拙了。我觉得Heckman没有弄混,倒是Aries忘记了。

经济学的实验方法是配合行为研究兴起的,所以得诺奖的时候两个一块得,诺奖委员会没有认为实验方法可以成为一个独立的学科。但是计量经济学本有这个地位。

internal validity 是inbems在文章中的一个重要argue,并且丰富了他的证实主义方法论,认为重复的RD就能够证明一些理论。有兴趣的可以看原文,这里不需要加以任何驳斥。

我不知道aries将这种internal validity向外拓展的信心来自何处,屡次是多少次,如果不考虑研究者有意的cherry picking,一件事情屡次在全球各地无一例外的重复出现,次数足够多,我不知道这个和常识还有什么差异,就像苹果永远会落到地上,每次我们甚至可以计算它的坑砸了多深,但是我们能用这个原理把火箭送出地球么?

当然这种internal validity并不是一无是处,相反的,在很多研究条件下,准确的分析internal validity是非常重要的,但validity本身与正确/错误并没有关系,他就是一个客观的东西,我们不能说一个效果是正确的,我们只能说,OK,我们复制这个样本,会产生这么大效果。这个和正确不正确没有关系。一个问题是,如果我们不知道机制,我们甚至连样本发生易变后效果的偏误方向都无法判断,请问这样的正确又何其谬误呢?

社会是一个复杂系统,但把我们不可能变成我们不接受,是什么主义呢?

那天中午吃饭的争论,我也许举了一个不恰当的例子,但大概说明我的想法。

神问,光是什么
Imbens:光是七色,definitely right!
Heckman:光是可能是波或者粒子,但验证它需要很多很多条件。

神对Imbens很满意,Heckman靠边站了

神又兴致勃勃的问Imbens,那你给我说说激光是什么。

Imbens:...
最后编辑mingtsiang 最后编辑于 2009-06-13 04:43:37
不做助教了
Whatever affects one directly, affects all indirectly. I can never be what I ought to be until you are what you ought to be.

mail me without hesitation: mingtsianglee@gmail.com

TOP

 

明强花了不少心思,但要开始反驳了:)

1。首先讨论已开始就没有定义社会科学是不是科学的问题,我们一直在讨论的是社会科学的数据与自然科学的数据有什么不同,而这种不同又会产生什么困难。如果这个不同——社会科学难以得到可控试验的数据,大家还有争议,也就没有再讨论的意义。

2。其次,我们能不能对验证理论的方法能不能达成共识,其实说白了,我们能不能对物理和医学等采取的可控试验所检验的“因果”性有信心。如果这点达不了共识,我们也不用再讨论。

3。在验证理论前,我们是否应该明确和无误解的列出我们所需要检验的结论或者假说,如果是,那么我们就不能在没有解决P1的情况下,还能解决P2和P3问题。这样大家连自己在争论什么都不知道。

4。我们的验证能超出经验?明强说我们只用经验就不能证伪。那我就比较疑惑:那怎么才能证伪了?上帝的旨意?那所有理论都可以存活了,因为经验不能证伪。

5。其实结构模型也是在模拟试验啊,每个结构模型能估计出来,都假定了残差不相关,这难道不是实验的扩展。而结构模型的问题在于如果模型对了,残差不相关成立,但是错了,哪怕一点点,就不是这样了。尽管复杂的结构模型让我们既探讨机制又讨论效果,可是凭什么说你模型是对的?而更重要的还在于,结构模型检验的是“结构模型”而不是经济学理论。关于heckman的slection的模型,是很有思想,我没有疑问。但是selection的方程也加入模型后,实际上假定这种selection的方式和形式是正确的,可是谁告诉你的。怎么验证这种selection是正确的?更要命的是在结构模型下,估计高度依赖模型假定,对系数的阐释也将大大受到限制:我们不是回答说,我看到教育对收入有正的影响,而是说:“在————正态等等假定下,我看到这个系数是多少。这是在回答理论本身吗?其实猫那个例如最适合说明结构方程了。

6。关于LATE,RD是不是计量工具,anyway,请你在看一下文献,而不是看介绍。之后仁者见仁,智者见智。

7。关于internal validity的推广。其实结构模型在这方面做得更夸张。他们都已经假定完全可以外延了,这已经体现在了模型设定中的。例如线形模型中假设常数的效果。LATE还走一步看一步,但结构模型已经在书房都把这些过程都弄完了。如果对外延有批评,那么对结构模型同样会有批评。结构模型给了我们群体的一个结果,但这个结果却很不可靠,而LATE给了我们部分人的结果,但可靠,两者对比,我不知道哪一种方法才是step by step。

8。关于比喻,我觉得在没有充分了解两者之前,还是避免用打比喻的方法来讨论,因为这只能增加荷尔蒙,不能增加知识,并且还容易扭曲各论点。并且我觉得imbens会说heckman的话,imbnens 可没这样自信。:)最后计量任务也不是heckman说了算,但有多少人认为计量完全是经济学,而不简单是个工具,我比较关心人数多少。最后nobel奖也不是评价标准,nobel没有少给意义不大的贡献,而很多意义深远的贡献也不一定拿得到nobel。还有就是谈很多科学精神和主义无助于我们的讨论,还会模糊我们的讨论。

TOP

 

感谢Force,我想我说在已经说得差不多了。针对你的评论补充一下

1。首先讨论已开始就没有定义社会科学是不是科学的问题,我们一直在讨论的是社会科学的数据与自然科学的数据有什么不同,而这种不同又会产生什么困难。如果这个不同——社会科学难以得到可控试验的数据,大家还有争议,也就没有再讨论的意义。

社会科学本身是科学,如果我们将其理解为对人类社会内在一般性规律的探索。至于试验数据问题,不应该影响目的本身。社会科学也有自己独具特色的数据,就是智慧生命留的历史record。也不能说社会科学就比自然科学获得在数据能力差,因为不在一个维度上。但追求规律或者至少追求可预见性应该是没有问题的。不知道这一点能否达成共识。

2。其次,我们能不能对验证理论的方法能不能达成共识,其实说白了,我们能不能对物理和医学等采取的可控试验所检验的“因果”性有信心。如果这点达不了共识,我们也不用再讨论。

实际中,我们似乎是在不断证实,但证伪的门是敞开的,因果性的信心很多情况下来源于理论的惊人预测力,我们可以依靠黑板上的公式预言太阳系新的成员,这使得我们有信心。而可控实验的基础是counterfactuals,在counterfactuals上的因果关系不能在现实中立即实现。这是两个层次上的问题。


3。在验证理论前,我们是否应该明确和无误解的列出我们所需要检验的结论或者假说,如果是,那么我们就不能在没有解决P1的情况下,还能解决P2和P3问题。这样大家连自己在争论什么都不知道。

仍然是counterfactual和indicative conditional的问题,这两个问题在两个层次上。不能从counterfactual角度做出的推断是没有external validity的。



4。我们的验证能超出经验?明强说我们只用经验就不能证伪。那我就比较疑惑:那怎么才能证伪了?上帝的旨意?那所有理论都可以存活了,因为经验不能证伪。

我没说这句话,我说一次经验证伪可以带来对理论的怀疑和新的改进。以下内容均系自动引申。

5。其实结构模型也是在模拟试验啊,每个结构模型能估计出来,都假定了残差不相关,这难道不是实验的扩展。而结构模型的问题在于如果模型对了,残差不相关成立,但是错了,哪怕一点点,就不是这样了。尽管复杂的结构模型让我们既探讨机制又讨论效果,可是凭什么说你模型是对的?而更重要的还在于,结构模型检验的是“结构模型”而不是经济学理论。关于heckman的slection的模型,是很有思想,我没有疑问。但是selection的方程也加入模型后,实际上假定这种selection的方式和形式是正确的,可是谁告诉你的。怎么验证这种selection是正确的?更要命的是在结构模型下,估计高度依赖模型假定,对系数的阐释也将大大受到限制:我们不是回答说,我看到教育对收入有正的影响,而是说:“在————正态等等假定下,我看到这个系数是多少。这是在回答理论本身吗?其实猫那个例如最适合说明结构方程了。

关于薛定谔的猫的例子,其实我只是想说,当我们不知道猫的状态时候,打开箱子实际上成为了解猫是死是活的唯一出路,这其实是薛定谔的一个自我嘲讽。selection function类似于一种假说,他提供了一种筛选机制,而不是一个混沌的状态,不知道怎么也同样适用猫的比喻。其他问题仍然是对counterfactual的理解的问题。

6。关于LATE,RD是不是计量工具,anyway,请你在看一下文献,而不是看介绍。之后仁者见仁,智者见智。

当然,我没说LATE,RB不是计量工具,我确信说他们在一定情况下是我们唯一关心问题的相对“完美”解决方案。我说的是他们是不是“模型”,加了引号是因为模型带有预测性的含义。同时感谢Aries与我的一番讨论,使得我也有兴趣再去了解这一套方法,当然仍然而且必须被称为是看介绍的阶段,因为没有涉足实际用他们来做研究,那又是另外一番天地了。(p.s.自从开始这场争论,“不了解新文献”“不懂这一套方法”之类的攻击往往我一张口就有人用它来封我的嘴了,其实很多问题是方法本身的逻辑起点问题,而不是技术性问题,再说无论是回归方法也好,非参方法也好,本质上就是个纯粹统计学方法,功夫花在合理化上,anyway,与其攻进城去遭遇四面埋伏,不如卸甲归田 )


7。关于internal validity的推广。其实结构模型在这方面做得更夸张。他们都已经假定完全可以外延了,这已经体现在了模型设定中的。例如线形模型中假设常数的效果。LATE还走一步看一步,但结构模型已经在书房都把这些过程都弄完了。如果对外延有批评,那么对结构模型同样会有批评。结构模型给了我们群体的一个结果,但这个结果却很不可靠,而LATE给了我们部分人的结果,但可靠,两者对比,我不知道哪一种方法才是step by step。

这里仍然是说同一个问题,但是我觉得其实两种模型在解决不同类型,如P1同P2/P3上各有长处。同时我也承认有时候internal validity是我们唯一关心的问题。

8。关于比喻,我觉得在没有充分了解两者之前,还是避免用打比喻的方法来讨论,因为这只能增加荷尔蒙,不能增加知识,并且还容易扭曲各论点。并且我觉得imbens会说heckman的话,imbnens 可没这样自信。:)最后计量任务也不是heckman说了算,但有多少人认为计量完全是经济学,而不简单是个工具,我比较关心人数多少。最后nobel奖也不是评价标准,nobel没有少给意义不大的贡献,而很多意义深远的贡献也不一定拿得到nobel。还有就是谈很多科学精神和主义无助于我们的讨论,还会模糊我们的讨论。

关于修辞,永远都是不重要的部分,不看就好了。
最后编辑mingtsiang 最后编辑于 2009-06-14 02:05:26
不做助教了
Whatever affects one directly, affects all indirectly. I can never be what I ought to be until you are what you ought to be.

mail me without hesitation: mingtsianglee@gmail.com

TOP

 

抱歉小强,几日未小网.各位又发表许多想法.有一点是肯定的,问题总是越辩越明,比如你的上一篇回复就让我认真地回顾了一下Heckman对于counterfactual的论述,想清楚不少.谢谢你但是,在他的两篇文章中,Heckman(2008)和Heckman & Uzua(2009),我都并没有找到任何关于indicative conditional的表达,你可否给出一个出处?

在Heckman(2008)第2页到第3页,他写道:
Counterfactuals are possible outcomes in different hypothetical states of the world. ... Causal comparisons entail contrasts between outcomes in possible states defined so that only the presence or absence of the drug varies across the states. ... The problem of causal inference is to assess whether manipulation of the treatment, holding all other factors constant, affects outcomes. The concept of causality developed in this paper and in the statistical treatment effect literature is based on the notion of controlled variation—variation in treatment holding other factors constant.
也就是说,Heckman对于counterfactual的理解与Imbens,Angrist等人几乎完全一致,就是potential outcome.而且他也承认,对于给定的任意一个agent,他接受treatment和不接受treatment之间的差异,具有因果性的阐释(causal interpretation).这不难理解,因为Heckman本人就是ATE以及后来的MTE的推动者.有鉴于此,我对counterfactual和indicative conditional的区别不是很理解.

那么,他们的分歧在何处呢?Heckman这样写道(第三页):

A model of counterfactuals is more widely accepted the more widely accepted are its ingredients, which are the rules used to derive a model, including whether or not the rules of logic and mathematics are followed, and its agreement with established theories.
也就是说,Heckman虽然同意可控实验的causal inference,但是counterfactuals的来源与Imbens等人不同。Heckman认为,由理论推导、设定得到的counterfactual更可信。最直观的例子就是我们熟悉的Heckit,由一个二步模型得到对于该人的potential outcome的预测值.而Angrist等人则认为,通过模型设定得到potential outcome的方法,假设太强,而且结果很差,如Lalonde(1986)所验证的.所以,替代的方法是实验或拟实验,找一堆人,随机分组(等于控制除Treatment外的其他因素).

各位看官认为,哪种获得potential outcome的方法更可信呢?别忘了Lalonde(1986)的教训.当然,LATE等方法也不是没有问题,Heckman批评到(第4页):

They do not clearly specify the mechanisms determining how hypothetical counterfactuals are realized. ... This emphasis on randomization or its surrogates, like matching or instrumental variables, rules out a variety of alternative channels of identification of counterfactuals from population or sample data. …they do not specify why otherwise observationally identical people make different choices and have different outcomes given the same choice.
Heckman说得没错,确实,由实验方法得到的counterfactuals, 在获得counterfactuals的层面上,没有/不需要所谓量的"理论"基础(实验的随机性已经保证了counterfactual的有效性),即它没有讨论为何一个行为者选择参与了一项实验或做出一个行动。但问题是,我们关心的是该实验或行动的结果,我们要处理的内生性恰恰来自他们的主动选择。从另一个角度看,这个批评的实质是针对IV等方法的locality。LATE确实是local的,这点没错。

但是,咱暂且不说选择模型没办法证明自己估得准不准,另有一个核心问题.这两日我和汪老师讨论这套方法.我讲到奥地利学派对实证方法的攻击.奥地利学派认为,实证方法最根本的问题是不可能用几个方程刻划人类的行为,即使在统计意义上也很困难.汪老师在和学生谈话时有一个评论,世界是复杂系统,因果性互相交织.统计方法只能抽离出个别重要的因果关系,而不可能把握这个复杂系统的所有"影响因素".但这正是选择模型试图想要做到的.(当然,如matching本身也有这个问题,所以严格来说,matching不是标准的实验)

实验方法在某种程度上回应了奥地利学派的这一批评,观察者必须变得更谦虚,对自己无知的领域说,对不起,我没有十足信心.

抱歉我去吃饭先.小强要回应counterfactuals的那个问题,给一个出处吧,方便我们讨论
最后编辑goasuplease 最后编辑于 2009-06-16 15:20:39
以前的签名档:我在巨蛋帮你听了Desperado,满眼都是泪。
现在的签名档:心里太阴暗,胸口长蘑菇。

TOP

 

感谢小青,这样的讨论有助于我们澄清一些问题。

Counterfactuals are possible outcomes in different hypothetical states of the world.

这句话要完整的看,后面的in different hypothetical states of the world是条件。Heckman与IA在对counterfactual的理解上没有实质区别,或者说社会科学对这个概念是有共识的。我举这个概念只是为了说明P1与P2,P3不存在实质上的递进关系。可以相互独立的操作。

Angrist在Mostly Harmless Econometrics里开宗明义也谈到了counterfactual的问题。

A causal relationship is useful for making preditions about the consequences of changing circumstances or policies; it tell us what would happen in alternative (or "counterfactual worlds).

这一点上,应该是没有争议的。

问题在于你对P1与P2,P3关系的理解,重新引用原话是

“既然你们承认实验方法在P1这类问题上的有效性,那你们的方法至少得到P1这类问题上跟实验比较接近,不然怎么能让大家相信这套方法可以处理更为宏伟的P2,P3问题呢?”

这里涉及到的一个问题是,需不需要先完成P1的论证。比较下面的两句话,前一句被称为indicatives

(0I) If my enemies tried to murder me yesterday, they failed.
(0) If my enemies had tried to murder me yesterday, they would have failed.

cited from Williamson, T. (2009). "Knowledge of Counterfactuals." Royal Institute of Philosophy Supplement 84(64): 45-64.

因为说这句话的人还活着,第一句话的意思是(因为我现在还或者),过去实际发生了谋杀我的事件,但是他们失败了。第二句话是虚拟语态,时间是否真实发生我们并不知道。

回到P1与P2/P3的问题上来,P1说的是一件实际发生的事情,评估其影响。而P2/P3条件尚未发生。逻辑上我们只能后验的知道其影响。而先验的知识我们只能从counterfactual中获得。这个counterfactual并不必然的来自过去的经验。比方说,可以直接来自理论。所以也并不存在P2/P3要建立在P1准确的基础上。

当然,实验的方法可以提供可靠的counterfactual,这和解决P1的问题有不同。没有人否认实验方法不能提供counterfactual,比方说因为头疼吃了阿司匹林,30分钟后头疼消失了,现在的问题是,如果不吃阿司匹林,头疼会消失么?

后面的问题就是一个counterfactual的问题,从这个角度讲,实验方法本身是基于counterfactual的。

显然,现在我们并没有区分实验方法和项目评估工具。前者的目的中至少包含提供counterfactual,而后者并没有这样的要求。虽然他们现在看来是一套方法。

小青敏锐的指出其实这里只是counterfactual提出的途径不同而已,这点我认同。我只是觉得并不是所有的问题都可以用过于简单的counterfatual response来解释,实验不能替代formal的理论,因为后者能够在counterfactual上走的更远。同时实验的结果很难分割,比如还是吃阿斯匹林的问题,我们可以说阿斯匹林这里是有效果,但是究竟是药物本身的效果,还是服药的心理作用。恐怕我们需要更详细的设计对照组,这些在实验室是相对容易实现的。在真是社会中能够加以区分。或者变成Angrist所说的fundimentally unidentified questions?(most harmless econometrics, p5)?

如果我们不能满足实验室条件。似乎只要我们找到一个支点,say,IV,我们就可以支撑起一个大厦。我们不妨再来看LATE,这里要研究是对treatment的response,但实验是被IV驱动的,这里产生的问题就是究竟会产生多少的Compliers,这里我们似乎无法建立一个counterfactual(也许有,但不好识别),因为IV必须要实现我们才能知道结果。这个不是Compliers少的问题,而是使得问题退回到只能解决P1。

正如Angrist著名的老兵实验中的困境,虽然我们知道了Draft Lottery虽然让我们知道了历史上的一次征兵会有多大的效应,但是IV框架仅仅能提供internal validity。也许这个结论和未来的兵役的效果有关,也许没关,它的预测价值是极为有限的。根本在于它在提供counterfactual上的缺陷。正如Angrist自己所说

There is nothing in IV formulas to explain why Vietnam-era affects earnings. for that, you need a theroy.(most harmless econometrics, p115)

写到这里吧,不敢在多写了,已经四面埋伏了。。。

后面的问题我们回来再探讨。
最后编辑mingtsiang 最后编辑于 2009-06-17 01:05:11
不做助教了
Whatever affects one directly, affects all indirectly. I can never be what I ought to be until you are what you ought to be.

mail me without hesitation: mingtsianglee@gmail.com

TOP

 
1/2页12 跳转到
发表新主题 回复该主题