如何读懂所谓的体育民调
温格已经惹恼了大部分枪迷,87%的枪迷支持他下课。但,《每日星报》的新闻可信度并不高,严谨性也不够,以耸人听闻为主,只好剑走偏锋。
事情要从一周前的一条新闻说起。这条新闻的核心意思是:温格已经惹恼了大部分枪迷,87%的枪迷支持他下课。消息来源是英国的《每日星报》,国内网媒迅速转载,各种标题党蜂拥而上。比如,网易体育的标题是《温格陷四面楚歌?被指七成(原文误,应为至少八成)球迷盼下课》,新浪体育的标题是《地震!近9成枪迷跪求温格下课》,凤凰体育《阿森纳遭遇32年联赛最差开局,近9成球迷盼温格下课》。
在讨论这个问题前,我想先说下《每日星报》是一张什么报纸:这是一家小报,格调和新闻的严肃性方面,不能与《泰晤士报》、《卫报》、《独立报》、《每日电讯报》等传统大报相比;另一方面,在小报界它也只是阅读量较少的报纸,这一端占翘楚的基本是《太阳报》和《每日邮报》,2014年前者的发行量是221万份,后者的发行量是178万份,而《每日星报》虽谈不上是“小透明”,但发行量还不到50万份。
换句话说,它的新闻,可信度不高,严谨性也不够,以耸人听闻为主,偏偏在耸人听闻方面又干不过《太阳报》等,只好剑走偏锋。这条新闻,没有出现在《太阳报》和《每日邮报》上是有原因的。因为那两家报纸虽然是小报,其实也是有自己严格的新闻要求的(在足球新闻权威性方面其实并不比大报差),是“盗亦有道”的小报,只有《每日星报》这样的报纸才会为博眼球不惜孤注一掷。
但这不是我在这里要说的主要问题,我真正想讨论的问题是:我们真的了解民意调查吗?由于众所周知的原因,民意调查对于我国民众是一个比较新的概念,大部分人对民意测验的调查方法、调查手段、结果可信度、误差等名词其实都相当陌生,因此对于如何科学地阅读民意调查,也存在很多误区。就拿刚才所说的温格民调来看,除了《每日星报》的可信度问题之外,你看出什么问题了吗?
在这里,我先抄出《每日星报》原文的核心部分:“在阿森纳球迷网站AFC4LIFE.co.uk最近进行的一次民意调查中,枪迷被要求就法国人(温格)的去留投票。其结果令人震惊,调查显示87%的阿森纳球迷希望这名65岁(的教练)在赛季末离开俱乐部。”在详细讨论这一报道的问题前,我先给出我的结论,简单而有力:这是bull-shit(胡扯)新闻!任何这样的非科学抽样调查,都只是在耍流氓。
在详细讨论之前,我先问大家一个问题:在你看来,一个调查了10万人的民意测验,和一个调查了1000人的民意测验,哪个结果更可信?根据你对这个问题的回答,我可以判断出你对民意测验的了解程度。如果你答:那肯定是10万人的民意测验更可信吧?那我就可以确定地知道:你对民意测验知之甚少。
正确答案是:在不解释抽样方法前,这个问题没法回答;如果采取了错误的抽样方法,那10万人的民意测验,也可能无法反映正确的民意;而如果采取了科学抽样方法,1000人的抽样,就足以对中国13亿人口进行一个质量非常不错的民意测验了。当然,在这之前,我们恐怕先要解释:为何在判断民意时,要进行“抽样调查”,而不太可能是“普查”。
假使今天我们要想理解13亿人的民意,那最“正确”的方法应该是对13亿人普查。问题是这样的成本无疑是巨大的,13亿次的访问以目前的技术条件来说不可能瞬间同时举行,就算不需要瞬时,也要耗费巨额的费用(想一想为何无论是中国还是美国,人口普查都只能十年来一次)。所以,需要考虑的是,如何在成本-效果之间得到一个可靠的平衡:花费要不算很大,而得到的结果又足够反映民意,这就是为什么要进行抽样调查。
既然要抽样,就会产生和总体的偏差:问1000人的意见,可能会无法代表13亿人的想法。我们要做的,就是在成本范围内,尽量缩小这个误差,这就需要用到科学的抽样方法。那哪些是科学的抽样方法呢?我们可以先排除掉不科学的抽样,其中有一些是我们日常读新闻时经常能看到的。比如,类似那个所谓“终身阿森纳球迷”(AFC4LIFE的意思是ArsenalFC For Life)网站的调查,就几乎可以肯定是在耍流氓。
为什么呢?我们可以顺着以下几个问题思考:浏览这个网站的人员构成,能代表阿森纳球迷的总体人员构成吗?什么人会去浏览这个网站?又是什么样的人会去按下这个投票按钮?也许你现在已经发现问题所在:浏览这个网站的人,不能代表阿森纳的全部,甚至都不是阿森纳球迷群体的一个科学抽样样本;总共有1010人参与了这个网站的调查,但正如我们之前说过的,如果抽样不科学,那10万人的样本都不能说明问题。
其实这结论可以推到所有网站调查中:网站调查,最多只能反映浏览该网站的人员的意见倾向,那些不浏览该网站、没看到这条调查的人、看到也不愿意参加调查的人、甚至根本不上网的人(比如老人,没电脑、智能手机的人),意见就完全被忽略了;网站调查反映了一部分人的意见,但不能推论到全部,非科学样本不能取代总体,用部分阿森纳球迷来代指所有阿森纳球迷是概念偷换。但《每日星报》如果说参与“AFC4LIFE”网站调查的人中,87%支持温格下课,它大概又会嫌标题啰嗦而不劲爆了。
就算浏览该网站的人,也不一定个个有这样强烈的表达欲望去按下这个投票按钮,因为毕竟你在投票上花费的时间再少,也是时间成本,所以结果会更偏向于那些有强烈意见需要表达的人(极端爱与恨),这就是社会统计学里所谓的“自我选择偏见”。比如一些汽车网站的调查,通常会畸高地反映有车人的观点,而不能反映普通大众的观点。可以说:网络调查,通常都是在耍流氓。
同样的不科学抽样,还有所谓的街头调查,因为这种调查可能夸张了人群中健康人的数量,忽略了那些在家里不能出门的病人或者正在工作不在街头的人。还有工作日的家访电话调查,可能会夸大老年人的意见(因为他们不用上班,留守家中),而忽略了年轻人的意见。杂志附送调查问卷也只能代表那些比较有闲、愿意回答的人的意见,忽略了那些不愿回答的读者的意见。以上种种,就是不科学抽样的民意调查,当参考并非不可,但如果拿来当科学证据则通通都是在耍流氓。
那么,科学的抽样方法又是什么呢?这包括简单随机抽样、等距抽样、分层抽样、多级抽样等。由于具体的讨论需要一定的高数知识,在这里就不为难文科生了。这里提供一个网站http://www.surveysystem.com/sscalc.htm,可以查一个科学抽样的样本所需人数:大致来说,如果要了解中国13亿人口的民意,在95%的置信水平下,正负误差3%的一个调查,只需要抽取1067人就可以了。
我们还是要先解释一下概念。所谓正负误差,就是得出的结果如果是48%,那真实的民意可能在45%-51%之间。比如,假设你明年在美国总统大选中看到希拉里的支持度是48%,杰布·布什的支持度为51%,而正负误差是3%,那科学来说这两人就是难分胜负,因为希拉里就是在45%-51%的区间,而杰布·布什在48%到54%之间,存在希拉里赢杰布·布什的可能性。
所谓置信水平(ConfidenceLevel),就是总体参数值落在样本统计值某一区内的概率。你也许不需要理解这是什么意思,只要记住:通常来说,95%就已经足够了,更保守的置信水平可以提高到99%。13亿人,就算99%的置信水平,正负误差3%的一个调查,也只要抽取1849人就可以了。是不是比我们想像的要少很多?
是的,科学抽样就是这么酷炫。他可以用较少的抽样人数,大致准确(当然不可能绝对)地衡量较大总体的民意。那么,我们可不可以抽取更多的样本呢?比如,2500人?当然可以,但如果我们用成本收益比去考量的话,会发现这是非常不划算的事情:比起1000人的样本调查来,2500人样本的调查成本是2.5倍,但其带来的精度提高却实在少得可怜;实际上在样本人数达到500人以上后,增加的精度都不成正比了。盖洛普等美国专业调查机构,多年来对美国的民意调查抽样一直在1000人到1500人之间,而美国的人口目前估计在3.19亿左右。
看到这里你是不是想回去重读高数了?其实,不用担心,你可以掌握一个简单判断的拇指法则:任何不交待清楚抽样方法和误差范围的民意调查,都有极大可能是在耍流氓;而一个科学抽样的调查,通常都会交代正负误差范围和抽样方法,比如路透社、法新社等国际通讯社报道民意测验时,发稿规范里都明确规定这是要披露的背景。
在这里,我们可以简要介绍一下盖洛普公司曾用过的具体抽样操作手法:首先采用一种叫做RDD(随机数字拨号)的方式罗列出全美的电话号码(之所以不用电话号码本是因为30%的美国家庭电话未列入号码本);然后用电脑根据随机选择程序在这些号码中抽样出1000到1500个号码,并开始拨打;如果第一次忙音或无人接听,系统会记住这个号码,在几个小时后再拨打;如果接听电话的家庭有几个成年人,系统会再采取随机方式从中选出一个受访者(如生日最靠近采访当天的人)……当然,在手机普及之后,科学抽样方法也要与时俱进。
除了抽样方法可能带来的结果误差之外,还有其它很多方面会影响抽样调查的结果精度。比如,调查员的采访技巧,有很大可能影响抽样的结果——碍于情面,人们通常不会当面驳斥一个调查员,也会尽量顺着调查员的偏见去回答问题,有经验的调查员会避免这些误差。
再比如,如何科学地设计问卷问题,是社会统计学里一门专门的学问。有时候答案的不同,完全取决于你问问题的方式、具体措辞、问题顺序甚至是一个标点符号。在这里我们讲一个古老的段子就可以了:两个神甫在讨论能否一边抽烟一边祈祷,然后决定去找自己的主教咨询;第二天神甫又会面了,一个说自己的主教不允许抽烟祈祷,另外一个说“奇怪了,我的主教怎么说没问题”;于是一个神甫问另外一个:“你是怎么问的?”另外一个说:“我问他:祈祷时能否抽烟?”头一个神甫就说:“我明白为什么我们的答案不同了,因为我问的是:抽烟时能否祈祷?”
就拿那个阿森纳调查来说,调查本身的问题“温格是否该离开阿森纳”没有太大瑕疵,问题在于在提问之前,这个博客的主人先长篇大论写了一串对球队成绩的失望,然后再进行投票,这其实已经是在对投票者的倾向进行强烈的心理暗示,这样出来的调查结果,还可信吗?
民意测验对于很多国人来说,是个不太熟悉的东西。所以一些别(真)有(的)用(无)心(知)的媒体或人,常常可以借助国人对数目字的崇拜,把一些非科学抽样的民意测验包装成“很科学”的样子。了解了本文所提供的科普知识,你至少在碰到这些民意测验新闻不会轻易被骗,而会高贵冷艳地问以下几个问题:抽样是否科学?误差率多少?所使用的问题是什么?
原标题:克韩:论如何读懂体育民调
声明:本文仅为作者观点,不代表禹唐立场。
声明:配图除署名外均来自网络,禹唐体育原创文章未经同意不得转载,转载/合作请加禹唐微信小助手,微信号:yutangxzs