跳转到内容

统计误用

维基百科,自由的百科全书

这是本页的一个历史版本,由2001:b011:4005:38a8:2d3c:cae4:e2f6:6042留言2020年9月8日 (二) 14:12 錯誤的因果關係编辑。这可能和当前版本存在着巨大的差异。

统计误用是指统计学的争论被断言为谬误。在一些情况,这些误用是意外发生的。可是,在其他情况,这都是有目的的,而且会令犯罪者(使用统计误用的人)从中得到好处。当其统计原因涉及到错误或误用,便构成了统计谬误

错误的统计陷阱会对知识的追求带来负面的影响。例如将一个医学上的谬误会花上数十年,并会招致人命损失。

误用是很常发生的。即使一些专业的科学家、数学家和统计员小心检查所有数据,仍有可能被些简单的方法玩弄到。有科学家发现这是因为他们欠缺有关概率论的知识和其测试欠标准化

误用的类型

一间公司所需做的事就是找出推广中性(无用)的产品的方法,例如︰有40个研究指出产品的置信等级有95%。如果该产品真的是无用的,这个数据便有可能是由1份指出产品是好的、1份指出产品是不好的及38份不确定的研究(38是40的95%)得出的平均值。当研究报告越多时,这个策略便越有效。

组织是不会把他们的所有的研究都公开的,例如烟草公司会否认吸烟和癌症之间的关联,而提倡禁烟组织和媒体则会尝试着证明吸烟和多种病症是有关联的,减肥药物制造商也常用这个策略。

另一个常见的技巧就是进行其测试中有大量应变项(dependent variable)的研究。例如︰一个测试治疗方法的效果的研究可以存活率、在医院的平均日数、病人自报的疼痛程度等作为应变项。最少一个变项会碰巧展示与自变项(independent variable)的可能性便会增加。

不恰当的问题

问题的用字能引导受访者给予某一答案,问卷的结果因而能被操纵(参见观察者期望效应)。例如在有关战争的民意调查中,问题为︰

  • 你支持美国的企图能为其他国家带来自由和民主吗?
  • 你支持美国的无故军事行动吗?

以上两道问题虽然也有关战争的民意调查,但所得出的结果会有所不同。(参见预立论题

另一做法是在问题前加上支持“理想答案”的资料。例如︰

  • 已知税项会增加中产家庭的负担,你支持扣减所得税吗?
  • 在考虑国家的预算赤字和收入的迫切需求,你支持扣减所得税吗?

在前者,有较多人会倾向回答“支持”。(参见诱导性提问

轻率概化

轻率概化是当一个统计的的特定总体不能代表原本总体时发生的谬误。

例如,假设在夏天时的苹果100%也是红色的。那么,“所有苹果都是红色”的推断便是过度类化,因为原本的统计只对那些在夏天的苹果正确,而不能代表所有苹果;或者看到发达国家废除死刑后的治安数据,就断定死刑对治安没有影响,但发达国家废除死刑后的状况不能代表所有国家的状况。

在现实生活中,禁止通过电话的政治民意调查可见到过度类化的谬误。由于年青人只拥有一部手提电话,而非也拥有一部家用电话,这种年青人会被视为自由主意者,而没有家用电话的年青人很大机会会被当作整体,这些民意调查便有效地使很多自由的选民排除在外。[1]

因此,使用这种技巧的民意调查所检验的年青人的投票意愿,是不能在没有过度类化的情况下声称能代表所有年青人的真正投票意愿,这是因为其使用的样本不是整个总体的代表。

当资料在某个媒体经过非技术性的来源,过度类化便经常出现。[2]

以偏概全(抽样偏差, biased samples)

科学家在过去以巨大的代价学到搜集良好的实验数据以做统计分析是困难的,像例如说安慰者效应常常会非常强大,一个例子是在一个实验中,所有的受试者在接触被贴上“毒藤”标签的惰性物质之后,都起了皮疹,反倒那些接触被贴上“无害”标签的毒藤的人,只有少数人起来皮疹。[3]研究者现在借由双盲随机化比较实验来应对此现象。比起分析本身,统计学家通常更担心资料的真确性,而这反映在统计学当中一门被称为“实验设计”的研究当中。

做民调的人在过去也以巨大的代价学到搜集良好的调查资料以做统计分析是困难的。一个潜在的例子是在资料收集上手机所产生的选择效应(此事在本文“轻率概化”一节中也有谈及),如果拥有传统电话的年轻人并不能代表年轻人整体,那么电话抽样就会出现偏差。样本观察当中有许多陷阱,在实际执行时,要非常地小心[4];另外,在电话抽样时,往往要打将近3000通电话,才能得到一千个样本。因此对于母体的简单随机抽样“并不简单,也未必随机”。[5]

估计错误的误报或误解

如果一个研究小组希望知道300万人对指定题目的看法,一一询问是个不实际的做法。可是,如果这个小组随意抽出1000人作样本,这些人给予的回应便可代表那300万人的意愿。

这个置信区间可以被中心极限定理和其他数学的结果量化。它会被表达为一个在指定范围的估计值(较小组别的数字)的真实结果(较大组别)的概率。这是经常被统计调查引用的“正或负”数。这个置信区间的概率部分不是常常被提起,即使有被提起,它也会被假设为像95%的标准数。

这两个数字是有关的。如果一个问卷调查在95%的置信区间中,其估计误差为±5%;在99%的置信区间中,其估计误差为±6.6%。当置信区间为95%时是±%,那置信区间为99%时,就会变为±%。

当估计错误越少时,便需要越大的样本空间。像例如说置信区间为95.4%时,各种估计误差所需要的调查人数如下︰

  • ±1%需要10,000人。
  • ±2%需要2,500人。
  • ±3%需要1,111人。
  • ±4%需要625人。
  • ±5%需要400人。
  • ±10%需要100人。
  • ±20%需要25人。
  • ±25%需要16人。
  • ±50%需要4。

很多人采用了这些数字,因为忽略了置信区间而以为这是100%肯定真实结果,忘了这是存有估计误差的,而这种看法在数学上是不正确的。

很多人可能不会发现说样本空间的随意性,是会造成十分重要的差异的。在日常的做法中,很多舆论调查也通过电话进行,而这种方法会在几方面歪曲样本空间,当中包括剔除了没有电话的人、重复计算了拥有多于一部电话的人等。非随机抽样会使估计误差变得不可靠。

非随机抽样使估计变得不可靠的一个例子是1936年美国总统选举前,《文学文摘》邮寄1,000万份问卷予其读者,回收230万份。他们预测共和党候选人阿尔夫·兰登会在531张选举人票中获得370张选票并胜过民主党候选人富兰克林·德拉诺·罗斯福

该次总统大选,阿尔夫·兰登实际上只获得8张选举人票,而富兰克林·德拉诺·罗斯福则在大选中大胜。一个说法认为,《文学文摘》的读者比美国人口拥有更多共和党人,故此他们更倾向于投票给阿尔夫·兰登。《文学文摘》的民调样本有明显的偏差。

在另一方面,由于不是所有人的意见也问到或他们从来亦未被访问,所以很多人都认为统计是不可靠的。不少人认为只透过调查数千人是不可能取得数百万人的意见,这也是不准确的。一个有完美公正的抽样和可信答案的调查在数学上被定义为误差范围,这是只取决于调查的人数。

可是,问卷调查通常只有一个误差范围。当一小群人的结果被报告时,误差范围便会较大,但这可能不太清楚,例如,一个1000人的问卷调查可能会包含100位来自指定种族或经济组别。聚焦组别得出的结果会比总体的不太可靠。如果整个样本空间的误差范围是4%,那么一个分组的误差范围便会是大约13%。

人口调查还会出现很多其他量度上的问题。以上提及的问题不只会发生在人口调查,还会发生在所有的统计实验。

更多资料︰舆论调查社会统计调查偏差样本

错误的因果关系

当一个统计测试展示A和B之间的关系时,通常也会有5种可能性︰

  1. A导致B。
  2. B导致A。
  3. A和B互相导致对方出现。
  4. A和B一起导致C。
  5. 观察得的关系纯属偶然。

第五个可能性可透过统计测试来量化,计算出来的几率与其可能发生的机会是一样大的。事实上,变量之间是没有关系的。可是,即使那个几率的可能性很少,其余四个可能性仍有机会发生。

以下以现实中可能会碰到的状况,来说明错误因果关系。就算今天有人说“在沙滩里购买雪糕的人越多,那么在沙滩里遇溺的人就越多,因此购买雪糕导致更多人溺水”,那也不会有多少人认真考虑这说法,因为显然地,就算在沙滩里购买雪糕的人数是与在沙滩里遇溺的人数有关的,也没有人会断言雪糕会导致遇溺,这是因为这两件事情明显地无关,而遇溺和购买雪糕清楚地与第三个因素,也就是沙滩上的人数有关;然而,这不表示类似的谬误就不会出现,这个谬误的一个例子,是证明接触化学品会导致癌症。很多时候人们会把“购买雪糕的人数”用“接触某种化学物质的人数”代替,以及把“沙滩里遇溺的人数”用“患上癌症的人数”代替。在这个情况,即使这样做没有真正的效果,那仍然有一个统计上的关联。

假定某个物体,像例如某种化学物质的储存槽,会导致地价降低,这会使得更多低收入家庭搬到该地;而假定因为更差的膳食和缺乏医疗资源等原因,使得低收入家庭较高收入家庭容易患上癌症的话,那这样就会导致错误的结论,即使该种物体本身不危险也一样。在一些证明电源线的EMF(电磁场)和癌症的关联的研究中[6],这个情况真的发生了。[7]

其他的例子像是古人所谓的“妹喜妲己褒姒,三代所由亡也”(杜预左传》注)、“贤士国之宝,美女国之咎:夏亡以妹喜,殷亡以妲己,周亡以褒姒。”《吴越春秋[note 1]这件事,但尽管可以观察到说“美女出现,之后朝代覆亡”,这不代表美女的出现,就是之后朝代覆亡的原因,要同时考虑“有其他的因素,如君王本身的人格特质,导致了美女的出现与之后朝代的覆亡”或者“美女的出现与之后朝代的覆亡之间的关系纯属偶然”等等各种可能性,在不能排除其他变因的状况下,不能轻易断言说美女是“红颜祸水”;或者像是“看十八禁动漫的男生更容易会犯下性犯罪”,但尽管可以观察到“有些男生,像是宫崎勤,犯下性犯罪,而且喜欢看十八禁动漫”,但这不代表看动漫就是这些男性犯下性犯罪的原因,要同时考虑“有其他因素,如观看动漫者本身的人格特质,导致了他们购买十八禁动漫和犯下性犯罪”或者“看十八禁动漫和犯下性犯罪纯属偶然”等各种可能性,在不能排除其他变因的状况下,不能轻易断言说“十八禁动漫导致性犯罪”;还有一个例子就是看到死刑判决数越多的时候,谋杀犯罪率也越高,就断定死刑导致更多谋杀,但就算如此,有可能死刑和谋杀之间的关系,纯属偶然,或更可能地,谋杀增加导致更多死刑判决,在不能排除其他变因的状况下,不能断定死刑有“残忍效应”─也就是死刑导致更多谋杀。

在构思甚佳的研究中,错误的因果关系的影响可透过随机分别分配一些人到“受试组”及“控制组”中来排除,研究人员可借由对受试组的人施加影响(例如进行治疗),不对控制组的人施加影响的方式,来得知真实的因果关系。在以上化学物质的例子中,研究人员应当要将受测者随机分成两组,让其中一组人暴露在该种化学物质中,并让另一组人不接触该种化学物质,以将其他变因的可能性给降到最低。如果在这实验中,第一组人有较高的患癌率,由于研究员控制了实验对像有否暴露在该种化学物质中,他便知道没有收入等其他因素影响,进而可以断定该种化学物质会导致癌症;或在以上十八禁动漫的例子中,将男性分成两组,一组不给看十八禁动漫,另一组则让他们大量接触十八禁动漫;或在以上死刑的例子中,应该要将国家随机分成两组,一组对谋杀有死刑,另一组对谋杀没有死刑,以查看死刑对谋杀的影响,并排除文化和经济发展等的影响;可是,这样做实验是十分昂贵、不可行、不合法或完全不可能的。例如说机构审查委员会大多不会批准进行为了测试某物质的毒性,而把人类暴露在危险物质当中的实验;而将国家随机分成两组来查看死刑的影响,或者将朝代分成两组来查看美女对国家兴衰的影响,或将男性分成两组以查看十八禁动漫对性犯罪倾向的影响,则在技术上更是完全不可行。这类实验明显的道德暗示会限制了研究员凭经验判断实验因果关系的能力。

零假设的证明

深挖数据

深挖数据是对数据挖掘的一种滥用。在深挖数据中,行为者在没有预先对需要检验的假设做出决定的状况下,检视大笔的资料,以寻找关联。由于在一般状况下,要建立两个变数间的关联所需的置信区间通常是95%(这表示观察到的关系,有95%的可能性不是随机的),因此在任意两组随机的变数间找到关联的几率依旧有5%。由于人们在深挖数据的时候,通常会检视大笔且有多个变数的资料,进而会检视更大量的变数对之故,因此在任何这类的研究中,几乎都一定能找到统计上看起来相关但可疑的结果。

当注意的是,深挖数据是找到可能假说的有效方法,但由此方法找到的假说,必须以其他的资料来检视,而不能用被用于深挖数据的原始资料来检视;而深挖数据所造成的误用,会在将发现的假说视为事实,而未做进一步确认的时候发生。

或曰:“你不能合理地用和指出某特定假说的资料相同的资料,来检验该项假说,对治此状况的方法很明确,就是一旦你有了一个假说,就要为你现在认为存在的效应,特别设计一项研究。一旦测试的结果是统计相关的,你就有了确实的证据。”[note 2][8]

数据操纵

数据操纵指的是选择性使用数据(可参见发表偏差)或甚至捏造数据的作为。

选择性使用数据的状况很多,最常见的例子就是选择那些模式符合研究者所偏好的假说的结果,而忽略掉其他那些和假说不合的结果。

一般而言,科学家会质疑不能被其他调查者重现的研究结果;然而,一些科学家会拒绝出版他们所用的数据和研究方法。[9]

数据操纵是统计分析诚实性上一个非常严重的问题;不过离群值、数据缺失和非常态性都会对统计分析的真确性,造成负面的影响,在分析开始前,研究数据本身并对其确实存在的问题进行修补是合理的。或曰:“在任何分散的图表上,都多少会有一些点,是偏离资料主体所形成的云的。这些点应当被剔除,以清楚呈现因果关系。”[note 3][10]

其他谬误

其他的谬误包括“拿苹果跟橘子比”[note 4]、误用平均数(像是例如说“男人和女人平均有一颗睾丸[note 5],前总统德怀特·艾森豪威尔对一半的美国人的智力不足平均水平的震惊)、“均值回归”(regression toward the mean)以及“垃圾进,垃圾出”等等;此外,一些统计数据就纯粹与议题无关

安斯库姆四重奏是一组虚构的数据,被用以显示简单描述统计(以及未经过数值分析的统计图的数值)的不足。

参见

注解

  1. ^ 白话翻译:“贤能的士人,是国家的珍宝,而美女则是国家的祸害。像例如说夏朝的灭亡,就是因为一个叫妹喜的美女造成的;商朝的灭亡,就是因为一个叫妲己的美女造成的;周朝的灭亡,就是因为一个叫褒姒的美女造成的。”
  2. ^ 原文:"You cannot legitimately test a hypothesis on the same data that first suggested that hypothesis. The remedy is clear. Once you have a hypothesis, design a study to search specifically for the effect you now think is there. If the result of this test is statistically significant, you have real evidence at last."
  3. ^ 原文:"[I]n any scatter diagram there will be some points more or less detached from the main part of the cloud: these points should be rejected only for cause."
  4. ^ 这是一个常见的比喻,用以指称拿两个顶多只是有点相关但本质不同、因而不应该相互比较的事物进行比较的行为。
  5. ^ 这是显而易见没有考虑母体分布特性所做出的平均值,经常被用以反讽无意义的统计数据,例如以平均收入、财富宣称人民生活富裕,却忽略贫富差距

参考资料

  1. ^ Silver, Nate. ‘Robopolls' Significantly More Favorable to Republicans Than Traditional Surveys. The New York Times. 28 October 2010. 
  2. ^ Lisa M. Schwartz, Steven Woloshin. On the prevention and treatment of exaggeration. Journal of General Internal Medicine. 2003-02-01, 18 (2): 153–154 [2018-04-02]. ISSN 0884-8734. doi:10.1046/j.1525-1497.2003.21216.x (英语). 
  3. ^ Moore & Notz 2006,第97页.
  4. ^ Moore & McCabe 2003,第252–254页.
  5. ^ Moore & Notz 2006,第53, Sample surveys in the real world页.
  6. ^ Gaia Vince. Large study links power lines to childhood cancer. New Scientist. 2005-06-03 [2017-06-16] (美国英语). 
  7. ^ John W. Farley. Power Lines and Cancer: Nothing to Fear. www.quackwatch.org. [2017-06-16]. 
  8. ^ Moore & McCabe 2003,第466页.
  9. ^ Neylon, C. Scientists lead the push for open data sharing. Research Information (Europa Science). 2009, 41: 22–23. ISSN 1744-8026. 原始内容存档于December 3, 2013. 
  10. ^ Freedman, Pisani & Purves 1998,chapter 9: More about correlations, §3: Some exceptional cases