統計誤用

統計誤用是指統計學的爭論被斷言為謬誤。在一些情況，這些誤用是意外發生的。可是，在其他情況，這都是有目的的，而且會令犯罪者(使用統計誤用的人)從中得到好處。當其統計原因涉及到錯誤或誤用，便構成了統計謬誤。

錯誤的統計陷阱會對知識的追求帶來負面的影響。例如將一個醫學上的謬誤會花上數十年，並會招致人命損失。

誤用是很常發生的。即使一些專業的科學家、數學家和統計員小心檢查所有數據，仍有可能被些簡單的方法玩弄到。有科學家發現這是因為他們欠缺有關概率論的知識和其測試欠標準化。

誤用的類型

去除不利數據

一間公司所需做的事就是找出推廣中性(無用)的產品的方法，例如︰有40個研究指出產品的置信等級有95%。如果該產品真的是無用的，這個數據便會是由1份指出產品是好的、1份指出產品是不好的及38份不確定的研究(38是40的95%)得出的平均值。當研究報告越多時，這個策略便會越有效。

組織是不會把他們的所有研究都公開的，例如煙草公司否認吸煙和癌症之間的關聯，而提倡禁煙組織和媒體就嘗試著證明吸煙和多種的痛症是有關聯的，或減肥藥物製造商也常用這個策略。

另一個常見的技巧就是進行其測試中有大量應變項(dependent variable)的研究。例如︰一個測試治療方法的效果的研究可以存活率、在醫院的平均日數、病人自報的疼痛程度等作為應變項。最少一個變項會碰巧展示與自變項(independent variable)的可能性便會增加。

不恰當的問題

問題的用字能引導受訪者給予某一答案，問卷的結果因而能被操縱(參見觀察者期望效應)。例如在有關戰爭的民意調查中，問題為︰

你支持美國的企圖能為其他國家帶來自由和民主嗎?
你支持美國的無故軍事行動嗎?

以上兩道問題雖然也有關戰爭的民意調查，但所得出的結果會有所不同。（參見預立論題）

另一做法是在問題前加上支持「理想答案」的資料。例如︰

已知稅項會增加中產家庭的負擔，你支持扣減所得稅嗎?
在考慮國家的預算赤字和收入的迫切需求，你支持扣減所得稅嗎?

在前者，有較多人會傾向回答「支持」。（參見誘導性提問）

輕率概化

輕率概化是當一個統計的的特定總體不能代表原本總體時發生的謬誤。

例如，假設在夏天時的蘋果100%也是紅色的。那麼，「所有蘋果都是紅色」的推斷便是過度類化，因為原本的統計只對那些在夏天的蘋果正確，而不能代表所有蘋果；或者看到已開發國家廢除死刑後的治安數據，就斷定死刑對治安沒有影響，但已開發國家廢除死刑後的狀況不能代表所有國家的狀況。

在現實生活中，禁止通過電話的政治民意調查可見到過度類化的謬誤。由於年青人只擁有一部手提電話，而非也擁有一部家用電話，這種年青人會被視為自由主意者，而沒有家用電話的年青人很大機會會被當作整體，這些民意調查便有效地使很多自由的選民排除在外。^[1]

因此，使用這種技巧的民意調查所檢驗的年青人的投票意願，是不能在沒有過度類化的情況下聲稱能代表所有年青人的真正投票意願，這是因為其使用的樣本不是整個總體的代表。

當資料在某個媒體經過非技術性的來源，過度類化便經常出現。^[2]

以偏概全(抽樣偏差, biased samples)

估計錯誤的誤報或誤解

如果一個研究小組希望知道300萬人對指定題目的看法，一一詢問是個不實際的做法。可是，如果這個小組隨意抽出1000人作樣本，這些人給予的回應便可代表那300萬人的意願。。

這個置信區間可以被中心極限定理和其他數學的結果量化。它會被表達為一個在指定範圍的估計值(較小組別的數字)的真實結果(較大組別)的概率。這是經常被統計調查引用的「正或負」數。這個置信區間的概率部份不是常常被提起，即使有被提起，它也會被假設為像95%的標準數。

這兩個數字是有關的。如果一個問卷調查在95%的置信區間中，其估計誤差為±5%;在99%的置信區間中，其估計誤差為±6.6%。當置信區間為95%時是± %，那置信區間為99%時便多為± %。

當估計錯誤越少時，便需要越大的樣本空間。已知置信區間為95.4%︰ ±1%需要10,000人。 ±2%需要2,500人。 ±3%需要1,111人。 ±4%需要625人。 ±5%需要400人。 ±10%需要100人。 ±20%需要25人。 ±25%需要16人。 ±50%需要4。

很多人採用了這些數字，因為置信區間忽略了這是100%肯定真實結果是存有估計誤差的。這在數學上是不正確的。

很多人可能不會發現樣本空間的隨意性是十分重要的。在日常的做法中，很多輿論調查也通過電話進行，而這種方法會在幾方面歪曲樣本空間，當中包括剔除了沒有電話的人、重覆計算了擁有多於一部電話的人等。非隨機抽樣會使估計誤差變得不可靠。

在另一方面，由於不是所有人的意見也問到或他們從來亦未被訪問，所以很多人都認為統計是不可靠的。不少人認為只透過調查數千人是不可能取得數百萬人的意見，這也是不準確的。一個有完美公正的抽樣和可信答案的調查在數學上被定義為誤差範圍，這是只取決於調查的人數。

可是，問卷調查通常只有一個誤差範圍。當一小群人的結果被報告時，誤差範圍便會較大，但這可能不太清楚，例如，一個1000人的問卷調查可能會包含100位來自指定種族或經濟組別。聚焦組別得出的結果會比總體的不太可靠。如果整個樣本空間的誤差範圍是4%，那麼一個分組的誤差範圍便會是大約13%。人口調查還會出現很多其他量度上的問題。

以上提及的問題不只會發生在人口調查，還會發生在所有的統計實驗。

更多資料︰輿論調查、社會統計調查

錯誤的因果關係

當一個統計測試展示A和B之間的關係時，通常也會有5種可能性︰

A導致B。
B導致A。
A和B互相導致對方出現。
A和B一起導致C。
觀察得的關係純屬偶然。

第五個可能性可透過統計測試來量化，計算出來的機率與其可能發生的機會是一樣大的。事實上，變量之間是沒有關係的。可是，即使那個機率的可能性很少，其餘四個可能性仍有機會發生。

以下以現實中可能會碰到的狀況，來說明錯誤因果關係。如果今天有人說「在沙灘裡購買雪糕的人越多，那麼在沙灘裡遇溺的人就越多，因此購買雪糕導致更多人溺水」，那也不會有多少人認真考慮這說法，因為顯然地，就算在沙灘裡購買雪糕的人數是與在沙灘裡遇溺的人數有關的，也沒有人會斷言雪糕會導致遇溺，這是因為這兩件事情明顯地無關，而遇溺和購買雪糕清楚地與第三個因素，也就是沙灘上的人數有關；然而，這不表示類似的謬誤就不會出現，這個謬誤的一個例子，是證明接觸化學品會導致癌症。很多時候人們會把「購買雪糕的人數」用「接觸化學品X的人數」代替，以及把「滅亡的朝代數」用「患上癌症的人數」代替。在這個情況，即使這樣做沒有真正的效果，那仍然有一個統計上的關聯。

例如，如果某一地方對化學品站是「危險」(即使它不危險)的資產的看法減少，這會誘使更多低收入家庭搬到該地，即使那種化學品本身不危險亦然。如果低收入家庭較高收入家庭容易患上癌症(這可能是基於更差膳食和醫療技術欠佳等原因)，然後患癌率上升的話，那這樣就會導致錯誤的結論。在一些證明電源線的EMF(電磁場)和癌症的關聯的研究中^[3]，這個情況真的發生了。^[4]

其他的例子像是古人所謂的「賢士國之寶，美女國之咎：夏亡以妹喜，殷亡以妲己，周亡以褒姒。」《吳越春秋》^{[note 1]}這件事，但盡管可以觀察到說「美女出現，之後朝代覆亡」，這不代表美女的出現，就是之後朝代覆亡的原因，要同時考慮「有其他的因素，如君王本身的人格特質，導致了美女的出現與之後朝代的覆亡」或者「美女的出現與之後朝代的覆亡之間的關係純屬偶然」等等各種可能性；還有一個例子就是看到死刑判決數越多的時候，謀殺犯罪率也越高，就斷定死刑導致更多謀殺，但就算如此，有可能死刑和謀殺之間的關係，純屬偶然，或更可能地，謀殺增加導致更多死刑判決。

在構思甚佳的研究中，錯誤的因果關係的影響可透過隨機分別分配一些人到「受試組」及「控制組」中來排除，藉由對受試組的人施加影響（進行治療），不對控制組的人施加影響的方式，來得知真實的因果關係。在以上化學品X的例子中，研究人員應當要將受測者隨機分成兩組，讓其中一組人暴露在化學品X中，並讓另一組人不暴露在化學品X中，以將其他變因的可能性給降到最低。如果在這實驗中，第一組人有較高的患癌率，由於研究員控制了實驗對像有否暴露在化學品X中，他便知道沒有第三個因素影響，進而可以斷定化學品X會導致癌症；或在以上死刑的例子中，將國家隨機分成兩組，一組對謀殺有死刑，另一組對謀殺沒有死刑，以查看死刑對謀殺的影響；可是，這樣做實驗是十分昂貴、不可行、不合法或完全不可能的。例如說機構審查委員會大多不會批准進行為了測試某物質的毒性而把人類暴露在危險物質當中的實驗，這類實驗明顯的道德暗示會限制了研究員憑驗經驗地判斷實驗因果關係的能力。

零假設的證明

深挖數據

數據的竄改

其他謬誤

其他的謬誤包括「拿蘋果跟橘子比」、誤用平均數（像是例如說「男人和女人平均有一顆睪丸」^{[note 2]}）、「均值迴歸」（regression toward the mean）以及「垃圾進，垃圾出」等等；此外，一些統計數據就純粹與議題無關。

安斯庫姆四重奏是一組虛構的數據，被用以顯示簡單描述統計（以及未經過數值分析的統計圖的數值）的不足。

參見

註解

^ 白話翻譯：「賢能的士人，是國家的珍寶，而美女則是國家的禍害。像例如說夏朝的滅亡，就是因為一個叫妹喜的美女造成的；商朝的滅亡，就是因為一個叫妲己的美女造成的；周朝的滅亡，就是因為一個叫褒姒的美女造成的。」
^ 這是顯而易見沒有考慮母體分布特性所做出的平均值，經常被用以反諷無意義的統計數據，例如以平均收入、財富宣稱人民生活富裕，卻忽略貧富差距

參考資料

^ Silver, Nate. ‘Robopolls' Significantly More Favorable to Republicans Than Traditional Surveys. The New York Times. 28 October 2010.
^ Lisa M. Schwartz, Steven Woloshin. On the prevention and treatment of exaggeration. Journal of General Internal Medicine. 2003-02-01, 18 (2): 153–154 [2018-04-02]. ISSN 0884-8734. doi:10.1046/j.1525-1497.2003.21216.x （英语）.
^ Gaia Vince. Large study links power lines to childhood cancer. New Scientist. 2005-06-03 [2017-06-16] （美国英语）.
^ John W. Farley. Power Lines and Cancer: Nothing to Fear. www.quackwatch.org. [2017-06-16].

[5] 白話翻譯：「賢能的士人，是國家的珍寶，而美女則是國家的禍害。像例如說夏朝的滅亡，就是因為一個叫妹喜的美女造成的；商朝的滅亡，就是因為一個叫妲己的美女造成的；周朝的滅亡，就是因為一個叫褒姒的美女造成的。」

[6] 這是顯而易見沒有考慮母體分布特性所做出的平均值，經常被用以反諷無意義的統計數據，例如以平均收入、財富宣稱人民生活富裕，卻忽略貧富差距

[1] Silver, Nate. ‘Robopolls' Significantly More Favorable to Republicans Than Traditional Surveys. The New York Times. 28 October 2010.

[2] Lisa M. Schwartz, Steven Woloshin. On the prevention and treatment of exaggeration. Journal of General Internal Medicine. 2003-02-01, 18 (2): 153–154 [2018-04-02]. ISSN 0884-8734. doi:10.1046/j.1525-1497.2003.21216.x （英语）.

[3] Gaia Vince. Large study links power lines to childhood cancer. New Scientist. 2005-06-03 [2017-06-16] （美国英语）.

[4] John W. Farley. Power Lines and Cancer: Nothing to Fear. www.quackwatch.org. [2017-06-16].

[1]

[2]

[3]

[4]

[note 1]

[note 2]