频率 (统计学):修订间差异
无编辑摘要 |
修正笔误 |
||
(未显示4个用户的31个中间版本) | |||
第1行: | 第1行: | ||
{{about|统计學中的頻率|物理學裡的意義|频率 (物理学)}} |
|||
{{Translating|[[:en:Frequency (statistics)]]|tpercent=10|time=2024-06-26T04:57:32+00:00}}[[统计学]]裡,一[[事件 (概率论)|事件]]<math>i</math>的'''频率''',可以表示為<math>n_i</math>,是在[[實驗]]觀測到事件<math>i</math>的次數,常表示為<math>n_i</math>,也稱為'''絕對頻率''','''頻次'''或是'''次數'''<ref name="Kenney">{{cite book | last1 = Kenney | first1 = J. F. | last2 = Keeping | first2 = E. S. | title = Mathematics of Statistics, Part 1 | edition = 3rd | url = https://books.google.com/books?id=UdlLAAAAMAAJ | location = Princeton, NJ | publisher = Van Nostrand Reinhold | year = 1962}}</ref>{{rp|12–19}}。常會將各事件的頻率用圖表或是表格方式表示。 |
|||
{{expand language|en}} |
|||
[[统计学]]裡,一[[事件 (概率论)|事件]]<math>i</math>的'''频率''',可以表示為<math>f_i</math>,是在[[實驗]]中觀測到事件<math>i</math>的次數与总实验次数的比值<ref name=概统>茆诗松,程依明,濮晓龙.-{概率论与数理统计教程}- [M]. 3版.北京:高等教育出版社, 2019 (2022): 13-14. {{ISBN|978-7-04-051148-2|plainlink=yes}}.</ref>。例如在擲骰子100次的隨機實驗中,有16次擲出6點,則在該實驗中,「擲出6點」事件的頻率為0.16。 |
|||
事件<math>i</math>的'''频数'''(或次數),即為實驗中觀測到事件<math>i</math>的次數<ref name=概统/><ref name=辞海>[https://www.cihai.com.cn/detail?q=%E9%A2%91%E6%95%B0&docId=8491328&docLibId=72 -{频数}-] [DB/OL] [2024] // [[陈至立]].-{[[辞海]]}-. 7版网络版.上海:[[上海辞书出版社]], 2020.</ref>。 |
|||
實務上,常會將各事件的頻率用圖表或是表格方式表示。 |
|||
==種類== |
==種類== |
||
'''累計頻率'''(cumulative frequency)是事件經排序後,在特定點以下之事件的 |
'''累計頻率'''(cumulative frequency)是事件經排序後,在特定點以下之事件的頻率總和。<ref name="Kenney">{{cite book | last1 = Kenney | first1 = J. F. | last2 = Keeping | first2 = E. S. | title = Mathematics of Statistics, Part 1 | edition = 3rd | url = https://books.google.com/books?id=UdlLAAAAMAAJ | location = Princeton, NJ | publisher = Van Nostrand Reinhold | year = 1962|pages=17-19}}</ref>。 |
||
可以將所有事件的頻率<math>f_i</math>繪出,即為頻率分布(frequency distribution)。 |
|||
==頻率分佈== |
|||
{{multiple image |
|||
| direction = vertical |
|||
| width = 240 |
|||
| footer = 各種描繪頻率分佈的方法 |
|||
| image1 = Travel time histogram total n Stata.png |
|||
| alt1 = 直方图 |
|||
| caption1 = 美國2000年通勤所需時間的[[直方图]] |
|||
| image2 = Incarceration Rates Worldwide ZP.svg |
|||
| alt2 = 条形图 |
|||
| caption2 = [[条形图]],其中以國家為[[分类变量]] |
|||
| image3 = Existential clauses2.jpg |
|||
| alt3 = 3D条形图 |
|||
| caption3 = 水平3D條形圖 |
|||
| image4 = World_population_percentage_pie_chart.png |
|||
| alt4 = 圓餅圖 |
|||
| caption4 = 世界各國人口分佈的圓餅圖 |
|||
}} |
|||
'''頻率分佈'''(frequency distribution)可以呈現一個分為各互斥分組資料的情形,以及各組的數量。這是呈現未組織資料(例如選舉結果、某區域的的人口收入、畢業生助學貸款金額)的方式。呈現頻率分佈的圖表有[[直方图]]、[[条形图]]、[[折線圖]]及[[圓餅圖]]。頻率分佈可以用在量化和質化的資料。 |
|||
===建構頻率分佈=== |
|||
# 決定分組組數。若統計的是量化的資料,需要決定分組的組數。組數太多或是太少會無法呈現資料的特性,也有可能很難依該組數來進行分組和分析。理想的分組組數可以參考:<math>\text{number of classes} = C = 1 + 3.3 \log n</math>(log是以10為基底),或是依直方圖的「方根公式」<math> C = \sqrt {n}</math>,其中''n''是資料的總數(若是像人口資料的統計,用後者會分太多組)。不過這些公式只是作為參,還是需要依實際情形作調整。 |
|||
# 用資料最大值和最小值計算資料全距{{nowrap begin}}(全距=最大值 – 最小值){{nowrap end}}。全距會用來決定每一組的寬度。 |
|||
# 決定每一組的寬度,以''h''來表示,公式為<math>h = \frac{\text{range}}{\text{number of classes}}</math>(假設每一組的寬度都相同)。 |
|||
一般來說每一組的寬度會相同。所有的組總和需要從數據中的最小值到最大值都包括在內。在頻率分佈上一般會傾向使用相同的組寬,不過有些時候使用不同的組寬(例如使用對數區問),才能完整的看到數據的資訊,避免有許多區間沒有資料,或是只有極少量資料的情形<ref>{{cite journal |last1=Manikandan |first1=S |date=1 January 2011 |title=Frequency distribution |journal=Journal of Pharmacology & Pharmacotherapeutics |volume=2 |issue=1 |pages=54–55 |doi=10.4103/0976-500X.77120 |issn=0976-500X |pmc=3117575 |pmid=21701652 |doi-access=free }}</ref>。 |
|||
# 決定第一組的下限。一般會小於或等於最小值。 |
|||
# 每觀測一個資料,就在其對應的分組加上一個記號,直到所有的資料都记錄完為止。 |
|||
# 依需求計算頻率、相對頻率、累計頻率等資訊。 |
|||
以下是一些常用來呈現頻率分佈的圖表<ref>Carlson, K. and Winquist, J. (2014) ''An Introduction to Statistics''. SAGE Publications, Inc. Chapter 1: Introduction to Statistics and Frequency Distributions</ref>: |
|||
===直方圖=== |
|||
{{main|直方圖}} |
|||
直方圖是用相鄰的長方形呈現頻率分佈情形的圖表,每一個長方形對應某一區間內的事件,其長方形的高度會對應此區間內的頻率密度(頻率除以區間寬度),因此長方形面積即對應其頻率。直方圖的總面積即為資料的筆數。也可以用直方圖顯示[[标准化 (统计学)|标准化]]後的相對頻率,可以呈現各分類下的比例,總面積對應1。一般來說會將分類劃分為數個連續不重疊的區間,各區間多半是等寬度的<ref>Howitt, D. and Cramer, D. (2008) ''Statistics in Psychology''. Prentice Hall</ref>。繪圖時會將直方圖的各長方形繪成是相鄰的,以表示其原始變數的連續性<ref>Charles Stangor (2011) "Research Methods For The Behavioral Sciences". Wadsworth, Cengage Learning. {{ISBN|9780840031976}}.</ref>。 |
|||
===条形图=== |
|||
[[条形图]](bar chart、bar graph)是用[[長方形]]的長度表示變量的[[統計圖表]]。長方形長條可以水平放置,也可以垂直放置。 |
|||
===頻率分佈表=== |
|||
頻率分佈表是用表格表示[[抽樣]]中一個或是多個變數的情形。表格的每一橫行是某個特殊分組或是區間出現的頻率或是次數,這個表可以總結抽樣中的統計分佈。 |
|||
以下是一個單[[變數]]的頻率表,會列出問卷每一種回應的頻率。 |
|||
{| class="wikitable sortable" |
|||
![[排名]] |
|||
!同意程度 |
|||
!頻数 |
|||
!频率 |
|||
|- |
|||
|1 |
|||
|強烈同意 |
|||
|22 |
|||
|0.216 |
|||
|- |
|||
|2 |
|||
|有些同意 |
|||
|30 |
|||
|0.294 |
|||
|- |
|||
|3 |
|||
|不確定 |
|||
|20 |
|||
|0.196 |
|||
|- |
|||
|4 |
|||
|有些不同意 |
|||
|15 |
|||
|0.147 |
|||
|- |
|||
|5 |
|||
|強烈不同意 |
|||
|15 |
|||
|0.147 |
|||
|- |
|||
|} |
|||
以下是班上學生的身高的頻率表 |
|||
{| class="wikitable sortable" |
|||
!身高範圍 |
|||
!學生人數 |
|||
!累計數量 |
|||
|- |
|||
|小於 5.0 英尺 |
|||
|25 |
|||
|25 |
|||
|- |
|||
|5.0-5.5 英尺 |
|||
|35 |
|||
|60 |
|||
|- |
|||
|5.5-6.0 英尺 |
|||
|20 |
|||
|80 |
|||
|- |
|||
|6.0-6.5 英尺 |
|||
|20 |
|||
|100 |
|||
|- |
|||
|} |
|||
===聯合頻率分佈=== |
|||
{{擴充章節}} |
|||
==詮釋== |
|||
在{{le|頻率論|Frequentist probability}}(Frequentist probability)詮釋的[[概率]]下,會假設隨著樣本數量的一直增加,特定事件出現的比率最終會接近一個定值,稱為'''有限相對頻率(limiting relative frequency)<ref name=Mises>von Mises, Richard (1939) ''Probability, Statistics, and Truth'' (in German) (English translation, 1981: Dover Publications; 2 Revised edition. {{ISBN|0486242145}}) (p.14)</ref><ref name="Gilles">''The Frequency theory'' Chapter 5; discussed in Donald Gilles, ''Philosophical theories of probability'' (2000), Psychology Press. {{ISBN|9780415182751}} , p. 88.</ref>。 |
|||
此一詮釋和[[貝氏機率]]的結論相反。頻率學派(frequentist)一詞最早是由{{le|Maurice Kendall|Maurice Kendall}}在1949年開始使用,和[[貝氏機率|Bayesian]]相對(Maurice稱為是非頻率學派,non-frequentists)<ref>[http://www.leidenuniv.nl/fsw/verduin/stathist/1stword.htm Earliest Known Uses of Some of the Words of Probability & Statistics]</ref><ref>{{cite journal |
|||
|last=Kendall |
|||
|first=Maurice George |
|||
|title=On the Reconciliation of Theories of Probability |
|||
|journal=Biometrika |
|||
|year=1949 |
|||
|volume=36 |
|||
|pages=101–116 |
|||
|issue=1/2 |
|||
|publisher=Biometrika Trust |
|||
|jstor=2332534 |doi=10.1093/biomet/36.1-2.101 |
|||
}}</ref>。他觀察到 |
|||
:3....我們可以大致區分兩種主要的態度。一種將概率視為是「理性信念的程度」,或是其他類似的概念...另一種將概率定義成某事件發生的頻率,或是在整體中的相對比例(p. 101) |
|||
:... |
|||
:12. 可能會有人認為,頻率學派和非頻率學派(若我這樣稱呼那些人的話)的差異主要是因為個自聲稱涵蓋領域的不同(p. 104) |
|||
:... |
|||
:我斷言不是這樣的 ... 我認為,頻率學派和非頻率學派本質上的差異是,前者為了避免任何觀點問題,用客觀的特性(可能是真的,也可能是假想的)來定義概率,而後者就不然 |
|||
: |
|||
== 應用 == |
|||
處理和操作表格化的事件頻率資訊,比處理原始資料會簡單多了。有簡單的演算法可以根據表格計算中位數、平均、標準差等。 |
|||
[[假說檢定]]可以用來評估二個頻率分佈的差異和類似性。評估包括量測[[集中趋势]],像是[[平均数]]及[[中位數]],也會評估[[离散程度]],像是[[標準差]]和[[方差]]。 |
|||
若頻率分佈的平均和中位數有顯著差異,會稱為頻率分佈具有[[偏度]],另一種說法則是非對稱。頻率分佈的[[峰度]]是量測在頻率分佈兩側的量在總量中的比例。若其分佈比常態分佈要分散,則稱為高狹峰(leptokurtic),反之,則為低狹峰(platykurtic)。 |
|||
某事件的{{le|實驗頻率|Empirical probability}}(也稱為相對頻率),是其絕對頻率除以所有事件總數後的正規化結果: |
|||
[[字母频率]]分佈可以用在[[频率分析]]上,用以破解[[密碼]],也可以用來比較不同語言之間(例如希臘文、拉丁文)的字母相對頻率。 |
|||
: <math> f_i = \frac{n_i}{N} = \frac{n_i}{\sum_j n_j}. </math> |
|||
==相關條目== |
|||
可以將所有事件的實驗頻率<math>f_i</math>繪出,即為頻率分布(frequency distribution)。 |
|||
{{Portal|数学}} |
|||
* {{le|計數資料|Count data}} |
|||
* [[列联表]] |
|||
* [[累积分布函数]] |
|||
* {{le|累積頻率分析|Cumulative frequency analysis}} |
|||
* [[经验分布函数]] |
|||
* [[大數法則]] |
|||
* [[多重集]] |
|||
* [[機率密度函數]] |
|||
* {{le|頻率詮釋|Probability interpretations}} |
|||
* {{le|統計規則性|Statistical regularity}} |
|||
<!--* [[Word frequency]]--> |
|||
==參考資料== |
==參考資料== |
||
{{reflist}} |
{{reflist}} |
||
{{統計學}} |
{{統計學}} |
||
{{統計學小作品}} |
|||
[[分類:統計學]] |
[[分類:統計學]] |
2024年7月4日 (四) 03:48的最新版本
此條目可参照英語維基百科相應條目来扩充。 |
统计学裡,一事件的频率,可以表示為,是在實驗中觀測到事件的次數与总实验次数的比值[1]。例如在擲骰子100次的隨機實驗中,有16次擲出6點,則在該實驗中,「擲出6點」事件的頻率為0.16。
事件的频数(或次數),即為實驗中觀測到事件的次數[1][2]。
實務上,常會將各事件的頻率用圖表或是表格方式表示。
種類
[编辑]累計頻率(cumulative frequency)是事件經排序後,在特定點以下之事件的頻率總和。[3]。
可以將所有事件的頻率繪出,即為頻率分布(frequency distribution)。
頻率分佈
[编辑]頻率分佈(frequency distribution)可以呈現一個分為各互斥分組資料的情形,以及各組的數量。這是呈現未組織資料(例如選舉結果、某區域的的人口收入、畢業生助學貸款金額)的方式。呈現頻率分佈的圖表有直方图、条形图、折線圖及圓餅圖。頻率分佈可以用在量化和質化的資料。
建構頻率分佈
[编辑]- 決定分組組數。若統計的是量化的資料,需要決定分組的組數。組數太多或是太少會無法呈現資料的特性,也有可能很難依該組數來進行分組和分析。理想的分組組數可以參考:(log是以10為基底),或是依直方圖的「方根公式」,其中n是資料的總數(若是像人口資料的統計,用後者會分太多組)。不過這些公式只是作為參,還是需要依實際情形作調整。
- 用資料最大值和最小值計算資料全距(全距=最大值 – 最小值)。全距會用來決定每一組的寬度。
- 決定每一組的寬度,以h來表示,公式為(假設每一組的寬度都相同)。
一般來說每一組的寬度會相同。所有的組總和需要從數據中的最小值到最大值都包括在內。在頻率分佈上一般會傾向使用相同的組寬,不過有些時候使用不同的組寬(例如使用對數區問),才能完整的看到數據的資訊,避免有許多區間沒有資料,或是只有極少量資料的情形[4]。
- 決定第一組的下限。一般會小於或等於最小值。
- 每觀測一個資料,就在其對應的分組加上一個記號,直到所有的資料都记錄完為止。
- 依需求計算頻率、相對頻率、累計頻率等資訊。
以下是一些常用來呈現頻率分佈的圖表[5]:
直方圖
[编辑]直方圖是用相鄰的長方形呈現頻率分佈情形的圖表,每一個長方形對應某一區間內的事件,其長方形的高度會對應此區間內的頻率密度(頻率除以區間寬度),因此長方形面積即對應其頻率。直方圖的總面積即為資料的筆數。也可以用直方圖顯示标准化後的相對頻率,可以呈現各分類下的比例,總面積對應1。一般來說會將分類劃分為數個連續不重疊的區間,各區間多半是等寬度的[6]。繪圖時會將直方圖的各長方形繪成是相鄰的,以表示其原始變數的連續性[7]。
条形图
[编辑]条形图(bar chart、bar graph)是用長方形的長度表示變量的統計圖表。長方形長條可以水平放置,也可以垂直放置。
頻率分佈表
[编辑]頻率分佈表是用表格表示抽樣中一個或是多個變數的情形。表格的每一橫行是某個特殊分組或是區間出現的頻率或是次數,這個表可以總結抽樣中的統計分佈。
以下是一個單變數的頻率表,會列出問卷每一種回應的頻率。
排名 | 同意程度 | 頻数 | 频率 |
---|---|---|---|
1 | 強烈同意 | 22 | 0.216 |
2 | 有些同意 | 30 | 0.294 |
3 | 不確定 | 20 | 0.196 |
4 | 有些不同意 | 15 | 0.147 |
5 | 強烈不同意 | 15 | 0.147 |
以下是班上學生的身高的頻率表
身高範圍 | 學生人數 | 累計數量 |
---|---|---|
小於 5.0 英尺 | 25 | 25 |
5.0-5.5 英尺 | 35 | 60 |
5.5-6.0 英尺 | 20 | 80 |
6.0-6.5 英尺 | 20 | 100 |
聯合頻率分佈
[编辑]此章节需要扩充。 |
詮釋
[编辑]在頻率論(Frequentist probability)詮釋的概率下,會假設隨著樣本數量的一直增加,特定事件出現的比率最終會接近一個定值,稱為有限相對頻率(limiting relative frequency)[8][9]。
此一詮釋和貝氏機率的結論相反。頻率學派(frequentist)一詞最早是由Maurice Kendall在1949年開始使用,和Bayesian相對(Maurice稱為是非頻率學派,non-frequentists)[10][11]。他觀察到
- 3....我們可以大致區分兩種主要的態度。一種將概率視為是「理性信念的程度」,或是其他類似的概念...另一種將概率定義成某事件發生的頻率,或是在整體中的相對比例(p. 101)
- ...
- 12. 可能會有人認為,頻率學派和非頻率學派(若我這樣稱呼那些人的話)的差異主要是因為個自聲稱涵蓋領域的不同(p. 104)
- ...
- 我斷言不是這樣的 ... 我認為,頻率學派和非頻率學派本質上的差異是,前者為了避免任何觀點問題,用客觀的特性(可能是真的,也可能是假想的)來定義概率,而後者就不然
應用
[编辑]處理和操作表格化的事件頻率資訊,比處理原始資料會簡單多了。有簡單的演算法可以根據表格計算中位數、平均、標準差等。
假說檢定可以用來評估二個頻率分佈的差異和類似性。評估包括量測集中趋势,像是平均数及中位數,也會評估离散程度,像是標準差和方差。
若頻率分佈的平均和中位數有顯著差異,會稱為頻率分佈具有偏度,另一種說法則是非對稱。頻率分佈的峰度是量測在頻率分佈兩側的量在總量中的比例。若其分佈比常態分佈要分散,則稱為高狹峰(leptokurtic),反之,則為低狹峰(platykurtic)。
字母频率分佈可以用在频率分析上,用以破解密碼,也可以用來比較不同語言之間(例如希臘文、拉丁文)的字母相對頻率。
相關條目
[编辑]參考資料
[编辑]- ^ 1.0 1.1 茆诗松,程依明,濮晓龙.概率论与数理统计教程 [M]. 3版.北京:高等教育出版社, 2019 (2022): 13-14. 978-7-04-051148-2.
- ^ 频数 [DB/OL] [2024] // 陈至立.辞海. 7版网络版.上海:上海辞书出版社, 2020.
- ^ Kenney, J. F.; Keeping, E. S. Mathematics of Statistics, Part 1 3rd. Princeton, NJ: Van Nostrand Reinhold. 1962: 17–19.
- ^ Manikandan, S. Frequency distribution. Journal of Pharmacology & Pharmacotherapeutics. 1 January 2011, 2 (1): 54–55. ISSN 0976-500X. PMC 3117575 . PMID 21701652. doi:10.4103/0976-500X.77120 .
- ^ Carlson, K. and Winquist, J. (2014) An Introduction to Statistics. SAGE Publications, Inc. Chapter 1: Introduction to Statistics and Frequency Distributions
- ^ Howitt, D. and Cramer, D. (2008) Statistics in Psychology. Prentice Hall
- ^ Charles Stangor (2011) "Research Methods For The Behavioral Sciences". Wadsworth, Cengage Learning. ISBN 9780840031976.
- ^ von Mises, Richard (1939) Probability, Statistics, and Truth (in German) (English translation, 1981: Dover Publications; 2 Revised edition. ISBN 0486242145) (p.14)
- ^ The Frequency theory Chapter 5; discussed in Donald Gilles, Philosophical theories of probability (2000), Psychology Press. ISBN 9780415182751 , p. 88.
- ^ Earliest Known Uses of Some of the Words of Probability & Statistics
- ^ Kendall, Maurice George. On the Reconciliation of Theories of Probability. Biometrika (Biometrika Trust). 1949, 36 (1/2): 101–116. JSTOR 2332534. doi:10.1093/biomet/36.1-2.101.