怎么评估统计显著性

检验假设需要以统计分析为依据。统计显著性是用p值来计算的，这个值告诉我们在特定命题，或者说零假设为真的情况下，得到预计结果的概率。^{[1]
X
研究来源}如果p值小于通常为0.05的显著性水平值，那么实验者可以认为零假设是错误的，并接受备择假设。你可以使用简单的t检验来计算p值，并确定数据集中两个不同组之间的差异显著性。

部分 1 部分 1 的 3:

设计实验

{"smallUrl":"https:\/\/www.zenmeban.com\/images_en\/thumb\/4\/45\/Assess-Statistical-Significance-Step-1-Version-3.jpg\/v4-460px-Assess-Statistical-Significance-Step-1-Version-3.jpg","bigUrl":"https:\/\/www.zenmeban.com\/images\/thumb\/4\/45\/Assess-Statistical-Significance-Step-1-Version-3.jpg\/v4-728px-Assess-Statistical-Significance-Step-1-Version-3.jpg","smallWidth":460,"smallHeight":345,"bigWidth":728,"bigHeight":546,"licensing":"<div class=\"mw-parser-output\"><\/div>"} 1 定义假设。评估统计显著性的第一步是确定你想回答的问题，并提出你的假设。这个假设涉及到你的实验数据和人群中可能出现的差异。对于任何实验而言，必须既有零假设，又有备择假设。^{[2]
X
研究来源}一般来说，你会比较两个组，看它们是否相同。
- 零假设H₀通常表示两个数据集之间没有差异。例如：课前预习教材的学生期末成绩不会更好。
- 而备择假设H_a与零假设相反，它是你试图用实验数据支持的命题。例如：课前预习教材的学生期末成绩会更好。
{"smallUrl":"https:\/\/www.zenmeban.com\/images_en\/thumb\/1\/17\/Assess-Statistical-Significance-Step-2-Version-3.jpg\/v4-460px-Assess-Statistical-Significance-Step-2-Version-3.jpg","bigUrl":"https:\/\/www.zenmeban.com\/images\/thumb\/1\/17\/Assess-Statistical-Significance-Step-2-Version-3.jpg\/v4-728px-Assess-Statistical-Significance-Step-2-Version-3.jpg","smallWidth":460,"smallHeight":345,"bigWidth":728,"bigHeight":546,"licensing":"<div class=\"mw-parser-output\"><\/div>"} 2 设置显著性水平，以确定数据被视为显著时所需的异常程度。显著性水平也被称为α，它是你为了确定显著性而设置的阈值。如果你的p值小于等于设定的显著性水平，数据就被认为具有统计显著性。^{[3]
X
研究来源}
- 一般来说，显著性水平α通常被设置成0.05，换而言之，在你的数据中偶尔观察到差异的概率仅为5%。
- 置信水平越高时，p值越小，结果也越显著。
- 如果你想让自己的数据具有较高的置信水平，可以把p值设到0.01以下。在制造业中，检查产品缺陷通常会用到较小的p值。因为每个零部件都必须达到很高的置信水平，使之能够按照预期发挥作用。
- 对于假设驱动型实验，0.05的显著性水平是可以接受的。
{"smallUrl":"https:\/\/www.zenmeban.com\/images_en\/thumb\/7\/73\/Assess-Statistical-Significance-Step-3-Version-3.jpg\/v4-460px-Assess-Statistical-Significance-Step-3-Version-3.jpg","bigUrl":"https:\/\/www.zenmeban.com\/images\/thumb\/7\/73\/Assess-Statistical-Significance-Step-3-Version-3.jpg\/v4-728px-Assess-Statistical-Significance-Step-3-Version-3.jpg","smallWidth":460,"smallHeight":345,"bigWidth":728,"bigHeight":546,"licensing":"<div class=\"mw-parser-output\"><\/div>"} 3 确定使用单侧检验还是双侧检验。t检验的适用条件之一是你的数据呈正态分布。正态分布的数据会形成钟形曲线，大部分样本位于中间。^{[4]
X
研究来源}t检验是一种数学检验，可以确定你的数据在曲线“尾部”是否落在正态分部以外，是在曲线以上还是以下。
- 单侧检验比双侧检验更强大，因为它在一个方向检验关系的潜力，比如控制组以上，而双侧检验在两个方向检关系的潜力，比如控制组以上或以下。^{[5]
  X
  研究来源}
- 如果你不确定自己的数据是在控制组以上还是以下，那就使用双侧检验。这样你就能检验任一方向的显著性。
- 如果你知道数据会朝哪个方向发展，请使用单侧检验。在前文给出的例子中，你预计学生的成绩会提高，所以你可以用单侧检验。
{"smallUrl":"https:\/\/www.zenmeban.com\/images_en\/thumb\/2\/28\/Assess-Statistical-Significance-Step-4-Version-3.jpg\/v4-460px-Assess-Statistical-Significance-Step-4-Version-3.jpg","bigUrl":"https:\/\/www.zenmeban.com\/images\/thumb\/2\/28\/Assess-Statistical-Significance-Step-4-Version-3.jpg\/v4-728px-Assess-Statistical-Significance-Step-4-Version-3.jpg","smallWidth":460,"smallHeight":345,"bigWidth":728,"bigHeight":546,"licensing":"<div class=\"mw-parser-output\"><\/div>"} 4 使用功效分析来确定样本量。检验功效指的是在特定的样本量下，观察到预期结果的概率。功效或β的常见阈值是80%。缺乏一些初步数据时，功效分析可能有点棘手，因为你需要一些关于每组之间平均值及其标准方差的信息。你可以使用网上的功效分析计算器，来确定自己数据的最佳样本量。^{[6]
X
研究来源}
- 开展大型、全面的研究时，研究人员通常会做一个小型的先导型研究，以获得功效分析所需的信息，并确定其样本量。
- 如果没有办法做复杂的先导型研究，你可以阅读文献和其他人做过的研究，据此来估计可能的平均值。在确定样本量时，这是一个很好的着手点。

部分 2 部分 2 的 3:

计算标准方差

{"smallUrl":"https:\/\/www.zenmeban.com\/images_en\/thumb\/c\/ca\/Assess-Statistical-Significance-Step-5-Version-3.jpg\/v4-460px-Assess-Statistical-Significance-Step-5-Version-3.jpg","bigUrl":"https:\/\/www.zenmeban.com\/images\/thumb\/c\/ca\/Assess-Statistical-Significance-Step-5-Version-3.jpg\/v4-728px-Assess-Statistical-Significance-Step-5-Version-3.jpg","smallWidth":460,"smallHeight":345,"bigWidth":728,"bigHeight":546,"licensing":"<div class=\"mw-parser-output\"><\/div>"} 1 确定标准方差公式。标准方差是衡量数据分布情况的指标。它向你提供了样本中各数据点的相似性信息，有助于确定数据是否显著。乍一看，你可能觉得公式有点复杂，但是以下步骤会引导你完成计算过程。其公式是s = √∑((x_i – µ)²/(N – 1))。
- s是标准方差。
- ∑指对收集的所有样本值求和。
- x_i表示你数据的各单独值。
- µ是每组数据的平均值。
- N是样本总数。
{"smallUrl":"https:\/\/www.zenmeban.com\/images_en\/thumb\/3\/31\/Assess-Statistical-Significance-Step-6-Version-3.jpg\/v4-460px-Assess-Statistical-Significance-Step-6-Version-3.jpg","bigUrl":"https:\/\/www.zenmeban.com\/images\/thumb\/3\/31\/Assess-Statistical-Significance-Step-6-Version-3.jpg\/v4-728px-Assess-Statistical-Significance-Step-6-Version-3.jpg","smallWidth":460,"smallHeight":345,"bigWidth":728,"bigHeight":546,"licensing":"<div class=\"mw-parser-output\"><\/div>"} 2 计算每组样本的平均值。要想计算标准方差，你必须先计算每组样本的平均值。平均值用希腊字母µ表示。它的计算方法很简单，只需将每个值相加，再除以样本总数即可。^{[7]
X
研究来源}
- 例如，为了计算课前预习教材的学生组的平均成绩，让我们来看一些数据。为了简便起见，我们会使用包含5个值的数据集：90、91、85、83和94。
- 将所有样本相加求和：90 + 91 + 85 + 83 + 94 = 443。
- 用和除以样本数N = 5：443/5 = 88.6。
- 这组学生的平均成绩是88.6。
{"smallUrl":"https:\/\/www.zenmeban.com\/images_en\/thumb\/d\/d0\/Assess-Statistical-Significance-Step-7-Version-3.jpg\/v4-460px-Assess-Statistical-Significance-Step-7-Version-3.jpg","bigUrl":"https:\/\/www.zenmeban.com\/images\/thumb\/d\/d0\/Assess-Statistical-Significance-Step-7-Version-3.jpg\/v4-728px-Assess-Statistical-Significance-Step-7-Version-3.jpg","smallWidth":460,"smallHeight":345,"bigWidth":728,"bigHeight":546,"licensing":"<div class=\"mw-parser-output\"><\/div>"} 3 用每个样本减去平均值。计算的下一步涉及到公式的(x_i – µ)部分。你需要用每个样本减去刚刚计算得出的平均值。在我们的例子中，你必须做五次减法。
- (90 – 88.6)、(91- 88.6)、(85 – 88.6)、(83 – 88.6)和(94 – 88.6)。
- 计算所得的结果是1.4、2.4、-3.6、-5.6和5.4。
{"smallUrl":"https:\/\/www.zenmeban.com\/images_en\/thumb\/b\/b5\/Assess-Statistical-Significance-Step-8-Version-3.jpg\/v4-460px-Assess-Statistical-Significance-Step-8-Version-3.jpg","bigUrl":"https:\/\/www.zenmeban.com\/images\/thumb\/b\/b5\/Assess-Statistical-Significance-Step-8-Version-3.jpg\/v4-728px-Assess-Statistical-Significance-Step-8-Version-3.jpg","smallWidth":460,"smallHeight":345,"bigWidth":728,"bigHeight":546,"licensing":"<div class=\"mw-parser-output\"><\/div>"} 4 将这些数字平方后再相加。这时，你需要计算刚刚得出的每个数字的平方。这一步还会处理掉所有负号。如果在此步骤之后或计算结束时有负号，说明你可能忘了算这一步。
- 在我们的例题中，那五个数字的平方是1.96、5.76、12.96、31.36和29.16。
- 将这些平方值相加，得到：1.96 + 5.76 + 12.96 + 31.36 + 29.16 = 81.2。
{"smallUrl":"https:\/\/www.zenmeban.com\/images_en\/thumb\/3\/34\/Assess-Statistical-Significance-Step-9-Version-3.jpg\/v4-460px-Assess-Statistical-Significance-Step-9-Version-3.jpg","bigUrl":"https:\/\/www.zenmeban.com\/images\/thumb\/3\/34\/Assess-Statistical-Significance-Step-9-Version-3.jpg\/v4-728px-Assess-Statistical-Significance-Step-9-Version-3.jpg","smallWidth":460,"smallHeight":345,"bigWidth":728,"bigHeight":546,"licensing":"<div class=\"mw-parser-output\"><\/div>"} 5 除以样本总数减一。公式除以N-1，是因为你没有计算所有人的成绩，要进行修正，你只是在所有学生中取了一个样本，来进行估算。^{[8]
X
研究来源}
- 做减法：N – 1 = 5 – 1 = 4
- 做除法：81.2/4 = 20.3
{"smallUrl":"https:\/\/www.zenmeban.com\/images_en\/thumb\/a\/a6\/Assess-Statistical-Significance-Step-10.jpg\/v4-460px-Assess-Statistical-Significance-Step-10.jpg","bigUrl":"https:\/\/www.zenmeban.com\/images\/thumb\/a\/a6\/Assess-Statistical-Significance-Step-10.jpg\/v4-728px-Assess-Statistical-Significance-Step-10.jpg","smallWidth":460,"smallHeight":345,"bigWidth":728,"bigHeight":546,"licensing":"<div class=\"mw-parser-output\"><\/div>"} 6 取平方根。除以样本数减一后，取最终数字的平方根。这是计算标准方差的最后一步。有一些统计学应用程序可以在你输入原始数据后，帮你计算标准方差。
- 在我们的例题中，课前预习的学生期末成绩的标准方差是：s =√20.3 = 4.51。

部分 3 部分 3 的 3:

确定显著性

{"smallUrl":"https:\/\/www.zenmeban.com\/images_en\/thumb\/d\/d3\/Assess-Statistical-Significance-Step-11.jpg\/v4-460px-Assess-Statistical-Significance-Step-11.jpg","bigUrl":"https:\/\/www.zenmeban.com\/images\/thumb\/d\/d3\/Assess-Statistical-Significance-Step-11.jpg\/v4-728px-Assess-Statistical-Significance-Step-11.jpg","smallWidth":460,"smallHeight":345,"bigWidth":728,"bigHeight":546,"licensing":"<div class=\"mw-parser-output\"><\/div>"} 1 计算2个样本组之间的差额。至此为止，例题只处理了一个样本组。如果想比较两个样本组，你显然需要两组的数据。计算第二组样本的标准方差，并使用该数值来计算2个实验组之间的差额。差额公式为s_d = √((s₁/N₁) + (s₂/N₂))。^{[9]
X
研究来源}
- s_d是两组之间的差额。
- s₁是第1组的标准方差，而N₁是第1组的样本量。
- s₂是第2组的标准方差，而N₂是第2组的样本量。
- 例如，假设第2组数据，即课前没有预习的学生的数据样本量是5，而标准方差是5.81。差额为：
  - s_d = √((s₁)²/N₁) + ((s₂)²/N₂))
  - s_d = √(((4.51)²/5) + ((5.81)²/5)) = √((20.34/5) + (33.76/5)) = √(4.07 + 6.75) = √10.82 = 3.29。
{"smallUrl":"https:\/\/www.zenmeban.com\/images_en\/thumb\/1\/14\/Assess-Statistical-Significance-Step-12.jpg\/v4-460px-Assess-Statistical-Significance-Step-12.jpg","bigUrl":"https:\/\/www.zenmeban.com\/images\/thumb\/1\/14\/Assess-Statistical-Significance-Step-12.jpg\/v4-728px-Assess-Statistical-Significance-Step-12.jpg","smallWidth":460,"smallHeight":345,"bigWidth":728,"bigHeight":546,"licensing":"<div class=\"mw-parser-output\"><\/div>"} 2 计算数据的t分数。t分数可以将数据转化为能够与其他数据进行比较的形式。你可以使用t分数来做t检验，计算两组之间存在显著差异的可能性。t分数的公式是t = (µ₁ – µ₂)/s_d。^{[10]
X
研究来源}
- µ₁是第一组的平均值。
- µ₂是第二组的平均值。
- s_d是样本之间的差额。
- 你应该使用较大的平均值作为µ₁，以免t值变成负数。
- 例如，假设第2组没有预习的学生的样本平均值是80。则t分数为：t = (µ₁ – µ₂)/s_d = (88.6 – 80)/3.29 = 2.61。
3 确定样本的自由度。使用t分数时，自由度的数值是用样本量确定的。将两组的样本数相加，然后减2。在我们的例子中，自由度(d.f.)是8，因为第1组有5个样本，而第2组也有5个样本，(5 + 5) – 2 = 8。^{[11]
X
研究来源}
{"smallUrl":"https:\/\/www.zenmeban.com\/images_en\/thumb\/c\/c6\/Assess-Statistical-Significance-Step-14.jpg\/v4-460px-Assess-Statistical-Significance-Step-14.jpg","bigUrl":"https:\/\/www.zenmeban.com\/images\/thumb\/c\/c6\/Assess-Statistical-Significance-Step-14.jpg\/v4-728px-Assess-Statistical-Significance-Step-14.jpg","smallWidth":460,"smallHeight":345,"bigWidth":728,"bigHeight":546,"licensing":"<div class=\"mw-parser-output\"><\/div>"} 4 使用t表格来评估显著性。你可以在标准的统计学书籍或网上找到t分数^{[12]
X
研究来源}和自由度表格。查找包含数据自由度的行，找到与t分数对应的p值。
- 当自由度为8，t值为2.61时，单侧检验的p值介于0.01和0.025之间。由于我们将显著性水平设置为小于等于0.05，所以我们的数值具有统计显著性。得到这一数据后，我们可以拒绝零假设，接受备择假设：^{[13]
  X
  研究来源}课前预习教材的学生会取得更好的期末成绩。
{"smallUrl":"https:\/\/www.zenmeban.com\/images_en\/thumb\/1\/1b\/Assess-Statistical-Significance-Step-15.jpg\/v4-460px-Assess-Statistical-Significance-Step-15.jpg","bigUrl":"https:\/\/www.zenmeban.com\/images\/thumb\/1\/1b\/Assess-Statistical-Significance-Step-15.jpg\/v4-728px-Assess-Statistical-Significance-Step-15.jpg","smallWidth":460,"smallHeight":345,"bigWidth":728,"bigHeight":546,"licensing":"<div class=\"mw-parser-output\"><\/div>"} 5 考虑后续研究。许多研究人员会使用少量的数据，做一个小规模的先导型研究，以帮助自己了解如何设计一个规模更大的研究。使用更多的数据，做另一项研究，有助于提高你对结论的信心。
- 后续研究可以帮助你确定自己的结论是否包含I型错误或II型错误。前者指在没有差异的情况下观察到差异，或错误的拒绝零假设，而后者指在有差异时未观察到差异，或错误的接受零假设。^{[14]
  X
  研究来源}