R平方是一个统计测量,表示在回归模型中,由一个或多个自变量解释的因变量的方差比例。它的范围从0到1,表示模型的拟合优度。
理解R平方
定义与解释
- 值范围: R平方值的范围从0到1。
- 解释:
- R平方为0意味着模型没有解释响应数据围绕均值的任何变异性。
- R平方为1表示模型解释了响应数据围绕均值的所有变异性。
- 值越接近1意味着拟合越好,而值越接近0则表示拟合较差。
R平方的计算
R平方可以使用以下公式计算:
R² = 1 – (SSres / SStot)
- SSres: 残差的平方和(观测值与预测值之间的差异)。
- SStot: 总平方和(观测数据的方差)。
R平方的例子
考虑一个简单线性回归分析,我们想要分析学习时长与考试得分之间的关系。
- 假设我们有以下数据:
- 学习时长:[1, 2, 3, 4, 5]
- 获得的分数:[50, 55, 65, 70, 80]
- 假设线性回归模型给我们提供了预测分数。
- 残差的平方和(SSres)可以如下计算:
– 预测分数:[52, 57, 62, 67, 72] – 残差:[50-52, 55-57, 65-62, 70-67, 80-72] = [-2, -2, 3, 3, 8] – SSres = (-2)² + (-2)² + (3)² + (3)² + (8)² = 4 + 4 + 9 + 9 + 64 = 90 - 总平方和(SStot)的计算如下:
– 平均分 = (50 + 55 + 65 + 70 + 80) / 5 = 62
– SStot = (50-62)² + (55-62)² + (65-62)² + (70-62)² + (80-62)² = 144 + 49 + 9 + 64 + 324 = 590 - 将值代入R平方公式:
R² = 1 – (90 / 590) ≈ 0.846
这意味着大约84.6%的考试分数的变异性可以通过学习时长来解释,表明这两个变量之间有强关系。