使用R自带的数据集anscombe,分别绘制x1和y1,x2和y2,x3和y3,x4和y4的散点图,并建立一元线性回归模型,从散点图和各回归模型中你会得到哪些启示?
时间: 2025-01-28 21:14:56 浏览: 67
在R语言中,你可以使用内置数据集`anscombe`来展示四个看似相似但实际上数据特性有所不同的例子。首先,你可以通过以下步骤加载数据并绘制散点图:
```r
# 加载所需的包
library(ggplot2)
library(lmtest)
# 加载anscombe数据集
data(anscombe)
# 分别提取四组数据
df1 <- anscombe$dataset[which(anscombe$dataset == "I"), c("x1", "y1")]
df2 <- anscombe$dataset[which(anscombe$dataset == "II"), c("x2", "y2")]
df3 <- anscombe$dataset[which(anscombe$dataset == "III"), c("x3", "y3")]
df4 <- anscombe$dataset[which(anscombe$dataset == "IV"), c("x4", "y4")]
# 绘制散点图
ggplot() +
geom_point(data = df1, aes(x = x1, y = y1), color = "blue", size = 3) +
labs(title = "Anscombe's Plot (I)", x = "x1", y = "y1")
# 重复此过程为其他三组数据
# 对每组数据建立一元线性回归模型
models <- list(
lm(y1 ~ x1, data = df1),
lm(y2 ~ x2, data = df2),
lm(y3 ~ x3, data = df3),
lm(y4 ~ x4, data = df4)
)
# 输出模型摘要
for (i in 1:length(models)) {
summary(models[[i]])
}
```
观察散点图,你会发现四组数据虽然看起来相似,但在实际关系上各有特点:
1. 第一组(I)和第二组(II)呈现出正相关,而第三组(III)和第四组(IV)则可能是负相关或者无明显趋势。
2. 每组数据的残差分布可能不同,这会影响回归模型的拟合效果。
从回归模型中得到的启示有:
1. 斜率和截距的不同可能会反映变量之间真实的关系强度和起点。
2. R^2值可以衡量拟合程度,如果某组数据R^2接近于0,说明数据与自变量之间的线性关联较弱。
3. 如果残差图显示异常(如大残差、偏斜或序列依赖),可能需要考虑非线性模型或者其他更复杂的建模方法。
阅读全文
相关推荐

















