线性模型高级特征选择与更多分类技术

立即解锁
发布时间: 2025-09-09 01:52:01 阅读量: 5 订阅数: 21 AIGC
PDF

精通R语言机器学习

### 线性模型高级特征选择与更多分类技术 #### 1. LASSO 回归 LASSO 回归的运行十分简单,只需将岭回归模型中的一个参数进行修改,即在 `glmnet()` 语法里把 `alpha=0` 改为 `alpha=1`。以下是具体代码及模型输出查看,我们会查看前 5 个和后 10 个结果: ```R lasso <- glmnet(x, y, family = "gaussian", alpha = 1) print(lasso) ``` 输出结果如下: ``` Call: glmnet(x = x, y = y, family = "gaussian", alpha = 1) Df %Dev Lambda [1,] 0 0.00000 0.878900 [2,] 1 0.09126 0.800800 [3,] 1 0.16700 0.729700 [4,] 1 0.22990 0.664800 [5,] 1 0.28220 0.605800 ........................ [60,] 8 0.70170 0.003632 [61,] 8 0.70170 0.003309 [62,] 8 0.70170 0.003015 [63,] 8 0.70170 0.002747 [64,] 8 0.70180 0.002503 [65,] 8 0.70180 0.002281 [66,] 8 0.70180 0.002078 [67,] 8 0.70180 0.001893 [68,] 8 0.70180 0.001725 [69,] 8 0.70180 0.001572 ``` 需要注意的是,模型构建过程在第 69 步停止了,因为随着 `lambda` 的减小,解释偏差不再改善。同时,`Df` 列会随着 `lambda` 的变化而改变。乍一看,当 `lambda` 为 0.001572 时,似乎所有 8 个特征都应包含在模型中。不过,为了便于讨论,我们尝试寻找并测试一个特征数量较少(约 7 个)的模型。观察输出行,我们发现当 `lambda` 约为 0.045 时,模型包含 7 个特征而非 8 个。因此,我们将此 `lambda` 用于测试集评估,如下所示: ``` [31,] 7 0.67240 0.053930 [32,] 7 0.67460 0.049140 [33,] 7 0.67650 0.044770 [34,] 8 0.67970 0.040790 [35,] 8 0.68340 0.037170 ``` 和岭回归一样,我们可以绘制结果: ```R plot(lasso, xvar = "lambda", label = TRUE) ``` 这个图很有趣,它直观地展示了 LASSO 回归的工作原理。注意标记为 8、3 和 6 的线条的变化,它们分别对应 `pgg45`、`age` 和 `lcp` 特征。看起来 `lcp` 的系数在它作为最后一个特征被加入之前一直处于或接近零。我们可以像处理岭回归那样,通过将其代入 `coef()` 函数来查看包含 7 个特征的模型的系数值: ```R lasso.coef <- coef(lasso, s = 0.045, exact = TRUE) lasso.coef ``` 输出结果: ``` 9 x 1 sparse Matrix of class "dgCMatrix" 1 (Intercept) -0.1305852115 lcavol 0.4479676523 lweight 0.5910362316 age -0.0073156274 lbph 0.0974129976 svi 0.4746795823 lcp . gleason 0.2968395802 pgg45 0.0009790322 ``` 在 `lambda` 为 0.045 时,LASSO 算法将 `lcp` 的系数归零。以下是该模型在测试数据上的表现: ```R lasso.y <- predict(lasso, newx = newx, type = "response", s = 0.045) plot(lasso.y, test$lpsa, xlab = "Predicted", ylab = "Actual", main = "LASSO") ``` 我们像之前一样计算均方误差(MSE): ```R lasso.resid <- lasso.y - test$lpsa mean(lasso.resid^2) ``` 输出结果: ``` [1] 0.4437209 ``` 看起来我们得到了和之前类似的图,MSE 仅有轻微改善。我们最后大幅提升模型性能的希望寄托在弹性网络(Elastic Net)上。为此,我们仍然使用 `glmnet` 包,不同的是,我们要同时求解 `lambda` 和弹性网络参数 `alpha`。回顾一下,`alpha = 0` 是岭回归惩罚,`alpha = 1` 是 LASSO 惩罚,弹性网络参数的取值范围是 `0 ≤ alpha ≤ 1`。同时求解两个不同的参数可能会很复杂且令人沮丧,但我们可以借助 R 中的 `caret` 包来辅助完成。 #### 2. 弹性网络(Elastic Net) `caret` 包即分类与回归训练包,它有一个很棒的配套网站,可帮助我们了解其所有功能:[http://topepo.github.io/caret/index.html](http://topepo.github.io/caret/index.html)。该包有许多不同的函数可供使用,这里我们的目标是找到 `lambda` 和弹性网络混合参数 `alpha` 的最优组合。这可以通过以下简单的三步流程实现: 1. **创建参数组合向量**:使用基础 R 中的 `expand.grid()` 函数创建一个包含所有我们想要研究的 `alpha` 和 `lambda` 可能组合的向量。我们尝试的超参数值如下: - `alpha` 从 0 到 1,以 0.2 为增量递增(注意取值范围在 0 到 1 之间)。 - `lambda` 从 0.00 到 0.2,以 0.02 为步长递增,这个范围是为了和之前岭回归(`lambda=0.1`)和 LASSO(`lambda=0.045`)的结果有所缓冲。 代码如下: ```R grid <- expand.grid(.alpha = seq(0, 1, by = .2), .lambda = seq(0.00, 0.2, by = 0.02)) ``` 使用 `table()` 函数可以查看这 66 种组合的完整集合: ```R table(grid) ``` 输出结果: |.lambda | 0 | 0.02 | 0.04 | 0.06 | 0.08 | 0.1 | 0.12 | 0.14 | 0.16 | 0.18 | 0.2 | | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | | 0.2 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | | 0.4 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | | 0.6 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | | 0.8 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 我们可以确认这就是我们想要的 `alpha` 从 0 到 1,`lambda` 从 0 到 0.2 的组合。 2. **确定重采样方法**:使用 `caret` 包中的 `trainControl()` 函数确定重采样方法,这里我们使用留一法交叉验证(LOOCV)。同时,可以使用 `selectionFunction()` 在 `trainControl()` 中指定模型选择标准。对于定量响应,算法默认会根据均方根误差(RMSE)进行选择,这正符合我们的需求。 ```R control <- trainControl(method = "LOOCV") ``` 3. **训练模型并确定最优参数**:现在使用 `train()` 函数来确定最优的弹性网络参数。该函数类似于 `lm()`,我们只需添加以下语法:`method="glmnet"`、`trControl=control` 和 `tuneGrid=grid`。将结果存
corwn 最低0.47元/天 解锁专栏
买1年送3月
继续阅读 点击查看下一篇
profit 400次 会员资源下载次数
profit 300万+ 优质博客文章
profit 1000万+ 优质下载资源
profit 1000万+ 优质文库回答
复制全文

相关推荐

张_伟_杰

人工智能专家
人工智能和大数据领域有超过10年的工作经验,拥有深厚的技术功底,曾先后就职于多家知名科技公司。职业生涯中,曾担任人工智能工程师和数据科学家,负责开发和优化各种人工智能和大数据应用。在人工智能算法和技术,包括机器学习、深度学习、自然语言处理等领域有一定的研究
最低0.47元/天 解锁专栏
买1年送3月
百万级 高质量VIP文章无限畅学
千万级 优质资源任意下载
千万级 优质文库回答免费看

最新推荐

构建跨平台任务列表应用:iOS与macOS的数据存储与界面适配

# 构建跨平台任务列表应用:iOS 与 macOS 的数据存储与界面适配 ## 1. 实现 iOS 任务数据的持久化存储 在开发 iOS 任务列表应用 TahDoodle 时,我们发现当程序退出后,所有数据都会丢失,下次启动应用时又会回到示例数据。为了解决这个问题,我们需要实现任务数据的持久化存储。 ### 1.1 确定存储位置 首先,我们需要获取一个可以存储任务数据的本地 URL。这可以通过 `FileManager` 来实现: ```swift class TaskStore: ObservableObject { private let fileURL: URL = {

Mac系统安全与实用工具全解析

# Mac系统安全与实用工具全解析 ## 一、Mac系统更新与数据安全保护 ### 1.1 系统更新提示 若在程序坞的App Store图标上看到小数字,这意味着有相应数量的更新在等待。此时,需启动Mac App Store,然后点击“更新”标签来进行更新操作。 ### 1.2 数据防窥探安全措施 为保护文件不被局域网内其他用户或能物理访问Mac的用户干扰,可采取以下安全措施: - **阻止或限制连接**: - 打开“系统偏好设置”应用程序(可从“应用程序”文件夹、菜单或程序坞中启动)。 - 点击“共享”图标,打开“共享”系统偏好设置面板。 - 若禁用“共享”面板中

SwiftUI状态管理与UIKit视图集成全解析

### SwiftUI 状态管理与 UIKit 视图集成全解析 #### 1. SwiftUI 状态管理 在 SwiftUI 中,状态管理是构建动态用户界面的关键。以下将介绍几种常用的状态管理方式。 ##### 1.1 使用 @ObservedObject 在 `ContentView.swift` 文件中,我们可以展示当前选择的搜索引擎。以下是具体代码: ```swift import SwiftUI struct ContentView: View { @ObservedObject var searchEngine = SearchEngineChoice() v

提升Windows使用便捷性的实用指南

### 提升Windows使用便捷性的实用指南 在日常使用电脑的过程中,我们常常会遇到各种操作上的不便,尤其是对于那些有行动或灵活性问题的用户。不过,Windows系统提供了一系列实用的功能和设置,能够显著提升使用的便捷性。下面将为大家详细介绍如何让键盘更易使用以及通过语音控制Windows的方法。 #### 让键盘更易使用 如果你在操作键盘时存在一定困难,可通过激活以下几个功能来增强键盘的可访问性: - **粘滞键(Sticky keys)**:该功能允许你一次按下一个键来实现多键组合快捷键,比如 `Ctrl + C` 和 `Alt + Tab` 等。 - **筛选键(Filter ke

提升MacBook使用效率与故障排除指南

### 提升MacBook使用效率与故障排除指南 #### 1. Keynote幻灯片与备注打印 如果你需要展示包含大量信息的长幻灯片,那么打印包含幻灯片缩略图和备注的讲义是个不错的选择。而且,除了纸质讲义,你还可以使用Keynote创建电子PDF文件,让观众从你的网站下载。如果你是教育工作者,还能结合交互式白板使用Keynote。 打印幻灯片和备注的步骤如下: 1. 在Keynote中,选择“文件”➪“打印”,或者按下⌘ + P。Keynote会显示打印面板,若有需要,可点击面板底部的“显示详细信息”按钮展开面板以显示所有设置。 2. 选择以下格式之一(每种格式会显示不同的布局选项):

PHP变量与函数全面解析

### PHP变量与函数全面解析 #### 1. PHP变量概述 PHP中的变量与shell变量类似,但PHP变量可以存储不同类型的值。引用变量时,无论读取还是设置值,都要在变量名前使用美元符号($)。PHP变量的类型主要有以下几种: - 字符串(Strings) - 整数(Integers) - 浮点数(Floats) - 数组(Arrays) - 对象(Objects) - 空值(Nulls) 下面我们详细探讨这些变量类型。 #### 2. 字符串变量 字符串是由引号括起来的一系列字符。可以使用单引号(')或双引号(")来定义字符串,但必须使用相同类型的引号开始和结束字符串,并且如果

Unity游戏部署指南:从桌面到网页

# Unity游戏部署指南:从桌面到网页 ## 1. 桌面平台部署 ### 1.1 开始构建桌面应用 初次学习使用Unity构建游戏时,最简单的起点是将游戏部署到桌面计算机,支持的桌面系统包括Windows、Mac和Linux。由于Unity本身可在桌面计算机上运行,因此你可以为正在使用的计算机构建应用。 以下是构建桌面应用的具体步骤: 1. 打开任意Unity项目。任何项目都适用,建议在不同的构建过程中使用不同的项目,以验证Unity可以将任何项目构建到任何平台。 2. 选择“File > Build Settings”打开构建设置窗口。默认情况下,当前平台会设置为PC、Mac和Linu

探索云计算网络与Windows365的未来

# 探索云计算网络与 Windows 365 的未来 ## 1. 网络基础:互联网与云 互联网,也被称为“云”,是一个由众多网络相互连接而成的庞大网络体系。由于其连接方式极为复杂,难以用图表清晰展示,所以我们用“云”来简化表述。 ### 1.1 微软网络架构 想象一下,你购买了一批计算机,将它们放置在车库的架子上,并接入本地网络,这样就创建了一个数据中心。像微软这样的大公司也会构建数据中心,而且规模巨大。你可以通过网页浏览器和搜索引擎查看微软数据中心的图片,其规模令人惊叹。你的云 PC 就存放在这样的数据中心里(同时在其他地方有备份以确保冗余),并通过互联网与之连接。 微软等公司不仅拥有

媒体管理与收听指南

# 媒体管理与收听指南 ## 一、音乐库管理 ### (一)处理大容量音乐库 拥有大量音乐时,会面临两个问题:一是在音乐应用中管理所有音乐,二是将音乐同步到无法容纳所有内容的移动设备。为了更好地管理音乐文件,有以下建议: 1. **精确标签**:仔细为音乐添加标签,以便能轻松找到所需音乐。使用更多的音乐流派可以更方便地对音乐收藏进行分类和筛选。在音乐应用的“信息”对话框中输入流派名称,即可为音乐添加流派标签。 2. **清理音乐**:检查不常听的音乐,创建一个智能播放列表,规则设置为“[最后播放时间] [不在最后] 6 [个月]”,查看符合条件的音乐,将这些不常听的音乐移至第二个音乐库。这样

云计算与混合云:技术解析与应用指南

### 云计算与混合云:技术解析与应用指南 #### 1. 迈向云端的建议 在领略到云计算的魅力后,若想将网络迁移至云端,可参考以下建议: - **避免依赖劣质网络连接**:采用云计算前,勿依赖消费级网络连接。消费级网络虽有时速度快,但故障修复时间不定。建议投资高速企业级网络连接,其可随业务需求增长而扩展。 - **评估已使用的云应用**:若使用 Gmail 而非 Exchange 处理邮件,表明已在使用云服务。其他常见云服务包括远程 Web 或 FTP 主机、Dropbox 等文件共享服务、Carbonite 等在线备份服务以及薪资服务等。 - **逐步迁移至云端**:先确定一个适合迁移至