- 博客(156)
- 资源 (1)
- 问答 (1)
- 收藏
- 关注
原创 参数高效微调(PEFT):大模型时代的轻量级解决方案
本文介绍了参数高效微调(PEFT)技术,该技术通过在预训练大模型中仅更新少量参数来解决传统微调方法资源消耗大、易导致灾难性遗忘的问题。文章分析了PEFT的优势(高效性、稳定性、灵活性)和主流方法(Adapter、LoRA、Prefix Tuning、Prompt Tuning),并探讨了其在多语言翻译、个性化推荐等场景的应用。最后指出PEFT的未来发展方向,强调其作为大模型轻量级微调解决方案的重要价值,适合不同层次的研究者参考实践。
2025-07-25 15:00:09
988
原创 经验累积分布函数VS累积分布函数
摘要:累积分布函数(CDF)和经验累积分布函数(ECDF)是描述数据分布的两种方法。CDF基于理论概率分布,适用于已知分布的理论分析;ECDF基于样本数据,是CDF的非参数估计,适用于未知分布的实际数据分析。CDF为平滑曲线,ECDF呈阶梯状。随着样本量增加,ECDF会逼近真实CDF。两者在理论研究和数据探索中各有优势,CDF用于建模预测,ECDF用于无参数分析和异常检测。
2025-07-25 10:34:47
498
原创 我问deepseek,作为一名java兼大数据程序员,如何实现技术移民,感觉好难!!!
Java和大数据程序员技术移民指南:选择目标国家(如加拿大、澳大利亚、美国等),提升语言能力(雅思/托福),完成学历认证,积累2-3年工作经验。重点优化技术移民评分(年龄、语言、学历、经验),考取AWS/Google等技术认证,参与开源项目。热门国家对IT人才需求旺盛,需准备护照、成绩单、工作证明等材料。建议分阶段规划,咨询专业中介,关注最新移民政策。技术背景是核心优势,合理规划可实现移民目标。(149字)
2025-07-11 11:55:44
509
原创 BP神经网络对时序数据进行分类
本文介绍了使用PyTorch实现BP神经网络对时间序列数据进行分类的方法。首先生成三类时间序列数据(正弦波、锯齿波和方波),并进行数据预处理和划分。然后定义了一个包含全连接层和ReLU激活的BP神经网络模型,通过交叉熵损失和Adam优化器进行训练。实验结果显示模型在测试集上达到95%的准确率。文章还提出了改进方案,如增加隐藏层、使用正则化和调整学习率。该方法适用于简单时间序列分类任务,对于更复杂数据可考虑LSTM或Transformer等模型。
2025-07-11 11:49:46
526
原创 RapidMiner Studio中执行python代码并绘制频谱图
本文介绍了如何在RapidMiner Studio 10.3中使用Python代码绘制时序信号的频谱图。主要内容包括:首先检查并安装Execute Python扩展算子,配置Python环境;然后构建流程图,通过Read CSV算子导入数据;接着在Execute Python算子中输入代码执行FFT频谱分析,计算频率和振幅;最后查看运行结果。文中详细说明了各步骤的参数设置和代码实现,并提供了示例数据和运行结果展示。该方法利用RapidMiner与Python的结合实现了时序信号频谱分析功能。
2025-06-06 17:43:18
307
原创 图神经网络原理及应用简介
摘要: 图神经网络(GNN)是处理图结构数据的深度学习模型,通过消息传递机制聚合节点及其邻居信息。核心流程包括节点特征初始化、消息生成与聚合(如求和或注意力)、多轮迭代更新及下游任务输出。主流变体包括GCN、GAT、GraphSAGE和GIN,分别基于卷积、注意力、采样或同构理论优化。GNN广泛应用于社交网络、生物信息学、推荐系统等领域,优势在于灵活性和表达能力,但面临计算复杂、过平滑等挑战。未来需提升效率与泛化能力以应对实际需求。
2025-06-03 17:39:31
932
原创 使用LSTM进行时间序列分析
LSTM(长短期记忆网络)是一种专为时间序列数据设计的循环神经网络,通过门控机制(输入门、遗忘门、输出门)和细胞状态有效捕捉长期依赖关系。相比传统方法,LSTM能更好处理时间序列的非线性、噪声和长期模式。典型应用流程包括数据生成(如带噪声的正弦波)、滑动窗口预处理、PyTorch模型构建(含LSTM层和全连接层)、训练及预测可视化。实验显示LSTM能准确预测时间序列趋势。其优势在于长期依赖性建模、鲁棒性强,并可扩展为双向LSTM、堆叠LSTM等变体。LSTM已成为时间序列分析的核心工具之一。
2025-05-28 17:45:47
870
原创 多模态简介
摘要: 多模态方法通过融合时间序列、图像、文本等不同数据源提升任务性能。其优势在于克服单一模态的局限性,增强鲁棒性和预测精度,但需解决特征对齐、跨模态建模等挑战。实现上,需完成数据预处理(时间/空间对齐、清洗)、特征提取(统计、深度学习)、融合策略(早期/中期/晚期融合、注意力机制),并选择合适模型(传统机器学习、深度学习、GNN等)。实验验证多模态性能需对比单模态方法,评估指标包括准确率、F1分数等。核心在于数据对齐、特征融合与模型优化,适用于工业监控、医疗健康等领域。
2025-05-28 17:13:26
1127
原创 PINN是否需要对空间进行网格化
传统数值方法求解PDE需要网格化的原因 传统数值方法(如有限差分、有限元)求解偏微分方程必须进行空间网格化,主要原因包括: 连续问题离散化 - 将无限维连续问题转化为有限维离散问题,便于计算机处理; 局部性假设 - 导数计算依赖邻近网格点关系(如二阶差分公式); 计算可行性 - 网格化后转化为稀疏线性方程组,可通过高效数值方法求解。 PINN方法无需网格化的优势 物理信息神经网络(PINN)通过以下机制避免网格化: 函数逼近 - 神经网络直接参数化解函数,输入空间坐标即可输出解值; 自动微分 - 利用反向传
2025-05-28 15:44:23
1155
原创 np.r_的用法
np.r_ 是 NumPy 中的一个便捷工具,主要用于快速拼接数组或生成序列。它通过索引语法简化了数组操作,特别适用于按行拼接多个数组或生成等差序列。np.r_ 支持多种输入形式,包括数组、切片表达式和标量值,能够灵活地生成一维数组或拼接二维数组。与 np.c_ 不同,np.r_ 按行拼接数组,而 np.c_ 按列拼接。np.r_ 的简洁性和灵活性使其成为处理数组时的得力工具,适用于快速拼接、生成序列以及混合使用多种数据类型。
2025-05-19 17:31:56
440
原创 孤立森林和随机森林主要区别
孤立森林(Isolation Forest)是一种高效的异常检测算法,特别适用于高维数据。其核心思想是通过随机分割数据来快速隔离异常点,利用路径长度判断异常。与随机森林不同,孤立森林是无监督学习,目标为异常检测,分裂方式为随机选择特征和分割点,树的深度较浅,适用于网络安全、金融风控等领域的异常检测任务。孤立森林具有高效性、无需标签和对高维数据友好的优点,但也存在参数敏感性和对局部密度差异敏感的局限性。通过Python的sklearn库可以轻松实现孤立森林模型,并进行异常检测。
2025-05-19 17:29:00
1271
原创 整合 CountVectorizer 和 TfidfVectorizer 绘制词云图
本文分别整合 CountVectorizer 和 TfidfVectorizer 绘制词云图
2025-04-25 17:36:17
1060
原创 langchain之agent系列:zero-shot-react-description agent
langchain之agent系列:zero-shot-react-description agent
2025-04-10 14:55:19
328
原创 langchain、langsmith、langgraph分别是干什么的
langchain、langsmith、langgraph分别是干什么的
2025-04-01 17:26:31
782
原创 Spring中BeanFactoryPostProcessor和BeanPostProcessor的区别
Spring中BeanFactoryPostProcessor和BeanPostProcessor的区别
2025-03-18 09:40:30
739
原创 深度学习图像算法中的网络架构:Backbone、Neck 和 Head 详解
摘要:深度学习在图像识别任务(如目标检测、图像分割)中广泛应用,其网络架构通常由Backbone、Neck和Head三部分组成。Backbone(如ResNet、VGG)负责提取多尺度图像特征;Neck(如FPN、PANet)进行多尺度特征融合,增强对不同尺寸目标的检测能力;Head则完成最终预测,输出分类结果或分割掩膜。这三部分协同工作,构成完整的图像处理流程,新方法的不断涌现持续提升着模型的精度和效率。理解这些组件的功能及其相互关系,有助于优化深度学习图像处理模型的设计。
2025-01-16 22:48:01
2686
1
经典力学教材:Goldstein, Poole, Safko 第三版的详细解析与应用
2024-12-26
带高度和重量限制的最低水平线搜索算法代码
2022-10-08
手写数字的数据集MNIST
2022-09-28
一维背包问题和二维背包问题根本区别
2022-10-14
sklearn中SpectralClustering怎么获取聚类中心
2022-08-04
TA创建的收藏夹 TA关注的收藏夹
TA关注的人