- 博客(169)
- 收藏
- 关注
原创 Google机器学习实践指南(L1(稀疏特征)正则化)
使用一种根据权重的绝对值的总和来惩罚权重的正则化方式。在依赖稀疏特征的模型中,L1 正则化有助于使不相关或几乎不相关的特征的权重正好为 0,从而将这些特征从模型中移除。与 L2 正则化相对。Google机器学习(23)-L1(稀疏特征)正则化(约8分钟)经L1筛选后:约3,000个非零权重。二、L1 vs L2 机制对比。L1为什么能精确产生零权重?案例:文本分类中的词袋模型。特征维度 > 10,000。原始特征:50,000维。三、L1正则化优势场景。3. 特征重要性分析。小心重要特征被误剔除。
2025-06-21 23:16:13
603
原创 Google机器学习实践指南(机器学习正则化原理和实战指南)
随着λ的增加,训练集误差不断增加(欠拟合),而交叉验证集误差则是先减小后增加;Google机器学习(21)-正则化原理与实战指南(约15分钟)L1正则化 - 将模型复杂度作为具有非零权重的特征总数的函数。L2正则化 - 将模型复杂度作为模型中所有特征的权重的函数。当λ较小时,训练集误差较小(过拟合)而交叉验证集误差较大;一个是经验损失项,用于衡量模型与数据的拟合度;一个是正则化项,用于衡量模型复杂度。1. L1正则化(Lasso)2. L2正则化(Ridge)根据特征数量选择L1/L2。
2025-06-20 09:00:00
510
原创 Google机器学习实践指南(数据清洗)
Google机器学习(19)-数据清洗实战(约15分钟)一、特征缩放技术为什么需要缩放?五大缩放方法对比(x-μ)/σx/max(|x|)xminmaxmeanμσmedianIQR二、离群值处理方案。
2025-06-18 09:00:00
832
原创 Google机器学习实践指南(机器学习优质特征标准)
Google机器学习(18)-优质特征标准解析(约5分钟)可通过数据字典进行标注说明后使用。:特征值应在数据集中出现≥5次。如何处理必须使用的低频特征?语义模糊的特征一定不可用吗?建立编码-名称的永久映射表。可采用特征哈希或分桶处理。城市聚类编号如何稳定化?:特征含义应直观可理解。三、特征质量标准对照表。一、优质特征核心标准。
2025-06-16 09:00:00
224
原创 Google机器学习实践指南(机器学习四大数据划分方法详解)
2. 交叉验证法 (K-fold Cross Validation)Google机器学习(16)-四大数据划分技术解析(约6分钟)3. 留一法 (Leave-One-Out, LOO)将数据集D直接划分为互斥的训练集S和测试集T。1000样本数据集(500正例+500反例)→ 训练集700样本(350正+350反)→ 测试集300样本(150正+150反)常用k=5或10,数据量大时可减小k值。k折交叉验证的特例(k=样本数m)k常取5或10(10折交叉验证)将数据集D划分为k个互斥子集。
2025-06-09 09:00:00
1439
原创 Google机器学习实践指南(机器学习四大特征工程核心解析)
Google机器学习(17)-四大特征工程核心解析(约5分钟)可采用哈希分桶或嵌入编码(Embedding)当特征取值数量<50且需要完整保留类别信息时。部分算法不支持稀疏输入,需转换为密集格式。3. 多热编码(Multi-Hot)示例:街道名称、产品类别、颜色等。2. 独热编码(One-Hot)节省内存空间(尤其在高维特征时)离散型特征,取值来自预定义集合。创建稀疏向量(仅1个元素为1)适合多值特征(如标签、关键词)适合有限可能值的分类特征。如何处理高基数分类特征?允许向量中多个位置为1。
2025-06-07 07:45:34
289
原创 Google机器学习实践指南(机器学习数据集划分指南)
Google机器学习(15)-机器学习数据集划分指南(约5分钟)大数据集划分比例(适用于样本量>100,000的大规模数据集)小规模数据集划分比例(适用于样本量<10,000的数据集)采用分层抽样(Stratified Sampling)小型项目可合并验证/测试集,但专业项目必须分离。按时间顺序划分(如前80%训练,后20%测试)二、训练集/测试集划分原则。最小样本量:>1000。特征分布与训练集一致。三、三数据集划分规范。如何确保数据代表性?
2025-06-07 07:36:33
234
原创 Google机器学习实践指南(机器学习模型泛化能力)
Google机器学习(14)-机器学习模型泛化原理与优化(约10分钟)通过验证集进行网格搜索(如λ∈[0.001,0.01,0.1,1])蓝点:生病树 | 橙点:健康树 | 模型边界:黑色曲线。泛化误差(Generalization Error)“如无必要,勿增实体” - 优先选择更简单的模型。模型在新数据上表现糟糕,尽管训练损失很低。为什么低训练损失的模型在新数据上表现差?模型在新数据上的表现能力泛化误差。测试集应足够大(>1000样本)采用K折交叉验证(K=5或10)机器学习模型的泛化能力指模型对。
2025-06-06 20:00:00
751
原创 Google机器学习实践指南(TensorFlow多项式回归模型构建实例)
可添加L2正则化:loss += beta * tf.nn.l2_loss(W_3)2。学习率调整:尝试指数衰减 tf.train.exponential_decay。Google机器学习(13)-多项式回归模型构建训练全流程解析(约20分钟)批量训练:使用tf.train.batch提升效率。通过交叉验证评估不同次数的性能,避免高阶过拟合。可视化计算图/损失曲线,辅助调试复杂模型9。早停机制:验证损失不再下降时终止训练。如何选择合适的多项式次数?二、模型构建关键步骤。如何处理过拟合问题?
2025-06-04 08:30:00
242
原创 Google机器学习实践指南(TensorFlow六大优化器)
*说明:**Nesterov Momentum(牛顿动量法)是momentum方法的一项改进,与Momentum唯一区别是计算梯度的不同,Nesterov momentum先用当前的速度v更新一遍参数,再用更新的临时参数计算梯度。**参数:**步进值 ϵ, 初始参数 θ, 数值稳定量δ,一阶动量衰减系数ρ1, 二阶动量衰减系数ρ2 (经验值:δ=10^−8,ρ1=0.9,ρ2=0.999)。**参数:**学习速率 ϵ, 初始参数 θ, 初始速率v, 动量衰减参数α。
2025-06-02 21:40:22
1186
原创 Google机器学习实践指南(TensorFlow特征工程六法)
分类标识列主要用于非数值类型(总类型是有限集合)的特征进行数值化,分类标识列视为分桶列的一种特殊情况,其将将分桶数据映射为一个具体数值。组合列主要适用于单个特征在独立使用时基本无法表达意义的场景方法使通过将两个或两个以上的特征组合起来构造成一个特征(称为特征组合)。主要用于将数据类别的数量非常大需要消耗大量内存的情况下,通过哈希处理对类别数量进行限制,其原理是利用哈希算法将不同的输入值强制划分成更少数量的类别。Google机器学习实战(11)-特征列组合六大方法深度解析与应用。
2025-06-02 08:45:00
1582
原创 Google机器学习实践指南(TensorFlow数据读取)
Tensorflow允许在TensorFlow运算图中将数据注入到任一张量中。因此,python运算可以把数据直接设置到TensorFlow图中。Google机器学习实战(10)-TensorFlow数据读取的三种实现模式。TFRecord更适合大规模结构化数据[citation:1]通过run()/eval()的feed_dict参数触发。[1] TensorFlow数据读取机制深度解析。可采用生成器逐步加载或切换为文件读取模式。🔗 TensorFlow数据输入管道指南。预加载数据时内存不足怎么办?
2025-06-01 06:54:37
395
原创 Google机器学习实践指南(TensorFlow工具包)
Google机器学习实战(9)-4分钟了解深度学习框架Tensorflow的核心架构与应用▲ 核心定义:TensorFlow是一个基于数据流编程的符号数学系统:cite[1],被广泛应用于各类机器学习算法的编程实现。其核心特性包括:▲ 图1 TensorFlow工具包层次结构构造执行前端系统计算图后端系统TensorFlow Kernel三、Estimator API实战1. 开发流程▲ 图2 Estimator标准工作流2. 代码示例1. 创建输入函数2. 定义特征列3. 实例化Estimat
2025-05-26 09:30:00
777
原创 Google机器学习实践指南(优化学习速率篇)
学习速率是梯度下降算法中用于控制参数更新步长的超参数,通过与梯度相乘确定下一步的位置:cite[1]:cite[7]。Google机器学习实战(8)-掌握梯度下降中的学习速率的调节。2. 金发姑娘原则(Goldilocks Principle)损失函数的曲率在不同区域可能变化,需要自适应调整步长6。需手动调节的模型配置参数,与模型自动学习的参数相对1。描述函数局部曲率的二阶偏导数矩阵,用于多维优化16。新参数 = 旧参数 - 学习速率 × 梯度。二、不同学习速率的影响。一、学习速率核心概念。
2025-05-25 07:38:04
244
原创 Google机器学习实践指南(梯度下降篇)
Google机器学习实战(6)-3分钟掌握梯度下降核心原理。通过迭代计算梯度并调整参数,寻找权重和偏差的最佳组合。训练损失和验证损失变化趋近于零的状态。▲ 图1 回归问题的碗状损失曲线。为W1选择一个起始值(起点)当连续迭代损失变化小于阈值时。▲ 图3 负梯度方向示意图。负方向指向损失下降最快路径。控制参数更新步长的超参数。▲ 图4 单步更新过程。▲ 图5 完整收敛轨迹。为什么选择负梯度方向?▲ 图3 梯度起始点。
2025-05-22 21:33:09
294
原创 Google机器学习实践指南(迭代学习机制解析篇)
在训练机器学习模型时,首先对权重和偏差进行初始猜测,然后反复调整这些猜测,直到获得损失可能最低的权重和偏差为止。Google机器学习实战(4)-深入理解模型训练中的迭代优化过程。监控损失值变化率,当连续多次迭代变化小于阈值时。对线性模型而言,初始值不影响最终收敛结果。前向传播:y’ = W₁x + W₀。训练达到的稳定状态,损失变化趋近于零。有标签样本预测值和实际值之差的平方。▲ 图1 机器学习的迭代试错过程。损失计算:使用平方损失函数。可扩展性强(适合大数据集)参数更新:调整W₁和W₀。
2025-05-21 07:30:52
200
原创 Google机器学习实践指南(训练与损失函数篇)
Google机器学习实战(4)-掌握模型训练核心机制,吃透损失函数设计。在特征空间搜索最优参数组合,使预测值最大程度逼近真实标签的数学过程。▲ 左:高损失模型(预测偏差大) 右:低损失模型(预测精准)▲ 不同损失函数在房价预测中的表现差异可达12%当数据存在异常值时,MAE的鲁棒性更优。1. 平方损失(L2 Loss)参数初始化→损失计算→梯度下降。推荐使用L2正则化或早停策略。何时选择MAE代替MSE?2. 均方误差(MSE)如何防止模型过拟合?
2025-05-19 20:15:00
755
原创 【Google机器学习实践指南(线性回归篇)
Google机器学习实战(3)-单变量线性回归核心解析,掌握房价预测模型。▲ 图1:历史数据展示卧室数与房价的正相关趋势。▲ 图2:红色回归线揭示特征与标签的数学关系。数据可视化→特征工程→模型训练→预测推理。1. 数据可视化分析。3. 单变量模型构建。
2025-05-18 22:43:44
280
原创 Google机器学习系列 (2)- 非监督学习
Google机器学习概念(2)-探索无监督学习奥秘,掌握数据自主发现能力。自主发现数据内在结构与规律,实现特征提取与模式识别的机器学习范式。▲ 非监督学习三大支柱:特征→模式发现→知识提炼。▲ 所有样本均为无标签数据,分组需算法自主发现。-自组织映射:通过数据相似性建立内在结构。数据清洗→特征处理→模式挖掘→知识应用。-表征学习:自动提取高阶特征。1. 非监督学习本质。
2025-05-18 10:00:00
248
原创 数字化转型 - 标准化
标准是对重复性事物和概念所做的统一规定,它以科学技术和实践经验的结合成果为基础,经有关方面协商一致,以特定形式发布作为共同遵守的准则和依据。标准化为在一定的范围内获得最佳秩序,对实际的或潜在的问题制定共同的和重复使用的规则的活动。标准化管理是指为在企业的生产经营、管理范围内获得最佳秩序,对实际或潜在的问题制定规则的活动。【百度百科】
2025-05-14 21:18:25
841
原创 数字化转型-4A架构之技术架构
技术架构,构筑企业业务运行的基石,涵盖硬件、软件、网络资源及服务。它让所有技术组件高效协同,为企业应用与数据架构提供坚实支撑。
2025-05-11 08:51:10
1018
原创 数字化转型-4A架构之数据架构
数据架构,是组织管理数据资产的科学之道,描述如何管理从收集到转换、分发和使用数据。它为数据及其在数据存储系统中流动的方式设定了蓝图。涵盖数据的收集、存储、使用及管理等环节,涉及数据模型、数据库系统设计及集成治理技术的实施。
2025-05-09 21:49:19
1062
原创 数字化转型-4A架构之应用架构
应用架构AA(Application Architecture)是规划支撑业务的核心系统与功能模块,实现端到端协同。应用架构描绘了企业中应用系统的构造与行为,以及它们间的联系和与业务目标的对接方式。它涵盖应用软件的设计、部署,确定支持业务和数据处理所需的系统,实现从业务到IT的转变,以保障其有效满足公司业务需求。例如,A接口、B管理平台、C客户服务端口等。
2025-05-07 21:07:38
959
1
原创 数字化转型-4A架构之业务架构
依据企业架构标准组织(The Open Group)的定义,企业架构用于描述构成企业的要素和要素之间关系,以及用于管控架构设计和演进的原则和指引,包括业务架构、数据架构、应用架构、技术架构四大部分。业务架构(Business Architecture,简称BA)- 基于TOGAF定义的定义,业务架构定义企业的治理结构、业务能力、业务活动、业务数据。业务架构是业务的结构化表达,描述组织如何运用业务的关键要素来实现其战略意图和目标。业务能力:企业做什么业务活动:企业怎么做。
2025-05-04 07:51:28
1004
原创 数字化转型-4A架构(业务架构、应用架构、数据架构、技术架构)
业务架构定义企业战略、业务流程与组织能力,对齐客户需求与业务目标;应用架构规划支撑业务的核心系统与功能模块,实现端到端协同;数据架构确保各系统间的数据能够准确、一致地流动(如统一商品编码、实时库存同步);通过技术架构选择合适的技术工具和基础设施(如云计算平台、微服务框架)。公众号中如下的图片,很好的体现了如同人体的“骨骼-肌肉-神经-血液”系统的4A 架构体系。
2025-05-03 08:22:15
1733
原创 MES系列-ISO95 & IEC/ISO 62264
第 3层: 生产运营层:主要由MES、MIS系统、生产指挥、运行调度和办公终端组成,主要实现生产过程的执行管理(制造数据管理、计划排程管理、生产调度管理、库存管理、质量管理、工作中心/设备管理、工具工装管理、物料管理、生产看板管理、生产过程控制、底层数据集成分析、上层数据集成分解)、记录数据处理和生产指挥调度。第 2 层: 过程监控层:主要由操作员站、工程师站、OPC服务器、SCADA系统和DCS系统等组成,对生产现场和生产状态进行集中监控,整体把控企业的生产状况。该层是车间与企业级系统之间的桥梁。
2025-04-29 21:44:46
1043
原创 MES系列-MOM(Manufacturing Operations Management,制造运营管理)
MOM是Manufacturing Operation Management的缩写,美国仪器、系统和自动化协会(Instrumentation, System, and Automation Society, ISA)于2000年开始发布ISA-SP95标准,首次确立了制造运行管理(Manufacturing Operations Management, MOM)的概念,构建通用活动模型应用于生产、维护、质量和库存4类主要运行区域和各类运行系统的功能及各功能模块之间的相互关系。
2025-04-26 09:03:39
915
原创 AI Agent(十一)-Camel基于AI的图像内容识别
对于camel-ai 版本为0.2.22的安装包程序,base_model中函数 preprocess_messages ,此函数的作用是对消息列表进行预处理,主要目的是在将消息发送到模型 API 之前,移除消息中的“思考内容”(thinking content),并执行其他模型特定的预处理操作。需要修改的文件地址为:…
2025-04-22 11:46:38
231
原创 AI Agent系列(十) -Data Agent(数据分析智能体)开源资源汇总
DataAgent的能力本质上比较依赖大模型的自然语言转API/SQL/代码的能力,目前有很多开源的项目可以供参考学习。
2025-04-18 22:55:13
1397
原创 AI Agent系列(九) -Data Agent(数据分析智能体)
Data Agent就是在大模型基础上构建一个数据分析的智能体,是一种基于人工智能技术,特别是大模型技术的数据分析智能体,能将自然语言指令转换为数据操作,实现数据提取、分析和可视化。
2025-04-17 23:09:38
926
原创 五大生产模式(MTS、MTO、ATO、ETO、CTO)的差异
ATO 和 CTO 模式更关注半成品和原材料库存,确保在订单到达时能快速组装。ATO/CTO 交货期仅是装配时间,成品库存较少,有半成品、原材料库存压力;MTS 模式则根据预测管理成品、半成品和原材料库存,保证快速交付。ETO 模式侧重于原材料库存管理,以应对定制设计所需的物料供应。MTO 模式重点是原材料库存,保障生产启动的原料供应。MTS 交货期最短,库存最大,有成品库存压力;成熟期,MTS 模式能加速库存周转,提高收益。ETO 交货期最长,库存较少,无库存压力。
2025-04-14 21:18:15
511
原创 制造业五大生产模式(MTS、MTO、ATO、ETO、CTO)
制造业的各个领域因其产品结构(BOM)和业务模式的多样性,催生了多种生产类型与模式。按照产品结构和业务模式,制造业中的生产模式可以划分为五大类:按按库存生产(MTS)、按订单生产(MTO)、订单组装(ATO)、按订单设计(ETO)以及按配置生产(CTO)
2025-04-04 08:33:59
1176
原创 AI Agent系列(八) -基于ReAct架构的前端开发助手(DeepSeek)
初始化,需要实现基于LLM的API的客户端初始化,基于ReAct架构的提示词;获取响应,基于LLM和系统提示词,用户输入的需求获取的响应信息;响应解析,解析基于ReAct架构的响应;生成html文件,基于响应的解析结果,生成html文件;import os你是一个专业的前端开发助手,采用ReAct(Reasoning+Acting)架构工作。请按照以下JSON格式响应:"thought": "分析...","action": "执行...","code": "生成的代码...",
2025-03-31 19:56:21
984
智能制造2025年版典型场景参考指引
2025-06-13
三大开源DataAgent(OpenINterpreter-DB-GPT-DeepBI).zip
2025-04-19
AI Agent系列(八) -基于ReAct架构的前端开发助手(DeepSeek)
2025-04-01
C#&Codesys共享内存实现数据高速交互
2025-02-23
树莓派安装codesys
2025-01-09
数字化转型 国家标准 - 制造业企业数字化转型实施指南 国家标准 - 信息化和工业化融合管理体系要求
2025-01-04
AI在制造业的应用的PPT
2024-12-12
Kepware安装程序无法找到所需的根证书 请应用Windows更新的问题处理
2024-10-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人