- 博客(17)
- 资源 (1)
- 收藏
- 关注

原创 task10
阅读《李航统计学习方法》的65-74页 学习Gini指数 学习回归树 剪枝 CART算法 1984年提出,1和2由此引入,CART算法同样由特征选择、树生成、剪枝组成,既可用来分类也可用于回归。 分类树的生成 本质是递归的构建二叉决策树,回归树用平方误差最小化准则,分类树用Gini指数选择最优特征,同时决定该特征的最优二值切分点。 回归树的生成: 停止条件可以为树深度等。 ...
2019-06-18 19:59:13
160
原创 Datawhale AI夏令营 科大讯飞AI大赛 大模型方向
3. tf-idf表征能力弱,规则定义不了的,使用embedding加分类代替。1. kmeans较为粗糙,聚类可分为更多细分主题。2. 可根据经验手动定义规则。
2025-07-14 09:06:25
66
原创 task9
""" 绘制树图形 """ import pandas as pd #from task8 import createTree import numpy as np import matplotlib.pyplot as plt from collections import Counter def plotNode(text, centerPt, parentPt, nodeTyp...
2019-06-14 20:49:39
122
原创 李宏毅机器学习第七期-task8
阅读《李航统计学习方法》中p55-p58页 总结决策树模型结构 理解决策树递归思想 阅读《李航统计学习》中p58-p63页 学习信息增益 学习信息增益率 阅读《李航统计学习》中p63-65页 学习ID3算法优缺点 学习C4.5算法优缺点 理解C4.5算法在ID3算法上有什么提升 学习C4.5算法在连续值上的处理 学习决策树如何生成 阅读《机器学习实战》中p37-p41页 划分数...
2019-06-10 18:02:02
185
原创 task7
信息熵(香浓熵) 是一种信息的度量方式,表示信息的混乱程度,也就是说:信息越有序,信息熵越低。定义如下: KaTeX parse error: Expected group after '_' at position 14: Ent(D)=−\sum_̲\limits{k=1}^yp… 其中满足: 0⩽H(p)⩽log2n0⩽H(p)⩽log_2n0⩽H(p)⩽log2n, 这里 H(p)H(...
2019-06-05 20:48:38
184
原创 task6
coding: utf-8 In[1]: -- coding: utf-8 -- import numpy as np class LogisticRegression(object): def __init__(self, learning_rate=0.1, max_iter=100, seed=None): self.seed = seed # 随机数种子 self.lr ...
2019-06-03 11:15:36
180
原创 task5
【李宏毅机器学习任务五】 学习视频内容: 观看观看李宏毅课程内容:p9 视频连接: https://www.bilibili.com/video/av35932863/?p=9 学习Datawhale整理笔记 https://datawhalechina.github.io/Leeml-Book/#/chapter9/chapter9(目前已100%复现) 学习打卡内容: 推导LR损失函数(1) ...
2019-05-29 20:34:31
174
原创 task4
学习打卡内容: 从基础概率推导贝叶斯公式,朴素贝叶斯公式(1) 学习先验概率(2) 学习后验概率(3) 学习LR和linear regreeesion之间的区别(4) 推导sigmoid function公式(5) 答案: 朴素贝叶斯模型: 模型假设: 我们假设特征之间 相互条件独立 。换句话来说就是特征向量中一个特征的取值并不影响其他特征的取值。所谓 独立(independence) ...
2019-05-26 00:18:34
249
原创 task2
负责人:王佳旭 课程设计人:王佳旭 【线性回归任务一】 #任务时间# 请于5月13日22:00前完成,逾期尚未打卡的会被清退。 学习视频内容: 观看李宏毅课程内容:P1、P2。 视频连接:https://www.bilibili.com/video/av35932863?from=search&seid=2134843831238226258 学习打卡任务内容: 了解什么是Ma...
2019-05-22 17:14:51
185
原创 task3-预测pm2.5
李宏毅_Machine Learning_2019 Task 3 学习打卡内容 大作业 按照 Homework1_Introduction.txt 的要求完成本次作业 作业1:预测PM2.5的值 在这个作业中,我们将用梯度下降法 (Gradient Descent) 预测 PM2.5 的值 (Regression 回归问题) Homework1要求: 要求 python3.5+ 只能用 numpy...
2019-05-22 17:10:48
464
原创 Datawhale李宏毅ml打卡week-1
了解什么是Machine learning 人工智能是我们想要达成的目标,机器学习是我们达成目标的手段。机器学习是一门讨论各式各样的适用于不同问题的函数形式,以及如何使用数据来有效地获取函数参数具体值的学科。 学习中心极限定理,学习正态分布,学习最大似然估计 中心极限定理 样本的平均值约等于总体的平均值。 不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并...
2019-05-13 19:48:31
177
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人