- 博客(11)
- 收藏
- 关注
原创 7.机器学习_KNN
一般根据样本分布选择一个较小的值,然后通过交叉验证来选择一个比较合适的最终值。如果样本太多,不断的求距离效率低,所以在训练阶段其实会对训练数据进行建模,构建KD树。从m个样本的n维特征中,分别计算n个特征取值的方差,用。欧氏距离衡量的是空间各点的。nkv作为样本的划分点,对于小于该值的样本划分到左子树,数据增强(从现有的训练样本中生成新的高质量的训练样本)余弦距离衡量的是空间。改变样本的数量(包括增加-上采样和减少-下采样)改变评价指标,使之更符合不平衡数据的评定。搜集更多的数据,使数据达到平衡。
2024-05-27 00:26:35
690
原创 6.机器学习_特征工程
如果不同特征数量级相差过大,可能导致学不到某些特征。线性判别分析法(LDA):让映射后的样本具有。主成分析法(PCA):让映射后的样本具有。为什么要归一化、标准化?
2024-05-25 02:16:42
326
原创 简单理解爬虫
教程:https://www.w3school.com.cn/xpath/xpath_nodes.asp。3. 网页的下载器:将URL对应网页的内容转换为字符串;2. URL管理器:保存待爬取的URL列表以及已爬取的URL列表,防止重复爬取URL;4. 网页的解析器:将字符串进行解析/分析,提取出我们需要的数据信息;// 获取当前节点。从网络上获取我们需要的数据信息的一种程序代码。1. 调度器:负责2/3/4/5的协同工作;目的:解决下载器的代理,动态渲染等问题。
2024-05-22 18:38:03
434
1
原创 4.机器学习_朴素贝叶斯
贝叶斯公式:训练:计算P(y),P(x|y)推理:对每个类别计算p(y)*p(x|y),取最大项作为类别例子:判断邮件是不是垃圾邮件?假设:词典有8000个词,每个样本是8000*1的向量,邮件出现某个词就为1,否则为0,y=1是垃圾邮件,y=0不是垃圾邮件伯努利贝叶斯:每个特征都是0-1变量高斯贝叶斯:特征不是离散值,是连续值,且服从高斯分布多项式贝叶斯:k是y的类别数,ni是特征xi的不同取值数量,α是平滑值。
2024-04-28 15:30:21
1499
原创 3.机器学习_逻辑回归,SVM
对线性可分的数据进二分类,找到一条决策边界,把数据分类损失函数:i样本到决策边界的距离:带入到sigmoid求出该样本属于正样本的概率求出交叉熵损失怎么解决多分类问题:OVO:每次取出两个类别的的样本,训练一个分类器OVR:每次取出一个类别和其他所有类别,训练一个分类器可以做回归,也可以做二元分类,它支持线性分类和非线性分类的分类应用,支持多元分类找到让街道最宽的决策边界(街边的点都分类正确,那么其他的也就分类好了)
2024-04-25 17:55:09
1332
1
原创 1.机器学习_基础
θ是模型中的参数,J是损失函数,损失函数是凸函数,每次参数更新,都让θ逐渐接近,让损失最小的那个θ。找到一个分类器,这个分类器可以判断新输入的数据属于哪个类别。精确率表示的是在预测为这个类别中,实际为这个类别的数量。每一行是一个样本,每一列是一个特征,最后一列是y值。计算当前模型对于全部训练数据集的损失,然后用。召回率表示的是这个类别中,预测正确的有多少。到它们背后的规律 (称为回归方程)X轴:负例样本中,预测成正例的比例。Y轴:正例样本中,预测成正例的比例。
2024-04-24 13:35:07
252
原创 leetcode_二叉树
满二叉树:深度为k,有个节点的二叉树完全二叉树:除了最后一层,每层的节点数量是二叉搜索树:左子树的值小于根节点,右子树的值大于根节点平衡二叉搜索树:左右子树的高度差不超过1。
2024-04-19 11:42:54
345
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人