- 博客(8)
- 收藏
- 关注
原创 支持向量机
映射函数的输出相乘并计算内积的原因是,内积是衡量两个向量方向一致性的标准方式。而核函数允许我们在原始空间中直接计算映射后的内积,而无需执行实际的映射操作,这大大减少了计算复杂度。在不知道特征映射的形式时,我们并不知道什么样的核函数是合适的,而核函数也仅是隐式地定义了这个特征空间.于是,"核函数选择"成为支持向量机的最大变数.若核函数的选择不合适,则意味着将样本映射到了一个不合适的特征空间,很可能导致性能不佳。对这样的问题,可以将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。
2024-07-05 18:33:21
376
原创 LLMBooks 第九章 解码与部署
假设输入为“我与父亲不相见已二年余了,我最不能”,大模型的输出为“忘记的是他的背影”,总共要生成 8 个单词(为了讲解方便以单词为基础单位),需要 8 次 迭代的生成过程。以下是实现量化和反量化的简单示例。模型蒸馏(Model Distillation)的目标是将复杂模型(称为教师模型)包含的知识迁移到简单模型(称为学生模型)中,从而实现复杂模型的压缩。模型剪枝(Model Pruning)的目标是,在尽可能不损失模型性能的情况下,努力消减模型的参数数量,最终有效降低模型的显存需求以及算力开销。
2024-07-04 16:06:13
818
原创 机器学习 周志华 第五章 神经网络
感知机(Perceptron)这个名字来源于它模仿人类感知世界的原理。在1950年代末期,由心理学家和神经学家Frank Rosenblatt提出,最初的想法是创建一个能够模拟人类视觉感知的模型。在那个时代,研究者们开始探索如何用机器来模仿人脑的功能,尤其是如何处理和识别视觉信息。感知机的命名灵感来自于它试图模拟生物神经元的工作原理,特别是试图理解视觉信号是如何被大脑处理的。
2024-07-03 11:30:37
927
原创 机器学习 周志华 决策树
在预测时,如果一个样本在属性A上缺失值,它将同样按照20%,30%,50%的权重分别沿a1, a2, a3的分支预测,最终的分类结果是这三种可能结果的加权平均。如果属性A有三个可能的值:a1, a2, a3,且训练数据中这三个值的频率分别是20%,30%,50%,那么缺失值的样本将按照20%,30%,50%的权重分配到a1, a2, a3对应的子节点上。具体来说,对于一个具有缺失值的属性,C4.5算法会假设缺失值可以取该属性的所有可能值,并根据数据集中每种可能值的频率为这些假设值分配权重。
2024-07-03 10:33:26
996
原创 机器学习-周志华第二、三章部分要点:
线性回归的输出是连续的,逻辑回归的输出是概率,表示属于某类别的可能性。线性回归没有明确的决策边界,而逻辑回归在二分类情况下会产生一个明确的决策边界,通常是在概率等于0.5的地方。不失一般性,考虑N个类别, 多分类学习的基本思路是"拆解法",即将多分类任务拆为若干个二分类任务求解.具体来说,先对问题进行拆分,然后为拆出的每个二分类任务训练一个分类器;在测试时,对这些分类器的预测结果进行集成以获得最终的多分类结果.方差:度量了闰同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。
2024-07-03 01:40:04
178
原创 LLMBook笔记 第七章:指令微调
使用自然语言形式的数据对预训练后的大语言模型进行参数微调。也被叫做有监督微调、多任务提示训练。可以这样理解,对于中译英任务,原始数据集是一行中文输入以及对应的英文输出,为了生成指令化的训练数据,就需要对上述的数据添加任务描述信息,比如“请把这个中文句子翻译成英文“,这样子就可以把一个NLP任务的数据实例通过自然语言形式进行表达。
2024-07-01 17:39:11
441
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人