- 博客(37)
- 收藏
- 关注
原创 从零学习大模型(十四)-----量化(二)
权重量化:量化神经网络中的权重,主要减小存储占用和加速计算。激活量化:量化激活值,减少内存占用并加速推理过程。梯度量化:量化训练过程中的梯度,优化训练效率,尤其是在分布式训练中。每种方法都有其适用场景和挑战,通常在实际应用中,多个量化方法会结合使用,以在不同的硬件环境下达到最优的精度和性能平衡。离线量化(PTQ):简单且高效,适用于已经训练好的模型,通过校准数据集选择量化参数以减少精度损失。量化感知训练(QAT):通过模拟量化误差,并在训练过程中优化网络以适应低精度计算,通常能获得较高的精度。
2024-11-05 15:57:51
1116
原创 从零学习大模型(十四)-----量化(一)
量化(Quantization)是一种在计算机科学和深度学习中广泛应用的技术,其基本目标是通过减少模型中数值表示的位宽来降低计算和存储成本。简单来说,量化就是将高精度(通常是浮点数)转换为低精度(通常是定点数)表示,同时尽量保持模型的性能和准确性。量化通常用于深度学习模型(尤其是大模型)中,以减小模型的存储空间和提高推理速度。量化不仅可以减少模型的内存占用,还能提高硬件的计算效率,尤其是在低功耗设备(如移动端、嵌入式系统、边缘计算设备)上。范围选择:确定量化数据的最小值和最大值,从而决定数据的量化范围。
2024-11-05 15:56:29
1789
原创 从零学习大模型(十三)-----LayerDrop 和 Layer Pruning
LayerDrop 和 Layer Pruning 都是神经网络模型简化技术,目的是通过减少网络中的层数来提高效率和降低计算开销,但它们在实现方法上有所不同。
2024-11-04 20:11:19
1121
原创 从零学习大模型(十二)-----基于梯度的重要性剪枝(Gradient-based Pruning)
权重重要性通常指的是某个权重参数在模型输出中的影响程度。绝对值:一个常见的方法是直接使用权重的绝对值作为其重要性指标。权重越大,表示其对模型输出的影响越大,因此可以认为其重要性越高。对模型性能的影响:通过在剪枝前后比较模型的性能,可以间接评估某个权重的重要性。若剪除某个权重后,模型性能显著下降,则说明该权重是重要的。
2024-11-04 20:09:20
1653
原创 从零学习大模型(十一)-----Lottery Ticket Hypothesis剪枝
Lottery Ticket Hypothesis(LTH)是由 Frankle 和 Carbin 在 2019 年提出的一种剪枝方法,其核心思想是神经网络中存在可以单独训练的小型子网络(即"中奖票"),这些子网络可以在保持原始模型性能的情况下有效地训练。通过找到这些子网络,我们可以实现大模型的剪枝,从而减少模型的计算复杂度和存储需求。
2024-10-30 20:37:20
1242
原创 从零学习大模型(十)-----剪枝基本概念
Transformer层剪枝的核心思想是评估每个层、注意力头或权重对模型性能的重要性,然后根据评估结果去掉那些对模型性能贡献较小的部分。Transformer层剪枝是一种针对Transformer模型(如BERT、GPT等)中的自注意力模块和前馈网络进行剪枝的方法,旨在减少模型的参数量和计算开销。在这种方法中,模型的剪枝对象通常是具有特定结构的部分,例如卷积神经网络中的整个滤波器或通道,而不是单个权重参数。非结构化剪枝是一种精细化的剪枝方法,通过移除神经网络中的单个权重连接来减少模型的参数数量。
2024-10-30 20:36:14
1174
2
原创 从零学习大模型(九)-----P-Tuning(下)
P-Tuning是一种参数高效的微调方法,旨在通过引入可学习的提示(Prompt)来改进预训练语言模型在特定任务中的表现。与传统的全参数微调相比,P-Tuning 只需要微调少量的额外参数,使得模型在执行任务时更加高效,并且能够适应多种下游任务。在 P-Tuning 中,提示(Prompt)是一些附加到输入上的可学习向量,这些向量作为模型的输入,帮助调整模型的行为。通过对这些可学习提示进行训练,模型可以在特定任务上获得较好的表现,而不需要对原有的大量模型参数进行更新。
2024-10-29 20:40:06
1133
原创 从零学习大模型(八)-----P-Tuning(上)
P-Tuning是一种参数高效的微调方法,旨在通过引入可学习的提示(Prompt)来改进预训练语言模型在特定任务中的表现。与传统的全参数微调相比,P-Tuning 只需要微调少量的额外参数,使得模型在执行任务时更加高效,并且能够适应多种下游任务。在 P-Tuning 中,提示(Prompt)是一些附加到输入上的可学习向量,这些向量作为模型的输入,帮助调整模型的行为。通过对这些可学习提示进行训练,模型可以在特定任务上获得较好的表现,而不需要对原有的大量模型参数进行更新。
2024-10-29 20:38:44
1236
原创 从零学习大模型(七)-----LoRA(下)
LoRA(Low-Rank Adaptation)是一种参数高效的微调技术,旨在降低微调大规模预训练模型的存储和计算成本。**其核心思想是通过对模型的特定参数进行低秩分解,仅对少量附加参数进行训练,从而完成任务适应,而无需更新整个模型的权重。**这种方法通过引入额外的低秩矩阵来适应新的任务,保持了预训练模型的核心知识,使其更具灵活性和高效性。
2024-10-25 16:02:40
1715
原创 从零学习大模型(七)-----LoRA(中)
LoRA(Low-Rank Adaptation)是一种参数高效的微调技术,旨在降低微调大规模预训练模型的存储和计算成本。**其核心思想是通过对模型的特定参数进行低秩分解,仅对少量附加参数进行训练,从而完成任务适应,而无需更新整个模型的权重。**这种方法通过引入额外的低秩矩阵来适应新的任务,保持了预训练模型的核心知识,使其更具灵活性和高效性。
2024-10-25 15:59:33
1311
原创 从零学习大模型(六)-----LoRA(上)
在大规模语言模型的实际应用中,微调需要耗费巨大的计算资源和内存,因为要微调整个模型的参数(通常有数十亿甚至数千亿个参数)。**LoRA通过只训练新增的低秩矩阵,使得训练过程变得更加轻量**,同时减少了存储需求。这在许多硬件资源受限的场景中尤为有用。
2024-10-24 20:25:56
854
原创 从零学习大模型(五)-----提示学习(Prompt Engineering)
提示学习是一种通过向大型语言模型(如GPT-3、GPT-4)提供清晰明确的提示(Prompt),以期望获得特定输出的技术。提示可以理解为指令或问题,模型基于这些提示来产生回应或完成任务。这种方法使得模型在不需要完全重新训练的情况下,通过输入设计引导模型行为,解决不同的任务。
2024-10-24 20:23:54
2408
1
原创 从零学习大模型(三)-----GPT3(下)
可逆标记化的目标是将文本分解成标记(token)以供模型处理,同时保持信息的完整性,使得标记化后的数据在反向操作(去标记化)时能够还原为原始文本。这意味着,标记化和去标记化是可逆的过程,可以实现无损的数据还原。在自然语言处理中,文本通常需要转换为可以由模型处理的形式(例如标记索引),这就需要将原始的自然语言转化为标记。一般的标记化过程可能会导致部分信息的丢失,比如去掉标点符号、合并相似的单词等,而可逆标记化则确保即使经过标记化处理,原文本也能精确地被还原。梯度噪声规模的概念。
2024-10-22 19:34:22
1263
原创 从零学习大模型(四)-----代码实现交替的稠密与本地稀疏注意力模式
【代码】从零学习大模型(四)-----代码实现交替的稠密与本地稀疏注意力模式。
2024-10-22 19:31:18
192
原创 从零学习大模型(一)-----GPT3(上)
GPT-3(Generative Pre-trained Transformer 3)是一种大型自回归语言模型,由OpenAI团队训练和发布。GPT-3 拥有1750亿个参数,是当时发布的最大的非稀疏(non-sparse)语言模型之一。其参数规模是前一代模型(如GPT-2)的10倍以上。GPT-3的目标是通过大规模的参数量和广泛的预训练来实现对多种语言任务的few-shot学习,即通过少量示例而无需额外的任务特定训练或微调来完成下游任务。
2024-10-21 20:48:15
2381
原创 LLAMA2入门(三)-----微调
在 Llama 2 的监督微调(Supervised Fine-Tuning, SFT)阶段,研究团队对模型进行了进一步的调优,以提升其生成对话和其他任务的表现。以下是 SFT 过程的详细讲解:
2024-10-20 13:47:24
1546
原创 LLAMA2入门(二)-----Transformer基础知识
学习LLAMA2的时候,你先要知道关于transformer的基础知识哦,应为它的基本模型就是transformer
2024-10-20 13:43:25
947
原创 LLAMA2入门(一)-----预训练
Llama 2 是预训练和微调的LLM系列,Llama 2 和 Llama 2-Chat 模型的参数规模达到 70B。Llama 2-Chat 模型专门为对话场景进行了优化。这是一个系列的文章,会分别从LLAMA2的预训练,微调,安全性等方面进行讲解。
2024-10-19 15:30:39
1047
1
原创 人工智能顶会CVPR2022《革新AI预训练:探索KDEP及其在知识蒸馏中的破局之道》论文解读
KDEP(Knowledge Distillation as Efficient Pre-training)在论文 “Knowledge Distillation as Efficient Pre-training” 中提出,主要聚焦于通过知识蒸馏实现高效的模型预训练。
2023-12-25 15:08:53
1145
1
原创 CVPR2022《Improving the Transferability of Targeted Adversarial Examples through Object-Based》论文解读
高度可移动的对抗性示例意味着针对一个模型制作的示例很可能也会成功地攻击另一个模型,即使这些模型有不同的架构或使用不同的数据集进行训练。因此,提高对抗性示例的可移动性对于评估人工智能系统在多变和不可预测的实际环境中的鲁棒性至关重要。总结来说,尽管以往的研究在提高对抗样本的迁移性方面取得了一定进展,但仍存在对特定模型过度优化、实际应用的复杂性和效率问题等局限性。通过这些步骤,ODI方法能够在不同的渲染环境中(包括不同的照明和视角)有效地提高目标对抗性示例的迁移性。作为最终的对抗性示例。难以抵御的对抗性示例。
2023-12-19 16:50:46
1326
1
原创 人工智能顶会CVPR2022《Adversarial Texture for Fooling Person Detectors in the Physical World》论文解读
这项研究的背景建立在对抗性攻击的概念上,这种攻击通过修改输入数据来误导机器学习模型。人体检测系统在安全监控、自动驾驶汽车等领域中至关重要,因此研究其潜在的脆弱性对于提高这些系统的鲁棒性和安全性至关重要。论文通过实际测试证明了对抗性纹理在物理世界中对人体检测器的欺骗效果,这不仅对理论研究有重要意义,也为实际应用中的安全措施提供了重要见解。
2023-12-14 15:58:16
1593
1
原创 人工智能顶会CVPR2022《Few Shot Generative Model Adaption via Relaxed Spatial Structural Alignment》论文解读
本文提出了一种新的少样本生成模型适应方法——放松空间结构对齐(Relaxed Spatial Structural Alignment, RSSA)。通过跨域空间结构一致性损失对源域和目标域的生成分布进行对齐,能够很好地保留和传递源域图像的固有结构信息和空间变化趋势到目标域。此外,原始潜在空间被压缩到接近目标域的狭窄子空间,这放松了跨域对齐并加速了目标域生成器的收敛速度。论文还设计了一个新的度量标准——结构一致性评分(SCS),用以评估生成图像的结构质量,可以作为当前少样本生成场景中度量标准的一个补充。
2023-12-13 21:00:13
1419
1
原创 人工智能顶会ECCV2022《Watermark Vaccine: Adversarial Attacks to Prevent Watermark Removal》论文解读
论文方法的局限性水印尺寸和透明度:实验表明,水印尺寸变大或水印的透明度参数α\alphaα变大时,DWV和IWV的保护效果会下降。这意味着水印疫苗的性能在一定程度上取决于水印变化∥w∥∥w∥的大小,更好的保护效果依赖于较小的∥w∥∥w∥变化。版权所有者的挑战:版权所有者需要在水印的大小和透明度之间做出选择,以便既便于版权识别又能有效保护水印。大尺寸和低透明度水印有助于版权识别,而小尺寸和高透明度水印则更有利于保护水印疫苗。
2023-12-12 20:16:39
1959
2
原创 人工智能顶会ICCV2021《On the Robustness of Vision Transformers to Adversarial Examples》论文解读
ViTs的安全性与传统CNNs相当:研究发现,尽管ViTs在图像处理任务中表现出色,但它们在白盒攻击条件下的安全性并不优于传统的卷积神经网络(CNNs)。这表明ViTs在对抗性攻击下同样易受攻击,特别是在面对强大的白盒攻击时。对抗性样本的低可转移性:论文中的实验显示,ViTs与其他非变换器模型(如CNNs)之间的对抗性样本可转移性出奇地低。这表明在一定程度上,ViTs对某些特定类型的攻击具有天然的防御优势。自注意力梯度攻击(SAGA)的提出:这篇论文提出了一种新型的白盒攻击方法——SAGA。
2023-12-11 19:28:06
1487
原创 人工智能顶会CVPR2023《揭秘对抗性示例中的因果特征:提升深度神经网络鲁棒性的新途径》论文解读
内生性问题与工具变量(IV)方法论文针对深度学习模型中的内生性问题提出了工具变量方法。作者利用对抗性扰动作为工具变量,帮助揭示输入特征对模型输出的真实影响。因果特征的识别和应用通过分析对抗性扰动对模型输出的影响,论文成功识别了对模型预测产生重要影响的因果特征。作者进一步将这些因果特征注入到防御网络中,以提高对抗性鲁棒性。非参数IV回归与AMR-GMM框架论文采用非参数IV回归方法,结合广义矩估计(GMM)和对抗性矩限制(AMR),形成了一个强大的分析框架。这一框架用于从数据中提取和理解因果关系。
2023-12-09 14:23:57
2084
原创 人工智能顶会ICLR2023《Re-calibrating Feature Attributions for Model Interpretation》论文解读
特征归因方法(Feature Attribution Methods)是用于解释机器学习模型,特别是深度学习模型决策过程的一类技术。这些方法的核心目的是确定输入特征对模型输出的贡献程度,以便理解模型是如何基于不同的输入特征做出预测的。特征归因方法的工作原理:关联输入与输出:它们通过分析输入特征和模型输出之间的关系来工作。这涉及评估哪些输入特征对模型做出特定决策(如分类或回归)具有最大的影响。归因分数:方法通常为每个输入特征分配一个“归因分数”,表明该特征对模型做出特定预测的重要性。可视化解释。
2023-12-08 19:47:12
1590
原创 人工智能顶会ICLR2023《Is Conditional Generative Modeling all you need for Decision Making?》论文解读
探索条件生成建模在顺序决策制定中的应用,特别是在离线强化学习的环境下。作者认为,通过使用条件生成模型(如扩散模型),可以绕过传统离线强化学习中的复杂动态规划过程,并解决价值函数估计的不稳定性等问题。**论文的创新点**在于提出了一种名为**“决策扩散器”(Decision Diffuser)的框架**,它使用条件扩散模型来进行决策生成。这种方法不仅可以最大化回报,还可以灵活地结合多种约束和技能,以产生新的行为。这种方法在实验中显示出优于传统方法的性能,展示了条件生成模型在决策制定中的潜力。
2023-12-07 20:48:54
2548
1
原创 人工智能顶会CVPR2023《The Resource Problem of Using Linear Layer Leakage Attack in Federated Learning》论文解读
作者强调了之前工作在开发针对安全聚合联邦学习(FL)的隐私攻击时存在的根本性问题。以往的攻击将聚合更新视为单个大批量的更新,导致客户端产生不必要的资源开销。通过将聚合更新视为多个客户端更新的聚合,作者提出了使用参数稀疏性的方法,这在降低模型尺寸(达到327倍)和计算时间(降低了3.3倍)方面相比于当前最佳技术(State of the Art, SOTA)取得了显著的优势,同时在安全聚合环境下保持了相同的数据泄露率。
2023-12-05 22:07:38
1527
1
原创 人工智能顶会 ICLR 2023《Is Adversarial Training Really a Silver Bullet for Mitigating Data Poisoning?》论文解读
在应用EntF-push攻击时,通过添加扰动,狗的图像在特征空间中被推离原本狗类别的中心点,使得模型难以从这些扰动的图像中学习到区分狗和猫的有效特征。在EntF攻击中,这些中心点用于指导扰动的添加,目的是使得训练样本在特征空间中离开(EntF-push)或靠近(EntF-pull)这些中心点,从而破坏模型的学习过程。通过这种方法,EntF策略有效地降低了模型在未受攻击的测试数据上的准确性,因为模型无法从被纠缠的训练数据中学习到区分不同类别的有效特征。:对于每个类别,计算其所有样本的潜在特征表示的平均值。
2023-12-04 15:03:27
1624
原创 人工智能顶会ICLR2023《Revisiting adapters with adversarial training》论文解读
总结本研究提供了对适配器与对抗性训练结合使用的新见解,特别是在Vision Transformer (ViT) 模型中实现了显著的性能提升。实验结果显示,即使是非常少量的双参数适配器也足以适应干净和对抗性图像,这表明我们不必分离正则化层就能复制AdvProp的效果。通过使用两个分类标记作为适配器,增加了768个额外参数,实现了在ImageNet上83.56%的干净准确率,以及在鲁棒模式下49.87%的鲁棒准确率,这表明这种方法是在提升模型性能的同时增强其抵抗对抗性攻击的有效策略。权重的共同训练损失。
2023-12-03 14:53:31
1902
1
原创 突破学习的界限:类增量学习中稳定性与可塑性的新探索------CVPR2023论文解读
关于类增量学习方法的评估:作者对现有的类增量学习(CIL)方法进行了评估,发现许多方法过分专注于减轻灾难性遗忘,以至于在初始训练阶段(D0)之后,特征提取器很少学习到任何新概念。引入新算法:基于这一观察,作者引入了两种简单的算法——Exploit和Partial-DER(pDER),旨在改进现有的算法并利用标准CIL评估指标的缺陷。未来研究方向:作者希望他们的发现能促进CIL研究更多地关注于强化特征表示的持续学习。这些结论强调了在类增量学习研究中,特征表示的可塑性和持续学习能力的重要性。
2023-12-02 21:07:13
2972
1
原创 顶会 ICLR2023论文《AutoFreeze: Automatically Freezing Model Blocks to Accelerate Fine-tuning》解读
微调预训练模型已成为开发新任务机器学习模型的一种流行且准确的方法。然而,在微调过程中存在一些性能挑战。为了解决这些挑战,本文提出了AutoFreeze,这是一种在微调期间自适应地冻结接近收敛部分的模型的方案。使用AutoFreeze进行NLP任务的微调可以在单GPU上实现高达2.55倍的速度提升,在64GPU集群上可达4.38倍,同时不影响准确度。虽然本文主要关注BERT模型,由于其在机器学习领域的普及和重要性,但作者们计划研究类似的方法是否也能在如图像分类或语音识别等其他领域中帮助提高性能。
2023-11-30 20:54:30
1606
1
原创 《StyLess: Boosting the Transferability of Adversarial Examples》论文解读
对抗样本具有迁移性,所以可以攻击不知道结构和参数的model限制对抗样本迁移性的原因:现在的transferable attack在优化过程中没有区分style和content特征我们提出了我们使用stylized networks作为,通过扰动自适应实例规范化来编码不同的风格特征。surrogate model(替代模型):通常是已知且可访问的深度神经网络模型,攻击者使用这个模型来生成对抗性扰动或样本。然后利用它们去攻击其它的黑箱模型。本文的方法可以防止使用。
2023-11-28 21:32:52
1090
原创 《Improving adversarial robustness via channel-wise activation suppressing》详细解读
本文从的方面发现了对抗样本具有如下特征:1.对抗样本的activation magnitudes高于自然样本。2.对抗样本比样本更能uniformly的activate channel。在我们的研究中,发现对抗训练解决了第一个问题**本文的想法:**基于Channel-wise Activation Suppressing (CAS)的方法压缩冗余的激活。
2023-11-26 16:17:12
1101
1
原创 《Reinforcement Learning-Based Black-Box Model Inversion Attacks》详细解读
什么是Inversion attack?Inversion attack是一种隐私攻击,仅通过访问模型来重建用于训练机器学习模型的私有数据。利用GAN从公用数据中提取知识然后进行白盒模型的inversion attack效果很好。利用GAN在黑盒模型中进行inversion attack的攻击无法保证在有限的查询次数内完成攻击,而且效果不如白盒攻击。为了克制上述问题:本文提出了一种基于强化学习的黑盒inversion attack。
2023-11-24 16:43:11
1199
1
原创 Swin Transformer论文解读
Swin Transformer是一种新型的神经网络架构,专为处理视觉任务设计。它的出现标志着从传统的卷积神经网络(CNN)到基于Transformer的模型在计算机视觉领域的重要转变。这种转变源于Transformer模型在自然语言处理(NLP)领域取得的巨大成功,尤其是在序列建模和长范围依赖捕获方面的优势。Swin transformer是一种新的视觉transformer,它产生层次特征表示,并且对输入图像大小具有线性计算复杂度。
2023-11-20 21:41:13
1195
6
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人