自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(94)
  • 收藏
  • 关注

原创 学习记录aigc

大模型中的位置编码ALiBi,RoPE的总结和实现_alibi位置编码-CSDN博客。

2025-06-06 10:59:55 481

原创 AIGC-SD9、知识点

Rectified Flow 原理简介与示例代码解读-CSDN博客。

2025-06-05 14:51:39 1241

原创 AIGC-SD8、AIGC知识点

AI绘画基础:介绍一下OFT(Orthogonal-Finetuning)微调技术Stable Diffusion 3的Text Encoder有哪些改进?Sora的最新功能有哪些?Sora支持哪几种多模态输入?LayerNorm有什么作用?不同模态的数据如何进行Token化操作?介绍一下机器学习中的Huber-Loss损失函数介绍一下机器学习中不同聚类算法的性能特点AI服务的Python代码用PyTorch框架重写优化的过程中,有哪些方法论和注意点?

2025-06-05 14:50:18 567

原创 AIGC-SD7、AI视频生成

1、一句话亮点:当文本-视频生成也不需要额外数据训练,只需要基于现有的diffusion-model 如Stable Diffusion能力调整即可实现,解决生成视频帧间不一致问题,是不是很心动2、FateZero: 融合注意力机制的Zero-shot 高质量视频编辑。

2025-06-05 14:49:31 294

原创 AIGC-SD6、AIGC-3D

一句话总结:提供了一种两阶段优化方案:一阶段基于输入图片,通过神经辐射场及扩散模型,生成全新其他视角的图像。二阶段将粗模转化成含有精细纹理点云模型,同时解决噪声点云的引入问题。

2025-06-05 14:48:21 219

原创 AIGC-SD5、高效微调

虽然 LoRA 具有参数的高效性 parameter-efficient, ,但它存在两个主要问题:首先,LoRA 文件的大小是固定的,在训练后无法修改,如果我们需要更改其中的 Rank 秩数,那么只能从头开始训练,在训练过程中调整 Rank 秩数然后再次生成新的模型。DyLoRA 可以同时学习低于你指定的 Rank 的各个 Rank 的 LoRA,这便导致训练好的 DyLoRA 模型文件的 Rank 是可轻易调整的,因此当你想要选择最佳 Rank 秩时它非常有用且高效。最初的 LoRA 在提出时是针对。

2025-06-05 14:46:57 812

原创 AIGC-SD4、aigc前沿算法

暂无。

2025-06-05 14:45:32 120

原创 AIGC-SD3、控制

本文提出一种两阶段多概念生成方法 OMG,一阶段先不用特定概念信息生成一张垫图,确定构图布局,然后提取垫图全面的视觉信息(mask 和 attention map),二阶段将各角色的特定概念信息作用于对应的 mask 区域,避免信息泄露,属性错乱,并复用一阶段的 attention map,维持构图布局不变。controlnet基于深度图生图的效果很好,但需要精确的深度图(这本身就是有挑战性的),为此,作者提出了loose control,一种通用版本(更松散的)的深度图控制。(a)默认奖励微调策略管道。

2025-06-05 14:44:33 814

原创 AIGC-SD2、一致性

风格特定块的特征注入:InstantStyle将参考图像的特征专门注入到风格特定的块中,避免了风格泄漏,并省去了繁琐的权重调整过程,这一点在参数更重的设计中尤为突出。预训练的ControlNet也可用于布局控制生成。PhotoMaker是一个文本到图像的生成方法,它接收多个输入ID图像(Identity Images),并生成一个基于文本提示的新图像,同时保留输入ID的特征。延续 IP-Adapter 思路,只需要一张参考图即可直接生成和参考图风格相似的图,不需要依赖于复杂的配对数据集或者额外的模块。

2025-06-05 14:43:15 676

原创 AIGC-SD1、原版SD

ADD是两个损失函数来进行蒸馏的,第一个是Adversarial loss(对抗损失),用了一个Discriminator(判别器)来判断生成图片跟真实图片的区别,同时避免其他蒸馏方法中出现的模糊和其他人造的感觉。SDXL-Turbo的两个loss的ADD方案,一个去确保生成质量(Adversarial loss,GAN的核心思想),一个去确保跟原模型的一致性(Distillation loss)使用了几个简单但是非常有效的训练技巧,包括图像尺寸条件化策略,图像裁剪参数条件化以及多尺度训练等。

2025-06-05 14:42:13 937

原创 多模态大模型3、推理

无非是将V1计算逻辑中的内外循环相互交换,以此减少在shared memory上的读写次数,实现进一步提速。那当你交换了循环位置之后,在。层面就可以配套做一些并行计算优化。这就是V2的整体内容。图解Mixtral 8 * 7b推理优化原理与源码实现。

2025-06-05 14:41:03 194

原创 多模态大模型2、大模型训练

当前主流大模型使用的Normalization主要有三类,分别是Layer Norm,RMS Norm,以及Deep Norm。

2025-06-05 14:33:20 290

原创 多模态大模型1、概览与前置任务

tokenizer原理与算法:BPE,ByteBPE, wordpiece,unilm,sentence-piece。tokenizer训练:sentence-piece。典型的transformer架构。

2025-06-05 14:31:31 397

原创 知乎好文汇总

https://zhuanlan.zhihu.com/p/9613363595

2025-06-05 14:29:51 78

原创 CogVLM2报错

transformers 版本问题。

2024-12-27 14:37:34 243

原创 LLM推理需要占用多少显存

搬运:AI开发者de频道:专题文章显示

2024-07-19 21:58:39 202 1

原创 KeyError: ‘dinov2‘

【代码】KeyError: ‘dinov2‘

2024-03-25 19:30:54 502

原创 1、Pandas 数据结构:从 Series 到 DataFrame

DataFrame 是 Pandas 中的二维表格型数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame 既有行索引也有列索引,它可以被看作是由 Series 组成的字典。Series 是 Pandas 中的一维数组形式的数据结构,它可以包含任何数据类型(整数、字符串、浮点数、Python对象等)。Series 基本上可以被视作一个定长的有序字典,因为它是索引值到数据值的一个映射。可以是字典、ndarray、Series 或另一个 DataFrame。

2024-01-22 11:12:06 1080

原创 Numpy系列文章

1、NumPy简介:开启Python科学计算之旅2、NumPy ndarray:多维数组对象基础3、Numpy中的通用函数4、ndarray排序、搜索和计数函数5、NumPy 高级索引和切片6、Numpy形状操纵7、Numpy数组堆叠8、Numpy数组拆分9、Numpy视图与拷贝10、Numpy广播机制11、NumPy 花式索引与索引技巧

2024-01-22 10:36:40 604

原创 8、VAE:变分自编码器

VAE它本质上就是在我们常规的自编码器的基础上,对encoder的结果(在VAE中对应着计算均值的网络)加上了“高斯噪声”,使得结果decoder能够对噪声有鲁棒性;而那个额外的KL loss(目的是让均值为0,方差为1),事实上就是相当于对encoder的一个正则项,希望encoder出来的东西均有零均值。那另外一个encoder(对应着计算方差的网络)的作用呢?它是用来动态调节噪声的强度的。

2024-01-21 16:16:24 2826

原创 11、NumPy 花式索引与索引技巧

花式索引是指使用整数数组作为索引来访问数组中的元素。这种方式与基本的索引不同,它允许我们一次性获取数组中不连续的多个元素。花式索引也适用于二维数组,可以一次性访问数组中的多行、多列或多个不连续的元素。布尔索引允许我们使用布尔数组作为索引来选择数组中满足特定条件的元素。我们可以组合使用基本切片和花式索引来实现更复杂的数据选择。函数可以帮助我们使用花式索引来选择多维数组中的特定区域。NumPy 还提供了更多索引技巧,使数组操作更加灵活。

2024-01-21 15:11:35 1425

原创 10、Numpy广播机制

NumPy 的广播机制允许我们在不同形状的数组之间执行这些运算,而无需手动调整它们的尺寸。

2024-01-21 14:54:09 615

原创 9、Numpy视图与拷贝

NumPy 中的视图、浅拷贝和深拷贝提供了不同级别的数据复制和引用机制。视图(类似于浅拷贝)允许您在不复制数据的情况下,对数组的子集进行操作;而深拷贝确保原始数据的完整独立性,允许您在保留原始数据的同时进行操作。

2024-01-20 19:16:48 654

原创 8、Numpy数组拆分

数组拆分允许我们根据指定的索引位置或者等份分割的方式将一个数组分解为多个子数组。主要使用的函数是和,以及它们的等价函数。函数可以按指定的索引位置对数组进行分割,它接受一个数组和一个分割点列表作为参数,并返回一个包含分割后子数组的列表。用于沿数组的水平轴拆分数组,它是np.split的特殊情况,适用于二维数组。用于沿数组的垂直轴拆分数组,它也是np.split的特殊情况。允许进行不等分拆分,即子数组大小可以不一致。

2024-01-20 18:59:13 1451

原创 7、Numpy数组堆叠

np.hstack。

2024-01-19 21:29:18 899

原创 6、Numpy形状操纵

在上述代码中,我们将一个 1x3x1 的三维数组压缩成了一个 3x1 的二维数组。这种技术常用于将一维数组转换为列向量或行向量,以符合某些算法的输入要求。这将创建一个新的 2x3 数组,其中原始数组的元素被复制以填充新数组。方法用于从数组的形状中去除单维度的条目,即那些大小为 1 的维度。,但它可以改变数组的大小。可以在数组中增加一个新的轴,也就是增加一个维度。,让 NumPy 自动计算这个维度的大小。会重复数组中的数据以填充新数组。来匹配原始数组的总大小。总是返回一个新的数组,而。

2024-01-19 21:17:50 562

原创 5、NumPy 高级索引和切片

切片操作允许访问数组的子集。在 NumPy 中,可以对多维数组进行切片,就像处理一维数组一样简单。这里首先选择了第0行和第2行,然后在每一行上取第1列和第3列(由于步长为2,所以只取到了第3列)在多维数组中,可以使用整数列表或数组来进行索引。布尔型索引允许我们根据条件选取数组中的元素。在实践中,可以组合使用切片与高级索引以实现更复杂的操作。在多维数组中,可以使用元组形式的索引来选择特定的子区域。这里选择了第1至第2行和第1至第2列的子矩阵。将按照给定的顺序重新排列数组的行。将包含第0行和第2行的内容。

2024-01-18 13:33:14 696

原创 7、DETR:基于Transformer的端到端目标检测

尽管在速度上可能不如一些专门为实时应用设计的检测模型,DETR的架构为未来的研究和应用提供了一个有趣的新方向。包括编码器和解码器。,可以发现,不同于Faster RCNN, RetinaNet等方法在特征的每个像素上构建稠密的anchor不同,detr只用少量稀疏的anchor(object queries)做预测,这也启发了后续的一系列工作。:DETR彻底改变了目标检测的传统流程,实现了真正的端到端训练,将图像特征提取、目标定位和分类任务全部整合在Transformer中,提升了模型的整体优化效果。

2024-01-18 13:16:15 1191

原创 conda:Collecting package metadata (current_repodata.json): failed

【代码】Collecting package metadata (current_repodata.json): failed。

2024-01-17 17:37:46 807

原创 4、Numpy排序、搜索和计数函数

numpy其余常用函数参考:3、Numpy中的通用函数-CSDN博客在 NumPy 中,通用函数(通常称为ufunc)是一种对 ndarray 中的数据执行元素级运算的函数。这些函数是高度优化的、快速的向量化包装器,提供了简单的方法对数组中的所有元素执行相同的操作,而不需要编写循环语句。

2024-01-17 11:11:04 2052

原创 3、Numpy中的通用函数

在 NumPy 中,通用函数(通常称为ufunc)是一种对 ndarray 中的数据执行元素级运算的函数。这些函数是高度优化的、快速的向量化包装器,提供了简单的方法对数组中的所有元素执行相同的操作,而不需要编写循环语句。

2024-01-17 10:07:39 1332

原创 linux设置定时任务

Cron任务运行时,默认环境与登录shell有所不同,可能缺少某些环境变量。注意,对于一些高级需求,可能还需要考虑anacron(用于非一直开机的系统上运行定时任务)或其他定时任务解决方案,但cron是Linux中最常用的基础定时调度工具。在Linux系统中设置定时任务通常使用的是Cron服务。: 在编辑器中,按照特定格式定义你的定时任务。这将使用默认文本编辑器打开当前用户的crontab文件。设置了接收cron任务执行结果的邮箱地址;示例:如果想要在每天的凌晨3点执行。)会自动检测和执行计划任务。

2024-01-16 21:09:36 634

原创 2、NumPy ndarray:多维数组对象基础

NumPy 的ndarray是一个多维数组对象,它支持快速的、向量化的数组操作。与 Python 原生的列表相比,ndarray提供了更加丰富的操作和更高效的存储。核心特性同质性ndarray中的所有元素必须是相同数据类型。多维性:可以是任意维度的数据结构,如向量(1维)、矩阵(2维)或更高维数据。高效性:NumPy 在内存中使用连续块存储数据,优化了缓存的使用,提高了计算性能。

2024-01-16 11:34:21 808

原创 6、CLIP:连接文本和视觉世界的预训练模型

一下引自神器CLIP:连接文本和图像,打造可迁移的视觉模型 - 知乎在计算机视觉领域,最常采用的迁移学习方式就是先在一个较大规模的数据集如ImageNet上预训练,然后在具体的下游任务上再进行微调。这里的预训练是基于有监督训练的,需要大量的数据标注,因此成本较高。近年来,出现了一些基于自监督的方法,这包括基于对比学习的方法如MoCo和SimCLR,和基于图像掩码的方法如MAE和BeiT,自监督方法的好处是不再需要标注。

2024-01-16 08:00:00 4067

原创 Python 格式化输出:精确控制你的数据表示

在编程语言中,格式化输出是一个非常重要的功能,它允许程序员以可读和美观的方式展示信息。Python 提供了多种方法来格式化字符串,控制数据的显示方式。Python 中的格式化输出,主要包括旧式的格式化、方法和 f-string。

2024-01-15 11:16:26 782

原创 1、NumPy简介:开启Python科学计算之旅

NumPy 是一个强大的 Python 库,用于处理多维数组对象和矩阵。它提供了大量的数学函数来操作这些数组。因为它提供了一个高性能的多维数组对象和工具来处理这些数组,所以它成为了科学计算中最关键的库之一。

2024-01-15 10:32:07 681

原创 3、Linux中合并两个文件

注意:这些命令适用于文本文件。对于二进制文件,应使用专门的工具或考虑文件格式来决定如何合并。如果仅需要合并两个文件的部分内容(如前几行或后几行),可以使用。的内容按顺序合并,并将合并后的内容重定向到。

2024-01-14 09:54:52 1081

原创 2、合并两张图像

使用一个函数实现两张图像合并,通过参数指定合并方式(水平或垂直或加权)。

2024-01-14 09:42:14 881

原创 linux系统的大致文件结构

引导加载器文件:包含Linux启动时使用的文件,例如内核映像(vmlinuz),引导加载器配置(如GRUB),initrd等。- 进程信息:一个虚拟的文件系统,包含当前运行进程的信息,以及内核和系统状态的实时信息。- 变量文件:包含自最后一次启动以来经常变化的文件,例如日志文件、邮件、打印作业等。- 可选的应用程序软件包:通常用于存储第三方和可选的软件应用程序和数据。- 服务数据:包含服务相关的数据,例如web服务器和FTP服务器的数据。- 系统库文件:包含系统运行所需的库文件。

2024-01-13 19:20:42 477

原创 tar命令使用

tar命令在Linux中进行文件的解压缩和压缩操作。

2024-01-13 18:59:56 1324

hash-weights-str.txt

hash-weights-str.txt

2025-06-05

视频去重hash-funcs-str.txt

视频去重hash-funcs-str.txt

2025-06-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除