自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 多模态学习

声音模态的表示:可以通过梅尔频率倒谱系数(MFCCs)、波形图或频谱图等形式表示,声音模态的表示通常涉及音频信号的预处理、特征提取和表示学习等步骤,常用的模型包括深度神经网络(DNN)、卷积神经网络(CNN)和循环神经网络(RNN)等。文本模态的表示:文本模态的表示方法有多种,如独热表示、低维空间表示(如通过神经网络模型学习得到的转换矩阵将单词或字映射到语义空间中)、词袋表示及其衍生出的n-grams词袋表示等。是一种利用多模态数据进行学习的方法,这些数据模态可能包括文本、图像、音频、视频等,通过融合。

2025-06-10 14:03:59 277

原创 YOLOv8模型训练参数调优指南

mAP(平均精度):在不同IoU(交并比)阈值下的平均准确率。,即每秒帧数,实时处理能力。FPS越高,模型处理速度越快,实时性越好。**模型复杂度:**模型参数量、层数和计算量越大,FPS越低。**硬件配置:**CPU/GPU的计算能力、内存带宽和存储速度对FPS有直接影响。**优化算法:**模型训练和部署过程中,如批处理、并行计算和内存管理,可以提升FPS。

2025-06-10 13:55:36 560

原创 卷积神经网络(CNN)循环神经网络(RNN)长短期记忆网络(LSTM)和Transformer

卷积神经网络工作时模拟人认知图像的过程,它由多个卷积层构成,每个卷积层包含多个卷积核,用这些卷积核从左向右、从上往下依次扫描整个图像,得到称为特征图(feature map)的输出数据。网络前面的卷积层捕捉图像局部、细节信息,有小的感受野,即输出图像的每个像素只利用输入图像很小的一个范围。循环神经网络是一种具有记忆力的网络,它可以记忆前边的输入,使得前边的输入n对后边n+1的输出产生影响。同时如果调换输入的顺序,RNN会有一个完全不同的输出,RNN对于输入顺序的变化很敏感,所以,RNN对具有。

2025-06-02 22:41:57 346

原创 图像分类篇学习笔记

SE 模块首先通过全局自适应平均池化将每个通道的特征进行全局压缩,这一步骤提取了全局的空间信息,并将其缩放至 1×1 的特征图(即每个通道的全局平均值)。最终,这些权重被用于调整输入特征图的每个通道,放大重要特征,抑制不重要特征。该卷积层用于对输入图像进行初步的特征提取,通过较大的卷积核和步长,能够快速降低特征图的尺寸,同时增加通道数,为后续的网络层提供更多的特征信息。,将特征图的空间维度压缩为 1x1,只保留通道维度的信息,从而将特征图转换为一个固定长度的特征向量。,使用 3x3 大小的卷积核,

2025-05-24 08:32:52 299

原创 Ollama服务器接口服务配置

图2就是运行 nano ollama.service命令后出现的样子,文件中的有2个环境变量。当你修改了服务文件或其他 systemd 配置文件时,systemd 并不会自动检测到这些更改。用vi或者nano,直接编辑ollama.service,这个文件。图1中要注意的是,ollama.service这个文件的路径,在etc目录前一定要加上“/”增加后好后,按ctrl+s,ctrl+x退出并保存。重启ollama服务。

2024-07-27 17:46:32 764

原创 SVN代码管理教程

二、在本地文件夹右键拉取。输入刚注册的账号密码。

2024-07-15 17:59:13 257

原创 计算机视觉笔记总结

第一十章 机器学习进阶实战 第一十一章 深度学习必备核⼼算法 第一十二章 深度学习框架PyTorch 第一十三章 深度学习框架Tensorflow 第一十四章 Opencv图像处理框架实战。第六章 走向AI论文实验与项目实战的捷径-MMLAB实战系列。第二章 自然语言处理必备神器Huggingface系列实战。第八章 2022论⽂必备-Transformer实战系列。第七章 经典视觉项目实战:行为识别、姿态估计、目标追踪。第十八章 深度学习模型部署与剪枝优化实战。第四章 综合项目-物体检测经典算法实战。

2024-06-13 17:54:17 155

原创 图像分割相关

网络第一层一般都特征提取层、越来越 扁是特征图个数越来越多,越来越矮是hw越来越小,左侧是编码层、将数据做成一个特征。第四层 构建一个训练的样本,实际是哪个类别,跟哪个类别重复值最大,就是哪个类别。NMS:同一个物体上重叠了很多框,非极大值抑制,只保留一个框,可能性最高的。C3D:5*5 -》5*5*5 一次处理5帧的图像 R-》resnet。空洞卷积,将特征图感受野按2n-1扩大,对全局信息处理的更好,288*288生成的还是288*288的特征图。第一个阶段是FPN层,是五个阶段来提取特征的,

2024-06-13 17:24:47 265

原创 数字人视频生成

最后还需要一个wav2lip的工具,来匹配嘴型-wav2lip。roop用来换脸,基础图像就模型生成的。准备文件:带人脸的图或视频;

2024-06-12 10:38:38 264

原创 Comfyui api图生图

三、修改api.py router.py index.html。允许上传base64格式的图片和url格式的图片。一、comfyui添加图片上传节点。二、重启comfyui。

2024-06-07 17:23:29 1310

原创 comfyui api开启并显示在页面上

一、下载comfyui(ComfyUI_windows_portable)新建static文件夹,在该文件夹下新建index.html。双击run_nvidia_gpu.bat开启命令行。下载workflow_api.json。

2024-06-06 11:24:35 1418 2

原创 that satisfies the requirement gitpython>=3.1.30

问题描述:WARNING: Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) after connection broken by 'SSLError(SSLEOFError(8, 'EOF occurred in violation of protocol (_ssl.c:1131)'))': /simple/gitpython/问题原因:梯子导致,我们已经换成了。,所以就不要使用梯子了。

2024-04-01 14:59:52 1141

原创 机器学习笔记

如何寻找这个函数?①定一个函数集合②判断函数的好坏③选择最好的函数机器学习三板斧①设计模型model②判断模型的好坏③选择最好的函数,优化模型3.1修改模型,增加数据维度3.2增加正则因子,使函数更加平滑,让参数w取值更小。(x变化较小时,整个函数结果不会变化太大,结果更准)学习路线监督学习:有数据标注情况下学习(回归、分类)半监督学习:训练数据中带标记的数据不够多迁移学习:在已学习基础上,做看似和以前学习不相关的事情,但实际效果很好(在猫狗识别基础识别大象老虎等)

2024-02-25 22:03:25 544 1

原创 图像处理学习记录

正向传播,从左到右,得到输出值。和期望输出值相比较就得到误差值。计算每个节点的偏导数就是每个节点的误差梯度。将损失值反向应用到误差梯度上达到反向传播过程。彩色的RGB图(3个分量)、灰度化(一个分量)、二值化(黑白图)、滑动窗口滑动(五行三列的)将神经元按列排列,再将列与列进行连接,就得到BP神经网络。

2024-01-13 17:55:00 371 1

原创 Mask R-CNN

Mask R-Cnn是在Faster R-cnn基础上添加了一个用于预测目标区域分割的Mask分支(边界框,类别信息,分割Mask信息)。既能目标检测,又能图像分割。还能检测人体关键点。

2023-11-09 17:12:45 40 1

Comfyui api图生图init

Comfyui api图生图init

2024-06-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除