- 博客(5)
- 收藏
- 关注
原创 多模态与视觉Transformer前沿技术学习报告
在27个数据集上,CLIP无需微调即可超越ResNet50的线性探测(Linear Probe)结果(如ImageNet-R准确率提升51.2%)。将类别标签转换为提示文本(如“A photo of a [class]”),计算与图像特征的余弦相似度。双塔结构:图像编码器(ResNet/ViT)与文本编码器(Transformer)分别提取特征。损失函数:对称交叉熵损失(InfoNCE),最大化正样本对的相似度。图像-文本对映射到统一向量空间,相似样本靠近,不相似样本远离。
2025-06-03 15:38:32
984
原创 循环神经网络与自然语言处理学习报告
输入输出:序列到序列(如机器翻译)或序列到标量(如情感分类)。应用场景:需要上下文信息的任务(如命名实体识别、情感分析)。长程依赖问题:随着时间步增加,早期信息逐渐丢失(梯度消失)。优势:参数较少,训练速度快,适合短序列任务(如文本生成)。填充与截断:统一序列长度(如IMDB影评对齐为固定长度)。更新门(Zₜ):决定当前输入和过去隐藏状态的融合比例。重置门(Rₜ):控制过去隐藏状态对当前候选状态的影响。截断策略:为减少计算量,仅回溯固定步长(如τ=5)。
2025-05-26 02:43:09
280
原创 深度学习视觉应用学习报告
10类彩色图像数据集(飞机、汽车、鸟等),每类6,000张,50,000训练+10,000测试。:经典手写数字数据集,包含0-9共10类,60,000张训练图像和10,000张测试图像。:替代MNIST的时尚物品数据集,由Zalando提供,包含10类商品(如T恤、鞋子等)。:目标检测与分割经典数据集,2012版最常用,含20类(如人、车、动物等)。:28×28像素灰度图,文件分为训练图像、训练标签、测试图像、测试标签。:微软推出的复杂场景理解数据集,涵盖80类(如人、交通工具、家具等)。
2025-05-18 23:01:55
750
原创 卷积神经网络基础学习报告——从理论到经典模型解析
输入(32×32)→ C1(6@28×28)→ S2(6@14×14)→ C3(16@10×10)→ S4(16@5×5)→ 全连接层→输出。:输入为1000×1000的图像,若全连接层有1M个节点,输入到隐层的参数达1×10121×1012级别。:H(x)=F(x)+xH(x)=F(x)+x,其中F(x)F(x)为残差函数。:RGB图像输入时,卷积核需匹配输入通道数(如3×3×3)。:13层卷积(3×3核)+3层全连接,参数量1.38亿。:局部连接(卷积)替代全连接,权值共享大幅减少参数量。
2025-05-11 17:47:45
843
原创 神经网络与深度学习学习报告——基于性能优化与卷积神经网络基础
性能优化:通过初始化、正则化、自适应学习率等方法提升训练效率与模型泛化能力。卷积网络:从LeNet-5到ResNet,结构逐步深化,解决参数量爆炸与梯度消失问题。数据集:根据任务需求选择合适数据集,结合数据增强与迁移学习提升效果。n_j1%7Dv_t。
2025-05-04 22:41:35
542
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人