自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

To be a better man

这里分享个人所思、所想、与交流,欢迎

  • 博客(978)
  • 资源 (9)
  • 收藏
  • 关注

原创 眼底出血术后需注意事项//每天必看

1.每天都要滴眼药水2.控制血糖,要吃低血糖的饮食(网上买低血糖食物),每天都要查一道血糖3.一周复检一次别忘了4.趴着睡(在网上买个趴枕)

2022-06-29 15:40:41 720

原创 Diffusion或者Diffusion policy的训练具象化理解附代码

在 Diffusion Policy 里,这段代码是训练模型预测每一步的动作噪声,输入是加噪后的动作x_t,目标是使模型能够一步步反扩散出原始动作序列x_0,从而实现动作生成或控制策略学习。如果你希望我帮你把这段代码修改成适用于动作轨迹的版本(比如x_0是 [B, T, A] 结构的动作序列),我也可以直接给你改好,要不要?每次前向x_t的噪声虽然都是noise = torch.randn_like(x_0) 但都不一样对吧 但是在每次前向里面算的时候都是用的本次的noise完全正确,兄弟!

2025-06-26 02:00:10 664

原创 论文写作课

每个部分如introduction到Conclusion到Appendix该注意什么。GPT辅助写作的prompt:① ② 不要破折号 ③ 这个过程自己需要的总结整理下来。结合以前ICLR、Nips那些模板。用notion整理一些对话和想法。抽象出来,通用性有更好的延拓。对话Idea深度交流。

2025-06-25 13:11:25 44 2

原创 Flow-diffusion整理——第二弹

在你的公式里∇At εθ(At,t,cond)\nabla_{A_t}\,\varepsilon_\theta(A_t,t,\text{cond})∇At​​εθ​(At​,t,cond)Tweedie公式 + Score Matching 告诉我们(Ho 2020; Song 2020)−∇At εθ  ≈  A0−AtT−t-\nabla_{A_t}\,\varepsilon_\theta \;\approx\; \frac{A_0 - A_t}{T-t}−∇At​​εθ​≈T−tA0​−At​

2025-06-24 13:47:49 563

原创 Flow-diffusion整理——第一弹

*

2025-06-23 13:51:33 629

原创 Transfusion

Transfusion 是一种用于训练单一统一模型以理解并生成离散与连续两种模态的方法。我们的主要创新在于:在共享数据与参数的前提下,对不同模态使用各自的损失——文本采用语言建模损失,图像采用扩散损失。图 1 展示了 Transfusion 的总体流程。

2025-06-23 09:27:14 701

原创 Flow-diffusion,Diffusion-flow

对比维度你(Flow-Guided)传统 Diffusion Policy更新路径Euler 解一个 hybrid vector field固定的 reverse noising 轨迹是否支持 noise injection可加 noise(你当前是 deterministic,但可改)每一步都加 noise(stochastic path)是否有 flow guidance✅ 有(vθv_\thetavθ​❌ 无(靠 denoiser 自己拟合路径)denoiser 用途残差项 / 微调。

2025-06-22 15:45:09 860

原创 FM和DP训练和推理对照

太好了兄弟,你这个问题非常关键!

2025-06-19 14:31:37 580

原创 为什么说flow matchingdiversity表达不足(Deterministic 唯一解),Diffusion Policy为啥就是多样?(Multi-modal,多种路径)

好兄弟,这个问题问得特别到位,你是在深挖 Flow Matching 和 Diffusion Policy 本质建模能力的差异。给定观测 oto_t,从任意初始点出发(如高斯噪声),trajectory 会沿着唯一一条轨迹流向目标。你采样一次是抓蓝车,采样一次可能是抓红车,采样一次可能啥也不抓 —— 这就是 multimodal!Diffusion Policy = 抖、慢、难训,但能给你很多答案(= diversity)因为它不是一个“唯一确定的路径”,而是从多个随机起点出发,多种可能的去噪路径。

2025-06-19 09:48:07 378

原创 为什么说flow matchingdiversity表达不足,Diffusion Policy为啥就是多样?

维度训练目标学 vector field(方向)学 noise distribution(概率)推理方式解 ODE(确定路径)多步随机采样是否 deterministic✅ 是❌ 不是多样性来源没有自然来源每次噪声采样都不同表达能力一种轨迹模式多种轨迹模式你就可以用 Flow Matching 保住结构 / 平滑再用 Diffusion 保住表达 / 多样性。

2025-06-19 09:47:15 452

原创 Diffusion Policy论文里面Introuction的不同Policy的图讲解

Policy 类型输出方式是否能表达多模态稳定性是否逐步生成Explicit直接输出❌(容易 collapse)✅❌Implicit优化能量✅❌(训练难)❌Diffusion解噪还原✅ ✅(梯度+采样)✅(不需Z)✅(逐步采样)如果你想在 introduction 里写清楚这个图的贡献,我可以给你写一段论文级表达,比如:要不要我来帮你写一段你论文 introduction 对应这图的版本?

2025-06-18 21:25:13 716

原创 通俗 + 数学公式**双线并行解释 Diffusion Policy 的原理,让你不再一脸懵。

概念类比解释ϵ∼N0Iϵ∼N0I纯噪声起点类似文本生成从 BOS 开始ϵθϵθ​解码器学会从任意 noisy 动作中还原噪声成分MSE loss教师指导模型学会识别“这步的噪声到底是啥”多步采样自回归一步步还原,精度更高但慢。

2025-06-18 15:50:16 835

原创 大白话版,彻底捋清楚 π₀ 里面 Flow Matching 的训练和推理到底在干啥。

为什么要加噪?让模型学会在任何糊的状态下都能修正学的是什么?从任意糊程度,怎么一步步流回真实动作每次训练都是独立的没有“前后步骤”,只训练某个糊掉状态下该怎么修初始状态?纯随机高斯噪声依赖什么?训练时学好的方向场是不是多步?是的,但走的步数可以很少(通常5-10步)每一步都做什么?当前状态,查表找方向,往那个方向动一点训练时,模拟各种“糊掉的中间状态”让模型练习纠偏;推理时,从纯糊状态出发,按模型学到的 flow 一路修正回目标动作序列。兄弟,其实你理解透了这一套,

2025-06-15 16:34:16 377

原创 论文||HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model

又是自回归+diffusion的结合...

2025-06-13 23:21:58 191

原创 【论文阅读】AUTOREGRESSIVE ACTION SEQUENCE LEARNING FOR ROBOTIC MANIPULATION

自回归模型在自然语言处理中取得了显著的成功。在这项工作中,我们为机器人操纵任务设计了一个简单而有效的自回归架构。我们提出了Chunking Causal Transformer(cct),它扩展了因果关系transformers的下一个单标记预测 next-single-token prediction,以支持单次通过中的多标记预测multi-token prediction in a single pass。此外,我们设计了一种新的注意力交织策略,使cct能够通过教师强制有效地进行训练。

2025-06-04 20:39:44 993 2

原创 RLbench

RLBench 是一个用于评估机器人多任务学习与语言理解能力的仿真平台,提供了视觉、语言、深度信息,并能与真实机器人(Franka Panda)对接。

2025-05-29 11:58:20 551

原创 RL中的rollout和episode的区别请问是啥

Episode 是一个完整的任务过程(从起点到终点),而 Rollout 是指“用当前策略与环境交互得到的一个或多个 trajectory 的过程”,可包括多个 episode。

2025-04-17 20:42:20 706 3

原创 DeepSeek架构基础及其GRPO、PPO原理及其训练

正在看,发现很灵魂讲的!比如,他会穿插一些基本思考(如图所示),方便大部分DLer去学习RL的思维转型。#与上一篇一样,只不过这个是原文,vx-gzh的排版更舒服。GRPO\PPO #以下我都强烈推荐看!

2025-04-14 16:37:12 312

原创 近期Lerobot资料汇总,待整理

ALOHA/umi/dexcap中的模仿学习与动作预测_v_JULY_v的博客-CSDN博客 LeRobot源码剖析——对机器人各个动作策略的统一封装:包含ALOHA ACT、Diffusion Policy、VLA模型π0_aloha-act模型-CSDN博客 LeRobot - 让现实机器人更易学-CSDN博客从零开始,手把手教你搭建Lerobot机械臂_机器人机械臂如何搭建-CSDN博客huggingface/lerobot: 🤗 LeRobot: Making AI for Robotics mo

2025-04-06 19:40:36 334

原创 再看正则化?为什么叫正则化?看看GPT老师怎么说

Q1:正则化项为啥叫正则化 感觉细想也是很深“正则化”这个术语实际上来源于拉丁语“”,意思是“”或“在机器学习中,正则化是),来,以避免过拟合。从更深层次的角度理解,,使它在拟合训练数据时。因此,正则化的目的就是让模型在复杂度上保持一定的“规则性”或“规范性”,从而。正则化项通常与模型参数的大小、复杂度相关,例如)可以通过约束参数的大小来防止模型过于依赖某些特定的特征,从而保持模型的简洁性。这个“规范”的作用,可以理解为让模型保持“有规律的”表现,而不是因数据中的偶然性变化而变得“无序”。

2025-04-04 02:05:54 801

原创 指代表达理解-REC

在计算机视觉与自然语言处理交叉领域中,指代表达理解(Referring Expression Comprehension, REC)一直是研究的关键方向。这一任务要求模型能够基于自然语言描述,在图像中精准定位相应的目标对象。然而,传统视觉模型在面对多实例指代任务时表现出明显局限:大多数仅针对单一实例优化,难以应对现实世界中"一条指令对应多个目标物体"的复杂场景。这种局限源于传统模型对语言理解的浅层处理,无法有效解析句子的语法结构和语义逻辑。

2025-04-03 03:50:53 805

原创 (NipS2024 OWA-workshop)Imagination Mechanism意义是什么?

IM 的意义在于打破了强化学习中信息局限于单一轨迹传播的旧范式。通过引入类比推理式的跨 episode 信息传播机制,它不仅显著提升了数据效率,也为我们模拟人类认知中‘类比泛化’的能力打开了新思路。在未来高成本、稀疏信号的 RL 场景中,IM 可能成为一种主流范式。需要我帮你写一个 slide 页讲这个“意义”?或者做一个图来表达“TD vs IM”的哲学区别?兄弟我随时在。

2025-04-02 13:04:01 342

原创 强化学习——SAC||为什么引入最大化熵(soft goal)

的直觉可以理解为:在给定当前状态的情况下,策略应该在不确定的情况下保持一定的随机性,而不是总是选择一个确定的动作。意味着让智能体的行为不那么确定和固定,而是鼓励它去探索更多可能的选择,这样它就不会陷入过早的局部最优。因此,最大化熵是 SAC 的一个关键创新,它使得 SAC 在强化学习中的探索和利用之间达到了更好的平衡。在策略中,较高的熵表示智能体的行为更为随机,较低的熵表示行为更为确定。:尝试新的、未知的行为,可能导致更大的回报,但也可能浪费时间。,确保策略保持一定的随机性,从而促进更多的探索。

2025-04-02 10:02:08 561

原创 位置编码汇总 # 持续更新

看了那么多还没有讲特别好的,GPT老师讲的不错关于三角函数编码。

2025-04-02 00:01:08 432

原创 DeepScaleR详细讲解

Problem || Answers || Solutions # DeepScaleR用的ORM而非PRM,通过final result来奖励。看来训练推理框架都脱离不开Verl。训练集大约40.3k条。

2025-04-01 02:22:01 219

原创 RAG大集合,基础以及优化

RAG

2025-03-31 16:42:23 176

原创 为什么KV有Cache,Q没有?

因为Q实时随着每步token进来算就行,但output的计算那要历史KV的参与,所以提前缓存好,有利于减少计算量,以空间换时间。

2025-03-31 16:39:44 178

原创 CORS 跨域请求

什么是 CORS?一文搞懂 CORS 原理!什么是 CORS?CORS 的原理是什么?为什么需要 CORS?在这篇文章 - 掘金。

2025-03-31 15:44:50 127

原创 拿GRPO距离,用RL训练LLM如何理解 这个时候Reward model是一个已经训练好的深度学习模型 还是说reward model是简单的规则 LLM在这个RL过程中扮演什么角色 兄弟

模块扮演角色是否训练用途LLM策略网络 πθ✅(在训练)生成文本奖励函数 R(x, y)❌(已训练好)给生成打分GRPO优化器(RL)❌用 reward 更新 LLM 策略人类反馈RM 的监督数据✅(训 RM 用)提供偏好信息。

2025-03-29 11:15:03 433

原创 AI教育业务资料#考虑到太垂直的内容不用教,概念上理解差不多

大模型训练全解析:预训练、微调、强化学习,一步到位!

2025-03-28 02:29:21 99

原创 强化学习-解惑?① 一般强化学习的value model 是不是就是Actor-critic的 Critic呢② 那么V(s)和 Q(s,a)区别是啥呢

在强化学习中通常指代用来估计状态或动作的价值函数的部分。在方法中,Critic计算并提供这些价值函数的估计,评估当前策略的好坏。因此,可以说Critic就是强化学习中的,它的主要任务是提供一个估值机制,用来指导Actor改进策略。

2025-03-28 02:05:25 397

原创 LLm中Add token的操作,一般在微调过程(经典)

Add token操作 在LLM微调中

2025-03-26 20:34:44 1049

原创 多模态工作idea讨论

把图像 embedding 线性或非线性投影到语言 embedding 空间,让语言模型把图像当成前缀上下文一起处理。这样模型结构简单,推理快,还能发挥 LLM 强大的语言理解与推理能力。如果你想,我也可以画张图解释它和 Q-former 或 cross-attention 的对比流程图~4o。

2025-03-23 20:22:44 599

原创 指令微调(Instruction Finetuning),有点底子就能看懂。

参考小红书用户:“想变厉害的大白菜”

2025-03-23 19:58:41 174

原创 Clip Blip Qlip 擦 到底还有多少lip。LIP宗族:Clip,Blip,Qlip,Alip...(学不了) AI 圈“lip系模型大赏”开场白[特殊字符]

Lip其实就是Language-Image Pretraining. 和 其中 Language-Image和Vison-Language本质没啥区别。哈哈你这句话太有意思了,简直就是 AI 圈“lip系模型大赏”开场白 😂确实是最近几年爆火的**视觉语言模型(VLM)**家族成员,而且名字越取越像,越读越容易拌嘴。

2025-03-23 16:35:00 964

原创 Reward-Hacking简单理解以及实际遇到的情况:

Reward hacking 是由于目标函数(reward function)和真实意图(human intent)之间存在偏差,智能体学会了钻系统的漏洞,获取高奖励但并没有完成预期任务。类型描述例子智能体抓住图像或传感器输入中的偏差总是抓靠近摄像头的物体行为成功但语义不对“清理桌面”变成“清空桌面”子任务顺序乱但 reward 没惩罚“先放后拿”也被判为成功语言模型生成的 plan 有漏洞但被执行了LLM 误分解导致逻辑错误。

2025-03-23 10:48:41 709

原创 具身智能||Spatial-LM解读

36氪获悉,在GTC2025全球大会上,群核科技宣布开源其自主研发的空间理解模型SpatialLM。该模型仅通过一段视频即可生成物理正确的3D场景布局。据了解,SpatialLM突破了传统大语言模型对物理世界几何与空间关系的理解局限,让机给定一个 RGB 视频,我们使用 MASt3R-SLAM 【得补补课了】来重建 3D 点云。然后,SpatialLM 将这些密集的点云转换为结构化表示【本质就Json呗】。点云编码器将点云编码为压缩要素,LLM 生成描述场景的场景代码,这些代码可以转换为 3D 结构布局。

2025-03-22 11:19:38 763

原创 强化学习分类

https://zhuanlan.zhihu.com/p/645324378强化学习详解:价值、策略与模型方法-CSDN博客

2025-01-30 19:19:18 182

原创 ​‌马尔可夫决策过程-笔记

MDP是RL的理论基础‌‌。MDP得名于俄国数学家,以纪念其对马尔可夫链的研究。‌。

2025-01-30 18:11:08 631

原创 蒋家资料记载

以蒋俊明太爷爷为原始节点进行记录。

2025-01-18 01:34:22 448

PCB注意事项.pdf

新手村

2021-07-02

PCB设计经验总结大全.pdf

PCB资深工程师设计经验

2021-01-21

UR5机器人资料、UR5机器人资料

UR5机器人资料、UR5机器人资料

2023-06-28

UR5机器人资料(高级培训)

UR5机器人资料(高级培训)

2023-06-28

基于深度学习天猫复购预测.zip

机器学习

2021-10-11

基于yolov4模型的目标检测与计数应用.zip

基于yolov4模型的目标检测与计数应用文档资料

2021-11-01

LCD12864结合Arduino显示图片、文字教程和源码

LCD12864结合Arduino显示图片、文字教程和源码,包含接线图,和指导txt

2021-01-15

labuladong的算法小抄

前不久在 GitHub 出现了一个手把手带你刷 LeetCode 的项目:fucking-algorithm。 该项目此前在 GitHub 开源后,连续多次霸榜 GitHub Trending 首页,用了两个月 Star 数便破 50k,受欢迎程度由此可见一斑。

2021-01-09

车辆与车牌检测并实现计数

本项目用Yolov4实现传统目标检测,Yolov5实现车牌检测,可以一起呈现,需要的老板联系。

2021-07-20

Matlab7.0完整版

老版Matlab经典

2021-01-16

Windows系统下CMD指令批处理教程.rar

基于Windows系统下操作,CMD指令操作

2021-01-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除