- 博客(205)
- 收藏
- 关注
原创 详解受约束的强化学习(四、数学符号说明)
本文介绍了约束马尔可夫决策过程(CMDP)和强化学习中的关键符号及其定义。首先,基本符号包括策略函数、期望折扣奖励、期望折扣成本、约束阈值、折扣因子和折扣未来状态分布。这些符号用于描述策略行为、优化目标和约束条件。其次,定理1相关符号如辅助函数、代理函数、最大波动、总变差距离
2025-05-22 11:26:47
651
1
原创 详解受约束的强化学习(三、公式关系串联)
本文介绍了约束马尔可夫决策过程(CMDP)和强化学习中的关键符号及其定义。首先,基本符号包括策略函数、期望折扣奖励、期望折扣成本、约束阈值、折扣因子和折扣未来状态分布。这些符号用于描述策略行为、优化目标和约束条件。其次,定理1相关符号如辅助函数、代理函数、最大波动、总变差距离
2025-05-22 11:22:06
762
1
原创 详解受约束的强化学习(二、理解学习)
约束策略优化(CPO)是一种在约束马尔可夫决策过程(CMDP)框架下优化强化学习策略的算法。CMDP在标准马尔可夫决策过程(MDP)基础上增加了约束条件,例如安全性或资源限制。CPO的目标是在最大化期望奖励的同时,确保每一步策略都满足这些约束。具体来说,CPO通过代理函数和信任区域方法,近似解决高维控制任务中的优化问题。论文提出了策略性能界的理论结果,用于界定两个策略在奖励或成本上的差异,从而设计既能提高奖励又能满足约束的策略更新步骤。这一方法在机器人控制等实际应用中具有重要意义,能够确保系统在优化性能的同
2025-05-22 11:03:36
691
原创 详解受约束的强化学习(一、入门学习)
受约束的强化学习(Constrained RL)旨在最大化期望奖励的同时满足特定的约束条件。其核心思想是通过优化策略来实现这一目标,约束条件可以是软约束、概率约束或硬约束。常用的方法包括CPO、CRPO、PCPO和SPACE等,这些方法通常基于拉格朗日对偶、神经网络或李雅普诺夫函数等技术。CPO(Constrained Policy Optimization)是一种基于约束优化的策略优化方法,借鉴了TRPO(Trust Region Policy Optimization)的思想,通过限制策略更新的步长来保
2025-05-19 15:09:44
1214
原创 ip与mac地址-数据包传输过程学习
文章《你管这破玩意叫网络?》由飞天闪客创作,深入浅出地解释了计算机网络的基础知识。文章首先介绍了多台电脑通过网线直接连接的简单方式,但随着设备增多,这种连接方式变得复杂。为了解决这一问题,集线器应运而生,它能够将数据包广播给所有连接的设备。然而,集线器无法识别数据包的发送者和接收者,因此引入了MAC地址来标识设备。 随着网络的发展,交换机取代了集线器,它通过维护MAC地址表,能够将数据包准确地发送到目标设备。当交换机的端口不足时,多个交换机之间通过路由器进行连接,路由器通过IP地址和子网掩码来判断数据包的转
2025-05-19 11:42:02
880
原创 wsl空间清理与代理配置
文章主要介绍了在使用WSL2进行开发时,如何清理和优化其占用的磁盘空间。首先,建议禁用VMware以确保WSL2的正常运行。接着,通过清理APT缓存、移除无用文件和检查回收站来释放空间。此外,文章还详细描述了如何使用Windows的diskpart工具来压缩WSL的虚拟磁盘文件,从而进一步减少空间占用。虽然这种方法存在一定风险,但作者通过实践成功压缩了约10G的空间。整体而言,文章为WSL2用户提供了一套有效的磁盘清理和优化方案。
2025-05-13 18:21:04
424
原创 相机、雷达标定工具,以及雷达自动标定的思路
本文介绍了自动驾驶传感器标定模块的使用方法,重点围绕雷达与雷达、雷达与相机的标定过程展开。首先,项目基于ROS1运行,需要安装三个依赖库(jsoncpp、pybind11、Pangolin),并通过提供的脚本进行安装。安装完成后,使用catkin_make进行编译。雷达标定通过运行roslaunch lidar2lidar run_lidar2lidar.launch启动,调整参数使点云重合。相机与雷达的标定则通过roslaunch lidar2camera run_lidar2camera.launch启
2025-05-13 01:03:19
1094
原创 macbook m4中使用arm的ubuntu系统,一篇就够了
虚拟机与macbook首先是安装虚拟机的部分,我们的最基本的需求是在macbook中安装Ubuntu20然后进行扩容,然后共享文件夹。一共是三个需求。
2025-04-15 21:29:28
1167
原创 通过额外的磁盘挂载进行扩容(win与linux空间共享)——linux最多也就推荐100G
再给mount point 配置上需要的路径,给的是/home/cyun/simulation,然后就能自动挂载上我们对应的文件夹了。所以并不需要给ubuntu分配太大的空间,并且现在要转向ubuntu更高等级的了,也就是ubuntu22等方面的。所以更需要减少linux系统原生的空间了,除了这种扩容之外,还会涉及到安装一体化空间(整个100G安装到/根目录下面),如果实现不行,还可以通过系统盘强制重新给入空间之类的,但是并不推荐,比较麻烦了。一般就直接挂载一下windows的D盘之类的。
2025-04-15 12:41:46
245
原创 ros通信机制学习——latched持久化机制
点云的地图的发送逻辑中,我发现每次使用rostopic echo 时只会打印一次,然后就不会再打印了。并且rviz中也是始终都会显示的,这里面其实就是用到了latched持久话机制,可以接受这最后一次发布的消息。我们通过一个具体的项目来学习和认识这个过程。
2025-04-14 16:17:07
652
原创 浏览器智能体-browser use理解与配置
browser use自动化浏览器操作。首先说明一下浏览器智能体的工作原理:整体架构与核心流程:采用分层架构,包含 DOM 操作、浏览器控制、AI 代理相关模块。核心流程从浏览器上下文入口开始,调用 DOM 服务获取可点击元素,DOM 服务层构建元素树并标注,最后由 JavaScript 执行标注并呈现效果。1.DOM 树遍历与分析:通过递归深度遍历 DOM 树,获取每个节点信息。同时,从可交互性和可见性两方面分析元素,判断其是否符合标注条件,为精准标注提供依据。
2025-04-12 12:32:08
746
原创 Cherry Studio配置MCP server
MCP server在很多的app上开始支持了,从以前的claude desktop,到cursor,vscode等等,甚至现在开源的软件也都开始支持mcp协议的配置了.这里主要来说一下如何在cherry studio中配置好mcp的服务.
2025-04-09 23:23:06
2266
5
原创 MCP客户端与服务端初使用——让deepseek调用查询天气的mcp来查询天气
MCP,即Model Context Protocol(模型上下文协议),是由Claude的母公司Anthropic在2024年底推出的一项创新技术协议。在它刚问世时,并未引起太多关注,反响较为平淡。然而,随着今年智能体Agent领域的迅猛发展,MCP逐渐进入大众视野并受到广泛关注。今年2月,Cursor宣布正式支持MCP功能,这无疑为MCP的推广按下了加速键,使其迅速走进了众多开发人员的视野。从本质上讲,MCP是一种在智能体Agent开发过程中被广泛认可并遵循的规范。
2025-04-07 18:07:19
1739
原创 pcl 点云库安装-一篇文章就够了
总结一下,自己安装pcl库并且用cmake工具来编译,还是需要install的,但是就是不推荐安装到系统的pcl中,我们从零实现的话:1.安装源码cd build测试的项目结构如下:└── build/# 设置C++标准# 指定PCL的安装目录# 包含PCL头文件目录# 链接PCL库目录# 添加PCL的定义# 创建可执行文件# 链接PCL库// 定义点云类型// 创建点云对象// 生成随机点云数据// 点云宽度// 无组织点云,高度为1++i) {
2025-04-07 15:20:03
918
原创 windows设置在终端中打开
以后双系统尽量能不用就不用,所以需要让windows更加的方便操作,本次我们先来实现一个ubuntu中最常用的在此处打开终端的效果。
2025-04-07 12:48:20
394
原创 pointpillar推理部署——实现激光雷达点云目标识别
后续待做:由于我没有按照原本的环境进行安装,所以无法使用他的last_model,所以可能还会继续去寻找如何训练一个pointpillar的模型.后续再更新这部分。这样就能正常使用了.播放一下雷达的包就能进行识别了.这个是之前做过的一个工作,这里重新温故知新。主要是cuda和cudnn,都是必需的.安装Openpcdet的库。安装python依赖包。
2025-04-02 17:48:19
381
原创 AI时代下的编程——matlib与blender快捷编程化、初始MCP
blender编程建模测试进入blender脚本模式新建一个脚本并运行上述程序,可以得到太阳系的自转公转的动画点击即可播放添加上相关颜色即可。matlib脚本搭建simulink测试根据以上两种需求,可以通过设计对应的mcp server,让大模型使用这些工具来实现自主的生成,全程连复制粘贴都是不需要的。第一个是javascript写的,实现的matlab的mcp:https://github.com/WilliamCloudQi/matlab-mcp-server由于我没有学过这个
2025-03-31 18:41:55
1163
原创 [杂记]——脚本打包-include逻辑-easy_connect安装-阿克曼转向与差速转向
一个非常好用的脚本打包工具,如果不想其他人看到你的脚本里面的内容,我们可以通过shc来进行二进制封装。打包python由于涉及众多依赖包,python其实不推荐进行打包!!还不如自己重新用c++实现。
2025-03-27 10:41:11
411
原创 AI Agent开发与应用
AI Agent开发与应用:本地化智能体实践——本地化智能体开发进展与主流框架分析。只测试了阿里云百炼的API调用方式,界面如果有想要参考的可以找我获取。第二个版本更新了对话的框架,通过gradio做了一个全新的界面。我要说的都在ppt里面了,相关复现工作请参考。
2025-03-25 22:14:35
241
原创 Isaac Sim与Isaac Lab初使用
作为nvidia出品的仿真软件,很多机器人、机器狗【具身智能】都可以有很不错的效果,所以会使用isaac sim和mojoco越来越成为基础研究者的工具了。今天我们先来看一下Isaac sim Isaaclab的安装和配置过程。
2025-03-25 20:23:55
1532
3
原创 VLM理解(一)——视觉文本信息的标注与数据集制作过程
先来认识一下数据集结构及其制作过程。以上三篇中,DriveLM对于数据集的处理是最为清晰的,所以也按照它的格式来介绍视觉驾驶模型的标注。
2025-03-23 17:44:34
807
原创 WSL2 与双系统的对比
我发现现在对于ubuntu新版本的要求越来越高了,之前一直使用的20.04版本已经不再是主流了,所以我打算慢慢进行迁移,这个过程涉及到多个系统的内容,所以我会先从windows的wsl进行迁移学习。下面介绍一下wsl2的特点。
2025-03-23 17:20:44
449
原创 git推送代码从零学习--push代码&ssh密钥系统
推荐去阅读一下廖老师的git相关的教程https://liaoxuefeng.com/books/git/introduction/index.html本文章将在实际的git操作中不断完善命令。
2025-03-20 18:43:42
471
原创 ros smach 教程——(三)
ROS SMACH示例教程(三)ROS SMACH示例教程(三)本用例将探索SMACH的可用性和学习曲线。这个用例从简单地使用SMACH API开始,最后是一个与其他ROS系统接口的具体示例:一名可行性脚本将在turtlesim中协调两个Turtle。这个用例将展示如何使用python、ROS、rospy以及actionlib。
2025-03-20 01:38:48
681
原创 ros smach 教程——(二)
迭代器允许您循环一个或多个状态,直到满足成功条件。本教程演示如何使用迭代器将数字列表排序为偶数和赔率。with sm:return smmain()程序解释在本例中,结果现在包括preempted,这是迭代器的默认结果。it参数是要迭代的对象列表,it_标签是保存it列表中项目的当前值的键。耗尽的参数应该设置为首选状态机结果,在本例中,当迭代器在it列表中循环完成时,迭代器结果成功。现在添加一个容器,并创建用于将列表排序为偶数和奇数的状态。
2025-03-20 01:34:50
760
原创 ros smach教程——(一)
当机器人在执行一些复杂的计划时,SMACH将变得很有用,它可以将可能的状态和状态状态转移过程简化,将不同的任务模块整合到一起,让机器人实现复杂的任务调度。适合用SMACH的情况快速原型化:基于Python的简单SMACH语法使快速原型化状态机并开始运行状态机变得容易。复杂状态机:SMACH允许您设计、维护和调试大型复杂的分层状态机。你可以在这里找到一个复杂的分层状态机的例子。内省: SMACH让你充分内省状态机、状态转换和数据流等。查看smach_viewer获得更多细节。不适合使用状态机。
2025-03-20 01:33:11
585
原创 来自Poe——大模型应用层研究报告
最近poe(靠堆模型也是一种战略,poe看着确实是比较方便的)发表了他们的大模型应用的研究,可以从中窥见这几年的百模大战的一些情况,两大闭源模型,看样子认可度还是非常高的。在过去的两年里,他们将来自领先 AI 公司的 100 多个文本、图像、视频和音频模型带给我们平台上的数百万用户,这为需求和使用趋势提供了独特的视角。随着 AI 模型的不断进步,它们开始成为人们获取知识、处理复杂任务和管理日常工作的核心。
2025-03-17 17:22:58
610
原创 carla专家驾驶端到端 garage方案
我们需要确保不同的模块可以找到彼此。使用以下命令打开~/.bashrc配置文件:编辑您的~/.bashrc配置文件,添加以下定义。编辑后保存并关闭文件。记住使用以下命令,使这些更改生效:我们准备了一组预定义的路线作为起点。您可以使用这些路线来训练和验证代理的性能。路线可以在文件夹: 90 条路线,旨在用作训练数据 (780.6 Km)。: 20 条路线,旨在用作验证数据 (247.6 Km)。: 20 条路线,旨在用作验证数据 (205.9 Km)。
2025-03-17 01:57:44
1476
原创 LMDrive大语言模型加持的自动驾驶闭环系统 原理与复现过程记录
本环境使用的carla_leaderboard 1.0 ,使用的carla版本是0.9.10.1。此时,export CARLA_ROOT=carla才能链接到这里,所以最后的sh修改为。这里面有很多是ros的依赖项,所以不能直接去安装,请对照一下关键的python依赖就好。安装完后创建一个虚拟环境,官方使用的3.8,支持torch cuda的版本。这里需要提供三个模型,vision,llm和lmdrive模型。请自行下载模型,下载有问题的可以找我.直接下载x86的sh,然后运行。这两个模型和我的大模型。
2025-03-17 01:36:33
869
18
原创 deepseek强化学习训练大模型复现-openr1——本地篇(2)
状态由输入提示(prompt)和模型当前生成的 token 序列组成。在 GRPO 中,状态可以看作是 dataset 中的 prompt(例如数学问题或代码任务的描述)加上模型已经生成的文本(completions)。动作是模型在当前状态下生成的下一个 token。动作空间的大小等于模型的词汇表大小(vocabulary size),通常由 tokenizer 定义(例如 Qwen2.5-1.5B 的词汇表大小)。
2025-03-17 01:32:59
1357
原创 deepseek强化学习训练大模型复现-openr1——官方篇(1)
本仓库的目标是完善 R1 流程中缺失的部分,使任何人都能够复现并在此基础上进行开发。:包含用于训练、评估模型以及生成合成数据的脚本:grpo.py:在给定数据集上使用 GRPO 训练模型。sft.py:对模型在数据集上进行简单的监督式微调。:在 R1 基准测试上评估模型。:使用Distilabel从模型生成合成数据。Makefile:包含利用上述脚本运行 R1 流程中每一步的便捷命令。
2025-03-17 01:31:46
1116
原创 docker入门篇
使用docker可以很快部署相同的环境,这也是最快的环境构建,接下来就主要对docker中的基础内容进行讲解.Docker 是一个用于开发、交付和运行应用程序的开源平台,它可以让开发者将应用程序及其依赖打包到一个容器中,然后在任何环境中运行这个容器,实现了应用的跨平台性和一致性。
2025-03-16 21:12:07
1854
原创 wsl修改安装路径
然后开启:然后先启用“适用于 Linux 的 Windows 子系统”可选功能,然后才能在 Windows 上安装 Linux 分发。4.重新导入并安装WSL在d:\wsl-ubuntu20.04(可以修改成你自己想要的目录)2.导出分发版为tar文件到d盘(Ubuntu-20.04修改成你现在的发行版名称)所以我们可以通过这种方式,在一个未安装过相关环境的电脑上快速的安装wsl的系统。由于wsl默认是安装在c盘,容易导致c盘文件爆满,我直接修改了他的安装路径。1.查看WSL发行版本。
2025-03-14 02:09:37
707
原创 ROS/Gazebo版本对应
ros/ros2的版本与gazebo版本。希望未来的gazebo能够升级到更强的动力学建模吧,现在用的noetic版本的动力学建模仍然不够理想,虽然是我现在sim2real能够达到的最好效果。一下是版本的对应,新版本的gazebo可以自行查看文档。
2025-03-13 02:59:46
273
原创 carla使用过程
总体感觉还是很不错的。和以前的教程也有了一些出入,我将来更新这些东西。主要是没有具体的步骤导致其实看不懂他到底需要做什么。不开源 只是一些大的思路。
2025-03-11 20:24:51
284
osqp 0.6.3 ubuntu20的cmake版本使用
2025-04-16
Practical Search Techniques in Path Planning for Auto D.pdf
2023-07-31
google/protobuf/port_def.inc: 没有那个文件或目录
2023-06-02
TA创建的收藏夹 TA关注的收藏夹
TA关注的人