司小豆-CSDN博客

其中数组元素属性决定的基本运算相对简单，基础运算（如加减乘除）就是对应位置元素进行逐元素计算，而矩阵属性决定的运算则稍显复杂，在基础运算上，矩阵和数组的核心区别在于乘法运算。1.3.3 矩阵类型对象可以通过运算符直接进行矩阵乘法，而二维数组要进行矩阵乘法（及其他矩阵运算），则必须要使用包括linalg（线性代数运算）模块在内的相关函数。值得注意的是，矩阵相乘要求左乘矩阵的列数和右乘矩阵的行数相同，而内积计算过程则严格要求两个向量/矩阵形状完全一致。当然逆矩阵的性质是相互的，可以称A、B为互逆。

2025-06-14 11:22:47 892

原创机器学习基本概念与建模流程

机器学习（的过程）本质是通过数据的不断训练，使得模型在其对应的评价指标上表现越来越好的一个过程。

2025-06-11 12:21:10 677

原创 MuJoCo安装记录

1. 下载安装包2. 进入下载界面执行以下命令安装3. 如果安装anaconda之后打开终端，命令行开头不会显示(base)的话就运行conda config --set auto_activate_base true，使得base环境自动激活。

2025-05-23 21:13:59 805

原创 Ubuntu中安装显卡驱动遇到的问题

安装英伟达驱动的时候，首先要先把linux系统自带的nouveau驱动禁掉，然后推荐直接用Ubuntu库直接安装英伟达显卡驱动。禁掉默认驱动操作如下。

2025-05-22 14:45:30 136

原创 OpenCV编译过程

在编译的过程中，source/.cache/ffmpeg中有一个文件需要从wai网下载，最后可能因为下载不了导致编译失败，三个文件都是0kb表示没有下载成功。安装完之后会在mingw-build下边出现一个名为install的文件夹，这时候需要将install/x64/mingw/bin路径配置到环境变量中。选择OpenCV源码中source的所在位置，然后选择我们创建的mingw-build目录。在该文件夹中新建名为mingw-build的文件夹。最后再运行mingw32-make install。

2025-05-20 11:29:27 262

原创即插即用硬盘制作流程

一个大于8G的优盘移动或机械硬盘Rufus。

2025-05-19 10:55:00 312

原创 Pycharm程序调试

4. 步入和步出是对应进入函数体和跳出函数体。在函数体外边点击步出的话会直接结束程序运行，多用于函数嵌套，一层一层往外边跳。5. 单步执行我的代码的意思是遇到官方的代码不会跳进函数体，要是进入单步进入的话就会跳到官方定义的模块里边调试。1. 断点不要打在函数名上边，例如下边这样点击调试的话，代码是不会停下来的。6. 断点间调试，区别于单步调试，该按键功能是从该断点跳到下一个断点。7. 批量处理整个project中的断点。2. 在线程和变量窗口可以做简单的计算。3. 查看定义的函数存放的位置。

2025-05-19 10:38:43 186

原创二、移动机器人的运动学分析和动力学分析

4. 全向移动型。

2025-05-18 12:58:35 323

原创一、电机篇

在交流电机的定子上通过三相对称交流电，如下图所示，定子不动，仅仅通过电流的变化就能产生旋转的合成磁场，这个磁场像一个绕着定子旋转的磁铁。：电圈在有N级和S级形成主磁场中会受到电磁力的作用，而左侧线圈和右侧线圈中不同的电流方向正好形成大小相同方向相反的作用力，两个电磁力形成的电磁转矩拉动了线圈的转动。电机工作时，线圈和换向器旋转，磁钢和碳刷不转，线圈电流方向的交替变化是随电机旋转的换向器和电刷来完成的。定子磁场的旋转速度叫同步转速，里边的转子其实是被定子磁场牵引着在转动，所以他的转速会比定子磁场的转速慢。

2025-05-17 11:16:28 918

原创演员评论家算法

演员(actor)代表策略，评论家代表价值函数。演员评论家算法是基于价值和策略的综合性方法。具体来说该算法使用了策略梯度和时序差分方法，是二者的一种有机结合。1. 主要思想策略梯度算法以轨迹为单位更新，样本方差大，学习效率低。时序差分中，价值函数以时间步为单位更新，思想可以借鉴。2. 模型结构基于期望的优势函数既能实现时序差分迭代，又让训练更加稳定。2.1 深度演员评论家算法策略网络：π网络价值网络：Q网络+V网络3. 演员评论家算法适用条件连续状态空间：高维图像处理或机器人控制。

2025-05-13 15:35:53 868

原创深度策略梯度算法PPO

从时序差分算法Q学习到深度Q网络，这些算法都侧重于学习和优化价值函数，属于基于价值的强化学习算法（Value-based）。1. 基于策略方法的主要思想（Policy-based）基于价值类方法当状态动作空间较大且连续时面临挑战，对基于策略的目标函数使用梯度上升优化参数最大化奖励。在策略梯度中，参数化的策略π不再是一个概率集合，而是一个概率密度函数2. 优点：建模效率高、探索性更好、收敛性更优3. 模型结构是无环境模型的结构,神经网络作为策略函数近似器，其参数表示或策略。

2025-05-12 17:38:57 720

原创视觉-语言基础模型作为高效的机器人模仿学习范式

近期，视觉语言基础模型领域取得的进展彰显了其在理解多模态数据以及解决复杂视觉语言任务（包括机器人操作任务）方面的能力。我们致力于探寻一种简便的方法，利用现有的视觉语言模型（VLMs），仅通过对机器人数据进行简单微调，即可投入使用。为此，我们基于开源的视觉语言模型 OpenFlamingo，推导出了一个简单且新颖的视觉语言操作框架，并将其命名为 RoboFlamingo。

2025-05-10 12:02:51 854

原创 Python函数总结（未完）

【代码】Python函数。

2025-05-09 12:49:29 72

原创深度Q网络DQN

DQN受max操作影响，估计的Q值往往会偏大，这是因为它是以下一时刻的状态St+1的Q值的最大值来估算的，但是St+1的Q值也是一个估算值，也依赖其下一个状态的Q值，由于误差传递，往往导致Q值偏大问题出现。含有多层激活函数的神经网络，能够实现非线性的函数逼近，是非常强大的函数逼近器。用两套神经网络分别来估计两个不同的Q函数，原来的神经网络训练Qw，然后固定住t时刻的Qw(左)的值，用另一个神经网络训练右边t+1时刻的目标Qw(右)，前边网络中的参数每步都会更新，而后边目标网络中的参数隔几步才会更新。

2025-05-08 17:07:08 744

原创经典无模型方法

1.强化学习发展路线动态规划可以称为强化学习的鼻祖，早在1951年动态规划的早期研究就使用了 Q表格思想。蒙特卡洛方法最早来源于统计学和数值计算，后被引入到强化学习的研究当中。再之后是时序差分算法，再之后是Q-Learing和SARSA算法。在这些经典的算法中动态规划算法属于有模型算法，假设环境已知，其他的都是无模型的强化学习方法。2. 背景：最初用于计算核物理实验中复杂粒子运动和相互作用，用来模拟和预测实验结果。使用随机抽样和模拟方法来解决复杂的计算问题，类比赌博。

2025-05-07 18:16:11 774

原创动态规划方法

1. 核心思想：将原始问题划分成若干个重叠的子问题，递归求解子问题来推导出原问题的最优解。强调：第一是复杂问题简单化的分解思想，大问题分解为小规模子问题，不是所有的问题都能用动态规划来解决，能分解是使用它的前提条件之一，并且分解过程必须符合最优性原理，也就是说它们自身是最优的，并且可以组合成整体问题的最优解。

2025-05-06 18:33:58 564

原创贝尔曼期望方程推导

2025-05-05 20:00:38 143

原创马尔科夫随机过程

1. 强化学习研究的是和时间相关的序列数据，即agent与环境是一种动态交互的行为。2. 序列数据分析：日常生活中是有大量的数据是和时间相关的，反应某一个事物或者现象随着时间的变化状态、程度。比如：环境数据、健康数据、行为数据、金融数据、文本数据等等。时间序列分析是从按照时间排序的这些数据点中抽取有价值的总结，或者统计信息的这样一种行为。既包含了对过去数据的诊断，也包括对未来数据的预测。3. 序列建模：对序列数据进行学习，掌握其内在模式和规律。

2025-05-05 18:23:38 859

原创 RT-1：面向大规模实际应用场景控制的机器人Transformer模型

在本节中，我们将介绍图像、文本和动作的离散化方式（tokenization），并进一步阐述 RT-1 模型的架构设计。随后，我们将说明如何实现满足实时控制需求的运行速度。最后，我们还将描述数据采集的流程，以及数据集中包含的技能和指令内容。图 2(a) 用于大规模数据采集的机器人教室；(b) 一个真实办公厨房，是用于评估的两个逼真环境之一（在本文其余部分中称为 Kitchen1）；(c) 另一个用于评估的不同办公厨房（在本文其余部分中称为 Kitchen2）；

2025-05-01 17:38:03 1143

原创 RT-1算法详解

3.2在RT-1真实实现的时候用的是Identity-initialized FiLM，在整个算法实现的过程中需要将语言特征塞到视觉特征中，但是视觉特征本来就是已经训好的，强行将语言特征加进去会破坏视觉特征本来的结构。2.机器人任务较多，每个任务训练一个policy的话代价太大，并且泛化性不强，就探索能不能训练出来一个能够通用完成各项任务的policy。1.在VLA之前，大家一般只关注policy，在大家看来policy不需要通用，一个任务一个head。见过任务上，陌生任务上，背景上。

2025-04-30 17:56:37 333

原创机器语言、汇编语言、高级语言、编译型语言、解释型语言

机器语言和汇编语言都是面向机器(硬件)的语言，占用内存空间少，运行速度快，但用起来繁琐费时，通用性差；而高级语言是面向用户的语言，更接近人类的自然语言，且无论何种机型的计算机，只要配备上相应的高级语言的编译或解释程序，就可以实现统用。用二进制（0、1）编码表示的机器指令，是CPU能直接识别并执行的唯一一种语言。源代码文件经过解释器逐句输入逐句翻译，计算机一句句执行，并不产生目标程序文件。源代码文件经过编译器翻译成目标程序文件，然后计算机再执行该目标程序。

2025-04-29 18:12:02 186

原创隐式端到端VLA介绍

1.VLA模型分类2.视觉特征提取模块由于目前机械臂任务还相对比较简单，ResNet-18够用。2.1机器人视觉预训练模型ResNet-18能力不够强，可以用下边的预训练模型替换。但是预训练模型不一定适合你的架构，比如DP架构中对于图像的提取都是ResNet-18，ResNet-18经过最后一层提取会得到一维的向量，但是Voltrom这种最后提取出来的是n个向量。可以使用Perceiver架构把n个向量变成一个向量。2.2Perceiver架构。

2025-04-29 17:17:49 275

原创 VLA概述

1.传统的机器人决策系统有很强的规则性，没有很好的泛化性。2.VLA就是从给定的视觉和文本信号，去产生相应的动作信号并驱动机器人去执行3.整体流程4.主体要素4.1对于视觉信号而言，最常见的就是ViT4.2对于语言信号而言，最常见的就是基于LLaMA，ChatGPT等大模一些发展。4.3动作模型：Diffusion Policy等6.视觉发展历程6.1Transformer这种模型是具有更强的泛化性，并且其skills要高于CNN。

2025-04-28 17:20:09 976

原创多标签和多分类有什么区别？

每个样本只能属于一个类别，从多个类别中选择一个类别进行分类。

2025-04-04 15:53:56 370

原创 1.机器人概述

机器人由硬件和软件两部分组成，其中硬件包含大量的传感器和执行器。例如，温度传感器，陀螺仪传感器，GPS，相机，伺服电机等。软件方面，主要是完成业务流程，实现相关算法，保证硬件逻辑的执行。总结来说，就是完成控制规划等逻辑。机器人开发基本运作的流程示意图：硬件存在的问题传感器永远不可能是完美的由许多模块组成，因此会存在多个故障点，例如，激光雷达有一个旋转的顶部、一个激光发送器、一个接收器和一个印刷电路板所有模块之间的协调可能永远不会完美传感器越好，价格就越高。例如，IMU、摄像机等。

2025-01-16 17:49:36 793

原创用于翼型流动雷诺平均纳维-斯托克斯方程模拟的深度学习方法

在本研究中，我们探讨了深度学习模型在推断雷诺平均纳维-斯托克斯（RANS）方程解方面的准确性。我们重点关注现代化的Unet架构，并评估了大量训练后的神经网络在计算压力和速度分布方面的准确性。特别地，我们说明了训练数据量和权重数量如何影响解的准确性。使用我们最佳的模型，针对一系列先前未见过的翼型形状，我们得到的平均相对压力和速度误差小于3%。此外，我们公开了所有源代码，以确保研究结果的可重复性，并为对利用深度学习方法解决物理问题感兴趣的研究人员提供一个起点。

2025-01-14 21:39:56 791

原创扩散策略：通过动作扩散的视觉运动策略学习

本文介绍了扩散策略（Diffusion Policy），这是一种通过将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法。我们在来自4个不同机器人操作基准的15项不同任务上对扩散策略进行了基准测试，发现它始终优于现有的最先进的机器人学习方法，平均改进幅度达到46.9%。扩散策略学习动作分布得分函数的梯度，并在推理过程中通过一系列随机朗之万动力学步骤，根据该梯度场进行迭代优化。

2025-01-10 14:02:34 1132

翻译基于视觉的机器人抓取：从物体定位、物体位姿估计到平行夹爪的抓取估计——综述

本文全面综述了基于视觉的机器人抓取技术。我们总结了基于视觉的机器人抓取过程中的三个关键任务，分别是物体定位、物体位姿估计和抓取估计。具体而言，物体定位任务包括无需分类的物体定位、物体检测和物体实例分割。该任务为输入数据中的目标物体提供了区域信息。物体位姿估计任务主要是指估计物体的6D位姿，包括基于对应的方法、基于模板的方法和基于投票的方法，这些方法为已知物体生成抓取位姿。抓取估计任务包括2D平面抓取方法和6自由度（6DoF）抓取方法，其中前者受限于从单一方向进行抓取。这三个任务可以通过不同的组合来完成机器人

2025-01-04 17:00:50 2756

原创关于Python文件中出现if name == ‘main‘:的含义

用于判断当前运行的脚本是否是主程序，而不是被其他脚本导入的模块。这是Python的一种约定俗成的用法，用于控制脚本的执行流程。这个条件判断确保了，只有当该脚本被直接运行时，紧随其后的代码块才会被执行。如果该文件被其他Python脚本通过。：在模块内部编写测试代码，但只有当模块被直接执行时才运行这些测试代码，而不是在模块被导入时。：确定哪些代码应该仅在脚本作为主程序执行时运行，例如启动程序、处理命令行参数等。：允许模块既可作为库被其他模块导入，又可作为一个独立的程序执行。语句导入，那么这部分代码将不会执行。

2024-09-06 19:03:29 782

原创如何在Anaconda中创建Python虚拟环境

输入：conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/ 然后回车。2.待会儿创建环境的时候需要在环境中下载Python，防止下载失败我们给Anaconda加上一个国内的镜像源。3.创建环境之前我们还需要有一个Python版本查询的操作，不指定Python版本的话默认下载最新版。回车之后会显示创建这个Python环境的依赖项，并询问你是否确定下载，输入y回车即可。

2024-09-04 17:48:07 1241

原创如何查看本电脑python安装位置

如何查看本电脑python安装位置

2024-08-29 13:19:38 244

2201_75538301的博客

原创机器学习中常用的矩阵求导公式

原创矩阵运算基础、矩阵求导