自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

frostmelody 全网同名,大家多多关注呀~ 持续分享优质内容!

frostmelody love & share. In love with moments, in tune with feelings. 记录所爱,分享所感

  • 博客(424)
  • 收藏
  • 关注

原创 AutoDriveRelated-WA

自动驾驶技术架构,强调其作为“大脑与神经网络”的角色,需整合感知、决策、执行和云端协同等多个环节。目标是从实验室走向实际道路,支撑车辆实现安全、自主的驾驶。架构分为多个层级:车端硬件、车载计算平台、执行硬件、云端训练、决策规划、功能安全、车路协同等,最终形成一个闭环系统。车端硬件车端硬件是自动驾驶的第一步,负责“看得见、摸得着”环境与自身状态。外部环境感知:依赖多传感器融合方案,以应对不同场景的盲点。摄像头:通过光学镜头和图像传感器捕捉道路、交通标志、行人等二维信息,供视觉算法处理。毫米波雷达。

2025-08-30 12:12:21 660

转载 大模型监督微调SFT相关知识

因此,基于用户 log 生产的训练数据,是很适合培养模型的话题转移能力,自我纠错能力,坚持己见能力,结合新需求重新改写答案的能力,等等。这里需要注意,你一定要知道你喜欢的模型适合用什么 prompt,提前在 ChatGPT 的 playground 上多测一下,找到模型回复效果最好的 prompt,该加 few_shot 就加 few_shot (few shot 最好有一个种子池,不然模型的回复会比较单一),访问 GPT-4 的 prompt 并不等价于喂给模型的 prompt。

2025-08-28 15:28:51 47

原创 机器学习和高性能计算中常用的几种浮点数精度

是一种在计算机中表示带有小数部分的数字的方式。浮点数的精度决定了它可以表示的数值范围以及数值之间的精细程度。,相对于传统的 FP32(全精度)以及更低的 INT8、INT4 等量化(整数)精度而言。转换脚本要求输入标准精度模型时,它就是指期望模型的权重是 FP16 或 BF16 格式,而不是经过 4 位或 8 位等其他库的量化处理后的格式(这些格式通常会添加一些。选择哪种精度取决于具体的任务(训练还是推理)、硬件平台的能力、对性能和内存的严格要求,以及对模型精度损失的容忍度。不认识的元数据张量)。

2025-08-28 15:23:33 937

原创 目标检测领域基本概念

每个像素只能被分配到一个语义标签和一个实例ID,不允许重叠(即一个像素不能同时是"汽车A"的一部分又是"汽车B"的一部分,也不能同时是"道路"又是"汽车")。**“定制算子”**通常指的是开发者自己编写的,用于执行特定计算任务的函数或模块,这些函数或模块会被编译成可以被深度学习框架(如 PyTorch)调用的形式。它们通常也是一阶段的。可以看到,易分样本的损失被大幅度缩小,而难分样本的损失受到的影响相对较小,从而使得后者在总损失和梯度计算中占据更大的比重。,我们通常会为每个位置(第0个词,第1个词,…

2025-08-28 15:22:34 938

原创 CLIP-MoE

MCL (Multistage Contrastive Learning) 是一种。

2025-08-28 15:20:02 972

原创 ICML2024-M²FEDSA

通过上面这些方法,M2FedSA 框架成功地解决了在客户端资源有限的情况下,如何有效部署和训练处理多模态的大规模模型的挑战。它通过模型拆解减轻客户端负担,通过轻量级适配器提高效率和灵活性,并通过知识迁移让数据不全的客户端也能受益。所以,简单来说,M2FedSA 就是一套聪明的设计,让客户端上的小设备也能“用上”远程的强大AI大模型,来处理各种数据类型,同时保护隐私,并且让大家都享受到多模态数据的好处。这就形成了一个巨大的矛盾:怎么在资源有限的客户端上跑得动、存得下这些处理多模态的大模型呢?

2025-08-28 15:16:35 418

原创 Multimodal Transformer Training in Personalized Federated Learning

你想啊,这些AI模型要学习,就需要大量的数据。他们搞出来一个**又安全(保护隐私)、又能干(性能提升)、还很懂你(个性化)、并且不挑活儿(能处理各种不同领域的多模态数据)**的新AI学习方法,可以说是多模态AI领域的一个大进步!不依赖严格的数据对齐或完整样本,每个客户端仅需拥有自己部分模态的数据,通过统一的序列化与位置编码机制,Transformer 能处理缺失或不对齐的模态输入。因此,论文的动机在于解决这些不足,提出一种能够在保护隐私的同时,训练适应各客户端本地多模态数据特性的个性化模型。

2025-08-28 15:13:41 759

原创 CIDEr 和 BLEU 等评估指标

CIDEr认为好的描述应该既包含图像中的重要物体和场景,又能准确地表达它们之间的关系,并且这些信息是大多数人都会认同的。在多模态领域,除了已经了解的 CIDEr 和 BLEU(它们主要用于评估文本生成质量,尤其是在图像/视频描述等任务中),还有许多其他重要的评估指标,它们从不同维度衡量多模态模型的性能。它的核心思想是比较机器翻译的句子中n-gram(连续的n个词)与参考翻译中n-gram的匹配程度。多模态领域的评估是一个持续发展的研究方向,没有单一的“万能”指标。

2025-08-28 15:09:31 712

原创 KAN-Kolmogorov-Arnold Networks

KAN,全称 Kolmogorov-Arnold Networks,是一种近期(大约在2024年)提出的新型神经网络架构。它在AI领域引起了不小的关注,因为它试图从一个与传统神经网络不同的角度来构建模型。你有一个复杂的数学函数,你想让计算机学会它。激活函数是放在节点上的。KAN 的设计灵感来源于 Kolmogorov-Arnold 表示定理。这个定理简单来说,就是任何一个多元连续函数都可以表示为有限个单变量函数和加法的组合。

2025-08-28 15:08:03 586

原创 Fair Federated Learning with Biased Vision-Language Models

它加了一些额外的部分(比如“模态融合分类头”),就是为了能更好地学习每个人独有的数据特点,同时确保最终的模型是公平的。但因为它学习的数据里可能本身就有些“偏见”,比如某个群体的数据更多,或者某个群体的图片标注得更仔细,导致它对某些群体(比如不同性别、肤色的人)的理解或识别能力会更好或更差,这就是所谓的“群体不公”或“偏见”。因为如果你要针对某个特定任务(比如在你的手机上识别你的人脸属性)并且使用你的数据来微调或适应模型,而你的数据(和你一样多的其他用户的数据)是敏感且不能上传的,那么你就。

2025-08-28 15:02:19 852

原创 YOLOE: Real-Time Seeing Anything

近期,清华大学丁贵广团队最新发布的YOLOE 这一长期挑战提供了创新性解决方案。YOLOE 基于轻量化的 YOLO 架构,通过RepRTA(重参数化文本适配器)、SAVPE(空间感知视觉提示编码器)、LRPC(轻量级区域提议分类器)三大核心技术策略,分别针对文本提示、视觉提示、无提示三种交互场景,实现了单一模型架构下的多模态、零冗余"万物识别与分割"能力。YOLOE 的出现不仅是对传统视觉任务边界的突破,更代表了CV领域向统一架构发展的重要里程碑。

2025-08-28 15:01:18 788

原创 FG-CLIP论文

对比语言-图像预训练(CLIP)在图文检索和零样本分类等多模态任务中表现卓越,但因其侧重于粗粒度的简短文本描述,导致其在细粒度理解方面能力不足。首先,我们利用大型多模态模型生成了16亿组长文本描述与图像的配对数据,旨在捕捉全局层面的语义细节。其次,构建了一个包含1200万张图像和4000万个与详细文本描述对齐的区域特定边界框的高质量数据集,以确保表示的精确度及上下文的丰富性。再次,我们整合了1000万个细粒度难负样本,以增强模型辨别细微语义差异的性能。

2025-08-28 15:00:15 901

原创 Hugging Face下载模型

这是 Hugging Face 推荐的加速方式。

2025-08-28 14:56:46 658

原创 FLORA论文要点解释

过去的方法(如固定矩阵、调整学习率、重新初始化)均可视为优化这一压缩过程的策略。这一视角不仅统一了现有技术,还为设计更高效的微调算法提供了理论基础。论文指出,许多改进LoRA的方法(如LoRA-FA、LoRA+、ReLoRA等)实际上都是在优化这一梯度压缩过程。就像用PCA对高维数据降维一样,LoRA对高维梯度进行低秩压缩,保留最重要的变化方向。每一列代表一个基向量,定义参数变化的两个方向。LoRA的核心思想是将参数变化。每一行控制对应基向量的组合权重。:对应梯度在投影方向上的。低秩近似后的参数增量。

2025-08-28 14:56:05 658

原创 在linux上本地大模型部署与推理

您的Python脚本(客户端)可能在您的个人电脑上,而模型服务(服务器)在远程Linux服务器上。如果您的服务器有强大的NVIDIA GPU,并且您对性能有更高的要求(例如需要高吞吐量),vLLM是更好的选择。这种方式无需向公网暴露服务器端口,而是通过加密的SSH通道将服务器的端口“映射”到您的本地电脑上。我们将启动一个API服务器,它会加载您指定的模型,并等待您的代码前来调用。如果您直接在SSH窗口运行上面的命令,一旦您关闭窗口,服务就会停止。这是根据您的原始代码修改的版本,适配本地vLLM服务。

2025-08-28 14:00:55 774

原创 SeeGround Unrestrained exploration of the imagination

在室内场景中,以 SeeGround 为代表的零样本方法,通过将 3D 场景渲染为 2D 图像并利用强大的视觉语言模型(VLM),在理解精细视觉属性(如“带有花卉图案的椅子”)方面取得了显著成功。:开发新型混合式 3DVG 框架,该框架以高效的 BEV 感知为基础,并在需要时触发一个轻量化的、查询对齐的渲染模块,以解决精细视觉模糊性,从而实现户外动态场景下的鲁棒、精准、高效的视觉定位。SeeGround 的方法正好相反。: 对户外移动物体(车辆、行人)的定位,一个静态的3D框是不够的,甚至是没有意义的。

2025-08-27 14:04:44 706

原创 供电可靠性定义

未来的核心任务是,在持续巩固电网硬件基础(如优化网架结构、提升装备水平)的同时,全面深化数字化、智能化技术的应用,彻底解决数据质量的根源问题,将可靠性数据真正转化为指导规划、优化运维、改善服务的生产力,最终实现向社会提供更加安全、优质、可靠的电力供应。报告明确指出,确保数据“唯真唯实” 是可靠性管理的“生命线” ,而其未来的发展方向在于构建以实时数据为基础 ,由数字技术赋能 ,覆盖“源网荷储”全环节 的精益化、智能化管理体系。可靠性管理的核心是解决实际业务中的痛点,而解决这些痛点,离不开技术的支撑。

2025-08-27 12:32:19 873

原创 VGVLP思路探索和讨论

只需把这一步由单一的“标签文本”替换为“完整表达式文本”或“多种 Prompt 文本”,并让模型在特征层面(CNN feature 或 transformer patch feature)加入文本引导,就可以做到“根据完整查询动态调整检测结果”。在候选框产生阶段,是先根据 NLP 工具从表达式中提取一个“类别词”(如“狗”“桌子”),再调用 OVD(如 Detic)检测对应类别的所有框;推理时直接给出定位。预训练,而在推理阶段不需要 GT 定位标注,也能给出“文本+图片→定位框”结果。

2025-08-26 23:44:55 386

原创 表格比对的实现

它能捕捉到任何肉眼可见的文本层面的变化,从而确保了比较的“绝对精确”,避免了因数据类型不同而忽略掉潜在的格式或精度变更。在处理【修改】这个环节,它让我们能够以接近硬件极限的速度完成对比,而不是受限于Python解释器的循环速度。)操作时,自动生成的一个辅助列,它明确地告诉你,合并后的这张大表里的每一行数据,最初是来源于左表、右表,还是两个表里都有。然而,在数据审计和版本控制的场景下,我们往往需要更严格的“所见即所得”的比较。,然后用数学中集合论(交集、并集、差集)的思想来找出它们的差异。

2025-08-26 22:16:49 652

原创 电力时序预测相关论文

论文中使用的数据集主要分为两类:用于模型预训练和知识库构建的数据集,以及用于零样本(Zero-shot)性能评估的数据集。模型在多个公开的基准数据集上进行了性能评测,这些数据集未被包含在预训练数据中,以确保评测的公正性。论文选择了五种主流的时间序列预测方法,以及三种相关的Transformer变体作为对比的基准模型。这是一个由论文作者构建并推出的,目前规模最大的开放获取时间序列数据集,专门用于基础模型的预训练。论文中涉及的数据集分为两类:用于模型预训练的大规模数据集和用于模型评测的基准数据集。

2025-08-26 20:41:37 293

原创 随机变量 Random variable

(其取值具有不确定性但遵循统计分布规律);(取值由用户或公式直接决定,无概率分布)。,其值不可预测但服从统计规律;,其值由用户或公式直接指定。

2025-08-21 13:10:11 280

原创 LidaRefer-v2论文速读

该论文提出了一个名为LidaRefer的上下文感知3D视觉定位框架,专为解决自动驾驶等大规模室外场景中的挑战而设计。核心技术:它利用面向对象的特征选择(OFS)技术来应对室外LiDAR数据中背景点泛滥和计算量大的问题;同时,通过一种创新的判别性-支持性协同定位(DiSCo)监督策略,并辅以一种自动伪标签方法,解决了因数据集标注不足而难以学习复杂空间上下文的难题。解决的问题:成功地解决了室外3D VG中的两个核心痛点:一是如何高效处理稀疏、嘈杂的视觉输入;

2025-08-20 17:35:28 640

原创 LidaReferv1论文细节解读

想象一下你在一栋高楼的楼顶,或者像无人机一样,垂直向下看地面上的停车场。你看到的景象就是鸟瞰图。在这个视角下,你只关心物体在地面上的位置(比如前后、左右),暂时忽略它们的高度。栅格 (Grid): 现在,你拿出了一张巨大的、透明的方格纸,铺在了这个停车场上空。每一个小方格代表了地面上的一个固定区域(比如0.1米 x 0.1米)。这张方格纸就是“栅格”。简单来说,BEV栅格就是将复杂的3D点云世界,简化成一个2D的、从上往下看的地图网格。这样做的好处是极大地简化了问题,让计算机更容易处理。

2025-08-20 13:40:02 815

原创 nuScence数据集

nuScenes 把数据按 85-scene 分片并允许按模态(camera/lidar/radar)或只要 keyframes 的方式,方便只拿需要的子集(节省带宽和磁盘)。devkit 的 metadata(calibrated_sensor / ego_pose)会告诉你如何把某颗传感器的数据变换到车体/全局坐标系。:不同传感器采样频率不同,融合时需以 sample token 或时间戳对齐(nuScenes 的 samples/map 帮你索引)。用于高度判断时要慎重或与 LiDAR/相机融合。

2025-08-18 23:07:39 995

原创 OmniDrive论文速读

论文核心贡献本文的核心工作是提出了一个名为OmniDrive的、用于自动驾驶的整体视觉-语言框架。技术贡献:它通过引入反事实推理,创造性地解决了自动驾驶训练数据中监督信号稀疏的核心问题。为此,它设计并实现了一套可扩展的、基于GPT-4的数据生成流水线。数据集贡献:产出了OmniDrive数据集,实验证明该数据集能有效提升模型在多种下游任务(规划、问答)中的性能。认知贡献:通过设计和全面比较Omni-L和Omni-Q。

2025-08-17 20:52:12 570

原创 Talk2BEV论文速读

它能清晰地标出你的车在哪里,前方的车在哪里,它们相距多远,道路的走向是怎样的。作为替代,你给了 B号成员 (描述员/LVLM) 一张完美的、专业绘制的地图 (GT 地图),上面每辆车的位置和轮廓都保证是正确的。:LVLM 看到这张真实的汽车照片后,就能立刻发挥它的强大能力,生成详尽的描述,例如:“这是一辆蓝色的丰田车” ,“天气是晴天” ,“指示灯状态是关闭”。它不仅提出了一个具体的、有效的系统,更重要的是为“如何将通用大模型的能力落地到专业领域”这一宏大问题提供了一个非常好的范例。

2025-08-17 20:33:21 945

原创 BEVFormer论文速读

组织方式nuScenes: 分散式。图像、点云是独立文件,通过 JSON 元数据关联。优点是灵活,可以只加载需要的传感器数据。Waymo: 整合式。所有数据都在一个.tfrecord文件中。优点是数据管理简单,IO效率高,但文件体积巨大。数据访问nuScenes: 需要读取多个 JSON 文件来构建场景,然后根据文件名加载对应的图像和点云。Waymo: 只需读取一个.tfrecord文件并按帧(Frame)迭代解析即可获取所有信息。

2025-08-17 19:52:03 740

原创 EDA论文精读

3D视觉定位(3D visual grounding)旨在根据包含丰富语义信息的自然语言描述,在点云数据中定位被提及的物体。然而,现有方法要么提取耦合了所有单词的句子级特征,要么更侧重于物体名称,这两种方式分别会丢失词级信息或忽略其他属性。为了解决这些问题,我们提出了EDA(Explicitly Decouples the textual attributes in a sentence and conducts Dense Alignment),该方法能够显式地解耦句子中的文本属性,并在这种。

2025-08-16 18:16:00 286

原创 3D视觉与空间智能

任何成熟的科学领域都需要一个清晰的理论框架,对于空间智能而言,这就是基石。空间智能可以被定义为一种计算能力,它使系统能够建模、理解、推理并预测时空关系、动态过程和物理属性,从而为决策和行动提供信息。

2025-08-15 15:17:08 901

原创 ScanNet项目介绍

是一个大型的,专门用于室内场景的理解和三维重建。简单来说,研究人员用特殊的相机(能同时捕捉彩色图像和深度信息)在 1500 多个不同的室内场景(如办公室、公寓)中进行了扫描,总共收集了 250 万个视角的图像。这个数据集不仅包含原始的视频数据,还提供了处理好的、精确的以及非常详细的(比如,这个是椅子,那个是桌子)。

2025-08-15 14:53:42 983

原创 上下文工程

上下文工程是构建动态信息生态系统的学科信息完备性:注入任务所需的全部要素基础指令、历史交互、实时数据、领域知识、工具接口工业案例:医疗诊断智能体需整合患者档案(记忆)、检验报告(实时数据)、诊疗指南(知识库)、药品数据库(工具)结构可解析性:遵循机器可读的格式化表达采用YAML/JSON-LD等结构化语言替代自然语言描述关键设计:错误信息模板化(如比散文描述更有效)系统实时性:建立动态响应管道上下文窗口需在200ms内完成:记忆检索→工具调用→数据注入→格式优化这要求工程师具备。

2025-08-13 21:41:21 1008

原创 3D视觉及其数据采集

三维视觉定位(3D Visual Grounding,简称3DVG)于2020年被提出:ScanRefer-2020ECCV、ReferIt3D-2020ECCV。旨在从三维(3D)场景中定位出与语言查询相对应的语义明确的三维区域。与二维图像不同,三维场景通常以复杂且无序的点云形式表示,能够捕捉更全面的空间和深度信息。这由于维度增加以及对几何和语义理解的需求,带来了独特的挑战和复杂性。3DVG的发展与二维视觉定位(2D VG)和三维目标检测技术密切相关,其技术路线也经历了的类似转变。

2025-08-13 14:47:50 1053

原创 三维重建算法

三维重建的目标,本质上就是从二维信息(例如照片、视频)中恢复出物体的三维空间结构。这就像我们的大脑能通过双眼看到的平面图像,感知到世界的立体感和远近距离。这是一个充满挑战但又极具价值的领域。要理解三维重建,首先要明白它的根本困难在哪里。为了解决上述挑战,研究者们发展出了多种技术路线,主要可以分为三大类:基于几何的方法、基于学习的方法和基于物理的方法。这类方法依赖于多张图像之间的几何关系,是三维重建领域的经典技术。Zf×Bd这类方法利用强大的深度学习(AI)模型,从数据中学习如何进行三维重建。

2025-08-13 00:16:45 1923

原创 规划是自动驾驶的“头脑”

这就是​​视觉定位(Visual Localization)或相机重定位(Camera Relocalization)​​的核心任务:给一张查询图片,找出它在已知场景(一个带坐标信息的图片数据库)中的精确位置和朝向(6自由度姿态:3D位置 + 3D旋转)。如果后续要做严谨的“科学实验”或重要的“工程建造”,就不能完全相信这个“魔术”的结果,要么弄清楚魔术是怎么变的(控制它),要么只用它来活跃下气氛(辅助探索),关键部分还得靠可靠的“工具”和“图纸”(传统可控方法)。融合后的结果能不能用来做后续的严肃分析?

2025-08-09 16:11:50 989

原创 NuGrounding论文精读

多视角3D视觉基准(visual grounding)对于自动驾驶车辆在复杂环境中解释自然语言和定位目标物体至关重要。然而,现有的数据集和方法存在语言指令粒度粗、三维几何推理与语言理解集成不足的问题。为此,我们推出了NuGrounding,这是首个针对自动驾驶领域中多视角3D视觉基准的大规模基准测试。我们提出了一种层次化基准(Hierarchy of Grounding, HoG)方法来构建NuGrounding,以生成分层的多级指令,确保全面覆盖人类指令模式。

2025-08-08 00:13:46 326

原创 Talk2PC-TPCNet论文精读

具身化室外场景理解是自主智能体感知、分析和应对动态驾驶环境的基础。然而,现有的三维理解主要基于二维视觉语言模型(VLM),其收集和处理的场景感知上下文有限。相比之下,与二维平面视觉信息不同,像激光雷达(LiDAR)这样的点云传感器能提供丰富的深度信息和物体的细粒度三维表示。与此同时,新兴的4D毫米波(mmWave)雷达能够检测每个物体的运动趋势、速度和反射强度。因此,这两种模态的整合为自然语言提供了更灵活的查询条件,从而实现更准确的三维视觉定位。为此,本文探索性地提出了一种名为TPCNet的新方法,这是首个

2025-08-06 22:37:19 1099

原创 MonoFusion 与 Genie 3

MonoFusion 是一个聪明的“曲线救国”方案,它结合了单目深度预测的最新成果和一个关键洞察(利用静态背景对齐),成功解决了用稀疏相机进行高质量动态3D重建(4D)这一难题。它的出现显著降低了这项技术的成本和门槛,为未来的许多应用打开了大门。VGGT 之所以能从一张 2D 图中提取 3D 信息,是它通过海量带 3D 真值的 2D 数据预训练出来的“超能力”。(专门理解3D世界的AI)来“教导”MLLMs学习更好的空间表征,从而显著提升了MLLMs在各种需要理解场景空间关系的任务上的表现。

2025-08-06 17:41:27 975

原创 NuPrompt论文精读

计算机视觉界的一个新趋势是,根据人类提供的自然语言指令来捕捉感兴趣的物体。然而,由于成对的提示-实例(prompt-instance)数据稀缺,在驾驶场景中使用语言提示的进展陷入了瓶颈。为了应对这一挑战,我们提出了首个用于驾驶场景的、以物体为中心的语言提示集,该数据集在3D、多视角和多帧空间中进行构建,我们将其命名为 NuPrompt。它通过构建总计 40,147 个语言描述来扩展 nuScenes 数据集,每个描述平均指代 7.4 个物体的轨迹片段(tracklets)。基于该基准测试中的物体-文本对,我

2025-08-06 00:26:50 905

原创 LidaRefer论文精读

3D视觉定位(3D visual grounding, VG)旨在根据自然语言描述,在3D场景中定位特定的物体或区域。尽管室内3D视觉定位技术已取得显著进展,但室外3D视觉定位的研究仍不充分,主要面临两大挑战:(1)大规模室外激光雷达(LiDAR)场景充斥着大量背景点,前景信息有限,这增加了跨模态对齐和上下文理解的难度;(2)大多数室外数据集缺乏对参考性非目标物体的空间标注,这阻碍了模型对指代性上下文进行显式学习。针对这些问题,我们提出了一种面向室外场景、具备上下文感知能力的3D视觉定位框架。

2025-08-05 16:37:43 1031

原创 大模型 与 自驾 具身 3D世界模型等相关知识

自己在本机运行 AI 模型不再是遥不可及的技术大神专利。——这些都是自己跑模型的好处。得益于技术进步,。根据你的技术喜好,可以选择或轻松上手。手机也能玩,但效果差些。文章作者觉得对大多数人来说这可能不是必须的,但对于感兴趣的人来说,这真的很有趣也很有价值。硬件成本低(主要用摄像头),易于集成。当前纯视觉方案在(如比亚迪天神之眼 C)中应用较多且有效,但在要求绝对安全冗余的 L4 场景中面临巨大挑战。

2025-08-04 14:48:43 1280

2025 vibecoding对t比.html,一目了然

2025 vibecoding对t比.html,一目了然

2025-06-20

qwen3-unsloth微调

qwen3-unsloth微调 notebook

2025-05-20

最完整的transformer模型解读

最完整的transformer模型解读

2025-04-30

李宏毅机器学习基础1-4python代码,附带详细注释

李宏毅机器学习基础1-4python代码,附带详细注释

2025-04-20

basic-pyTorch-operations

非常好的pytorch基础操作讲解文档

2025-04-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除