AI菜鸟-CSDN博客

原创【无标题】

综述文章：遥感领域多模态大模型相关论文或技术报告。发布时间发布渠道一作单位模型/论文简称摘要概览/特点/能力文章链接代码/项目链接参考资料链接2024IJAEoGKAUSTRS-CLIP文章[]链接文本链接ssss。

2025-02-08 16:00:45 326

原创发布测试是

2025-02-08 15:43:02 431

原创大模型理解与生成三维点云：CVPR《GPT4Point: A Unified Framework for Point-Language Understanding and Generation》介绍

本文是关于CVPR2024最新论文《GPT4Point: A Unified Framework for Point-Language Understanding and Generation》的简要介绍。GPT4Point是让大模型理解与生成三维模型点云的经典作品，作者提出了 Pyramid-XL点云-语言标注引擎，以及数据规模超过1M的物体文本数据集，并且使用多种评价指标评测GPT4Point的点云理解和生成性能。

2024-04-16 18:10:30 3905 4

原创让大模型理解三维世界，NIPS论文《3D-LLM: Injecting the 3D World into Large Language Models》简要解读

本文是关于NIPS最新论文《3D-LLM: Injecting the 3D World into Large Language Models》的简要技术介绍。大模型已经在多个领域斩头露角，但是在三维领域，目前的工作并不算多。本文将三维与大语言，提出了新颖的数据集和方法。

2024-04-15 15:31:40 3747

原创让GPT使用工具：NIPS最新论文《GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction》解读

本文是关于NIPS最新论文《GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction》的技术介绍。ChatGPT或者GPT4已经展现出巨大的潜力，但是存在高昂的计算成本以及无法处理的数据类型。GPT4Tools通过自我提示（self-instruction）实现大语言模型与现有工具（例如人脸检测、文字识别）的结合。此外，这篇文章还提出一套评价大语言模型使用工具的能力的基准。

2024-04-11 18:47:34 2100

原创多模态大语言基座模型KOSMOS-1《Language Is Not All You Need: Aligning Perception with Language Models》论文简要介绍

本文是关于NIPS2024论文《Language Is Not All You Need: Aligning Perception with Language Models》的简要介绍。这项工作提出了一个多模态大语言模型框架：KOSMOS-1，在语言理解、生成、无OCR的自然语言处理、感知-语言任务和视觉任务等方面的出色表现。

2024-04-09 17:31:38 1901

原创用大模型解决视觉任务：《VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks》

本文是关于NIPS2024论文VisionLLM的简要介绍。VisionLLM是一个多模态的大语言模型框架，可以借助大语言模型的力量，实现自定义的传统视觉任务，例如检测、分割、图像标题等。框架最大的特点就是灵活性和适应性，通过语言指令让模型做不限定的视觉任务。本文按照论文顺序和主要内容做介绍。

2024-04-09 11:17:34 7013

原创 OpenDrive的路网文件xodr解析原理并使用matplotlib进行二维可视化

本文是关于opendrive道路格式文件xodr文件的解析和可视化的详细解析，以供有关研究者使用。xodr文件包含了车道的仿真地图，有时候我们需要针对性的进行开发，例如明确的知道每个车道的路沿绝对坐标等等。为了简化表示，本文采用二维可视化的任务将xodr文件进行解析和绘制。

2024-04-07 15:46:14 4139

原创多模态大模型MiniGPT4论文《Minigpt-4: Enhancing vision-language understanding with advanced large languag》简要介绍

最近发布的GPT-4表现出非凡的多模态能力，比如直接从手写文本生成网站和识别图像中的幽默元素，这些能力在先前的工作中很少见，但是GPT-4背后的技术细节仍未公开。作者认为GPT-4增强的多模态生成能力源于利用复杂的大型语言模型（LLM）。为了研究这一现象，我们提出了MiniGPT-4，通过一个映射层（Projection ）将一个冻结的视觉编码器与一个冻结的先进LLM Vicuna进行对齐。

2024-04-03 18:50:59 2783

原创大语言模型文献调研专栏目录

本专栏收录有关大语言模型相关的最新论文简介，以帮助相关领域的研究者快速了解行业动向和技术原理的简要介绍。为了便于读者查阅，这里整理了本专栏的文献目录，并随时更新。多模态大模型文献综述系列（更新中）多模态大模型方法系列（更新中）大模型思维链系列（更新中）

2024-04-03 15:39:00 783

原创 NIPS2024论文《Visual instruction tuning》LLaVA视觉大模型技术介绍

现在的大型语言模型（LLM）在语言对话与问答等任务中表现出优秀的性能。但是，对于多模态的输入（例如一张图片以及一个关于这张图片的问题），大型语言模型就难以应对，尤其是考察其推理能力时。

2024-04-03 15:09:21 2456

原创多模态大语言模型调研《MM-LLMs: Recent Advances in MultiModal Large Language Models》简要介绍

题目：MM-LLMs: Recent Advances in MultiModal Large Language Models论文：https://arxiv.org/pdf/2401.13601.pdf?项目主页：https://mm-llms.github.io/GPT诞生以来，一向以强大的自然语言处理能力而著称，人们试着将大型语言模型（Large Language Models，LLM）的强大推理和生成能力在除文本以外的模态数据上应用起来。例如图像、视频、音频、3D点云等。

2024-04-03 15:07:09 1728

qq_37261357的博客