- 博客(16)
- 收藏
- 关注
原创 【无标题】
综述文章:遥感领域多模态大模型相关论文或技术报告。发布时间发布渠道一作单位模型/论文简称摘要概览/特点/能力文章链接代码/项目链接参考资料链接2024IJAEoGKAUSTRS-CLIP文章[]链接文本链接ssss。
2025-02-08 16:00:45
326
原创 发布测试是
发布时间 | 发布渠道 | 一作单位 | 模型/论文简称 | 摘要概览/特点/能力 | 文章链接 | 代码/项目链接 | 参考资料链接 |2. **模型**:他们基于哪些框架做的实现?每个阶段训练的是哪些模块?1. **任务和数据集**:现有市面上的遥感领域多模态大模型,支持哪些任务?每个任务的训练数据是怎么构建的?哪些是你能拿来用的?3. **评测**:评测集是什么?评测指标的计算公式是什么?
2025-02-08 15:43:02
431
原创 大模型理解与生成三维点云:CVPR《GPT4Point: A Unified Framework for Point-Language Understanding and Generation》介绍
本文是关于CVPR2024最新论文《GPT4Point: A Unified Framework for Point-Language Understanding and Generation》的简要介绍。GPT4Point是让大模型理解与生成三维模型点云的经典作品,作者提出了 Pyramid-XL点云-语言标注引擎,以及数据规模超过1M的物体文本数据集,并且使用多种评价指标评测GPT4Point的点云理解和生成性能。
2024-04-16 18:10:30
3905
4
原创 让大模型理解三维世界,NIPS论文《3D-LLM: Injecting the 3D World into Large Language Models》简要解读
本文是关于NIPS最新论文《3D-LLM: Injecting the 3D World into Large Language Models》的简要技术介绍。大模型已经在多个领域斩头露角,但是在三维领域,目前的工作并不算多。本文将三维与大语言,提出了新颖的数据集和方法。
2024-04-15 15:31:40
3747
原创 让GPT使用工具:NIPS最新论文《GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction》解读
本文是关于NIPS最新论文《GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction》的技术介绍。ChatGPT或者GPT4已经展现出巨大的潜力,但是存在高昂的计算成本以及无法处理的数据类型。GPT4Tools通过自我提示(self-instruction)实现大语言模型与现有工具(例如人脸检测、文字识别)的结合。此外,这篇文章还提出一套评价大语言模型使用工具的能力的基准。
2024-04-11 18:47:34
2100
原创 多模态大语言基座模型KOSMOS-1《Language Is Not All You Need: Aligning Perception with Language Models》论文简要介绍
本文是关于NIPS2024论文《Language Is Not All You Need: Aligning Perception with Language Models》的简要介绍。这项工作提出了一个多模态大语言模型框架:KOSMOS-1,在语言理解、生成、无OCR的自然语言处理、感知-语言任务和视觉任务等方面的出色表现。
2024-04-09 17:31:38
1901
原创 用大模型解决视觉任务:《VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks》
本文是关于NIPS2024论文VisionLLM的简要介绍。VisionLLM是一个多模态的大语言模型框架,可以借助大语言模型的力量,实现自定义的传统视觉任务,例如检测、分割、图像标题等。框架最大的特点就是灵活性和适应性,通过语言指令让模型做不限定的视觉任务。本文按照论文顺序和主要内容做介绍。
2024-04-09 11:17:34
7013
原创 OpenDrive的路网文件xodr解析原理并使用matplotlib进行二维可视化
本文是关于opendrive道路格式文件xodr文件的解析和可视化的详细解析,以供有关研究者使用。xodr文件包含了车道的仿真地图,有时候我们需要针对性的进行开发,例如明确的知道每个车道的路沿绝对坐标等等。为了简化表示,本文采用二维可视化的任务将xodr文件进行解析和绘制。
2024-04-07 15:46:14
4139
原创 多模态大模型MiniGPT4论文《Minigpt-4: Enhancing vision-language understanding with advanced large languag》简要介绍
最近发布的GPT-4表现出非凡的多模态能力,比如直接从手写文本生成网站和识别图像中的幽默元素,这些能力在先前的工作中很少见,但是GPT-4背后的技术细节仍未公开。作者认为GPT-4增强的多模态生成能力源于利用复杂的大型语言模型(LLM)。为了研究这一现象,我们提出了MiniGPT-4,通过一个映射层(Projection )将一个冻结的视觉编码器与一个冻结的先进LLM Vicuna进行对齐。
2024-04-03 18:50:59
2783
原创 大语言模型文献调研专栏目录
本专栏收录有关大语言模型相关的最新论文简介,以帮助相关领域的研究者快速了解行业动向和技术原理的简要介绍。为了便于读者查阅,这里整理了本专栏的文献目录,并随时更新。多模态大模型文献综述系列(更新中)多模态大模型方法系列(更新中)大模型思维链系列(更新中)
2024-04-03 15:39:00
783
原创 NIPS2024论文《Visual instruction tuning》LLaVA视觉大模型技术介绍
现在的大型语言模型(LLM)在语言对话与问答等任务中表现出优秀的性能。但是,对于多模态的输入(例如一张图片以及一个关于这张图片的问题),大型语言模型就难以应对,尤其是考察其推理能力时。
2024-04-03 15:09:21
2456
原创 多模态大语言模型调研《MM-LLMs: Recent Advances in MultiModal Large Language Models》简要介绍
题目:MM-LLMs: Recent Advances in MultiModal Large Language Models论文:https://arxiv.org/pdf/2401.13601.pdf?项目主页:https://mm-llms.github.io/GPT诞生以来,一向以强大的自然语言处理能力而著称,人们试着将大型语言模型(Large Language Models,LLM)的强大推理和生成能力在除文本以外的模态数据上应用起来。例如图像、视频、音频、3D点云等。
2024-04-03 15:07:09
1728
原创 视频理解大模型调研论文《Video Understanding with Large Language Models: A Survey》简要介绍
Vid-LLMs在生成视频内容简洁摘要方面起着至关重要的作用,分析视觉和听觉元素以提取上下文感知摘要的关键特征。这种应用在新闻聚合和内容策展中至关重要。它们还对视频编辑领域作出贡献,如现有文献所述。此外,在特定领域,如广告编辑,也存在应用场景。
2024-04-03 15:05:00
8218
原创 大模型思维链论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》简要介绍
本文是关于2022年NIPS论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》的简要技术介绍。论文提出使用思维链提示(Chain-of-thought Prompting)可以有效促进大语言模型的逐步推理能力,进而获得更加准确的效果,尤其对于需要逐步推理的任务。
2024-04-03 14:59:48
2026
原创 视频大语言模型调研论文《Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding》解读
大型语言模型(LLMs)已经表现出了出色的理解和遵循用户意图和指令的能力。研究人员通常将用户请求和LLMs的响应都以文本形式表达,但是,在许多应用场景下,仅限于文本的人机交互并不足够,真实世界的信息通常是多模态的。现有工作的不足。为了进一步探索LLMs的潜力,许多研究人员尝试赋予LLMs理解多模态内容的能力。包括使用大量交织的图像-文本数据或语音-文本数据对多模态LLMs进行大规模预训练,以适应多模态输入。或者采用更高效的参数方式,通过补充LLMs与现成的视觉或语音基础模型来实现多模态理解。
2024-04-03 11:13:48
1763
原创 使用Typora+PicGo+Gitee打造全新Markdown博客创作环境
本文主要解决markdown图片自动上传个人托管平台,并以链接形式记录在markdown中,提高markdown复用性的问题。
2022-11-15 22:02:43
751
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人