- 博客(547)
- 资源 (8)
- 收藏
- 关注
原创 大模型之Spring AI实战系列(三十八):Spring Boot + Ollama 实现文本向量嵌入功能
在上一篇文章中,我们介绍了如何使用 Spring AI 框架实现多模态交互功能,让 AI 助手能够理解和生成更加复杂和多样化的内容。本文将继续深入,介绍如何通过**文本向量嵌入(Text Embedding)** 功能来将文本转换为向量表示。
2025-07-19 08:00:00
533
1
原创 大模型之Spring AI实战系列(三十七):Spring Boot + Ollama 实现多模态交互功能
在前几篇文章中,我们分别介绍了如何使用 Spring AI 框架实现系统提示词和结构化输出功能。本文将在此基础上继续深入,介绍如何通过**多模态交互(Multimodal Interaction)** 功能来结合文本和图像进行更丰富的对话。多模态交互是一种强大的技术,它允许我们将文本、图像等多种类型的数据融合在一起,使 AI 助手能够理解和生成更加复杂和多样化的信息。例如,用户可以通过上传一张图片并询问“这张图片里有什么内容?”AI 助手则会分析图片并生成相应的描述。
2025-07-18 08:00:00
730
18
原创 大模型之Spring AI实战系列(三十六):Spring Boot + Ollama 实现结构化输出功能
在上一篇文章中,我们介绍了如何使用 Spring AI 框架实现系统提示词功能,让 AI 助手具备个性化的人格和风格。本文将在此基础上继续深入,介绍如何通过**结构化输出(Structured Output)** 功能来规范 AI 的输出格式。结构化输出是一种强大的工具,它允许我们将 AI 生成的内容以特定的数据结构返回,如 [List]、`Map` 或自定义的 Java Bean。这在开发需要与前端或其他系统交互的应用时尤为重要,因为它确保了数据的一致性和可预测性。
2025-07-17 08:00:00
1055
33
原创 大模型之Spring AI实战系列(三十五):Spring Boot + Ollama 实现系统提示词功能
在上一篇文章中,我们介绍了如何使用 Spring AI 框架实现上下文记忆功能,让聊天机器人具备"记忆力"。本文将在此基础上继续深入,介绍如何通过**系统提示词(System Prompt)** 功能来定制 AI 的人格、语气和风格。系统提示词是一种强大的工具,它允许我们定义 AI 的角色定位、回答风格以及与用户的互动方式。通过合理设置系统提示词,我们可以创建出具有不同个性的 AI 助手,如幽默风趣的朋友、专业严谨的法律顾问或亲切友好的客服代表。
2025-07-16 08:00:00
1070
28
原创 大模型之Spring AI实战系列(三十四):Spring Boot + Ollama 实现聊天上下文记忆功能
在上一篇文章中,我们介绍了如何使用 Spring AI 框架与 Ollama 进行集成,并通过 `ChatClient` 和 `OllamaChatModel` 实现了基础对话功能。然而,在实际的企业级应用中,仅仅实现单轮对话是远远不够的。为了让 AI 聊天机器人具备"记忆力",能够理解上下文并进行连贯的多轮对话,我们需要引入**上下文管理机制**。本文将基于 `spring-ai-ollama-chatMemory` 示例项目,详细介绍如何构建一个支持上下文记忆的 Ollama 聊天服务。
2025-07-15 08:00:00
903
17
原创 大模型之Spring AI实战系列(三十三):Spring Boot + Ollama 实现本地部署AI聊天应用(10分钟搞定)
在人工智能技术飞速发展的今天,大语言模型已经成为推动技术创新的重要力量。Ollama 作为一个开源的大语言模型框架,让我们可以在本地环境中轻松运行和管理各种大型语言模型。Spring AI 则是 Spring 生态系统中用于集成人工智能功能的框架。本文将带你从零开始搭建一个基于 Spring Boot 的项目,集成 Ollama 大语言模型,实现一个简单的聊天机器人。
2025-07-14 08:00:00
1128
25
原创 【AI大模型前沿】MonkeyOCR:基于结构-识别-关系三元组范式的文档解析模型
**MonkeyOCR** 是一个基于 **Structure-Recognition-Relation (SRR) 三元组范式** 的文档解析模型,旨在通过结构检测、内容识别和关系预测三个阶段,实现对文档的高效、精准解析。该模型在多个中文和英文文档类型上均表现出色,尤其在表格、公式等复杂内容的识别上,相比现有方法有显著提升。此外,MonkeyOCR 支持多页文档的快速解析,推理速度达到 0.84 页/秒,远超其他主流模型。
2025-07-13 08:00:00
900
原创 【AI大模型前沿】Time-R1:伊利诺伊大学香槟分校开源的时间推理语言模型、实现过去→未来全链路推演
Time-R1 是伊利诺伊大学香槟分校研究团队开发的基于3B参数的语言模型,旨在通过强化学习训练方法赋予语言模型全面的时间推理能力,包括理解、预测和创造性生成。该模型通过三个阶段的训练——理解、预测和生成——逐步建立强大的时间逻辑映射,并能够对未来事件进行准确预测和合理场景生成。Time-R1 在多个时间推理任务中表现优异,甚至超越了参数量大得多的模型,如671B参数的 DeepSeek-R1。
2025-07-12 08:00:00
957
1
原创 【AI大模型前沿】SmolVLA:Hugging Face开源的轻量级视觉-语言-行动机器人模型
SmolVLA是由Hugging Face开源的一个轻量级视觉-语言-行动(VLA)模型,专为经济高效的机器人设计。该模型拥有4.5亿参数,能够在消费级GPU甚至CPU上运行,支持在MacBook等设备上部署。SmolVLA基于开源数据集训练,数据集标签为“lerobot”,并引入了异步推理堆栈,显著提高了机器人的响应速度和任务吞吐量。它在多模态输入处理、动作序列生成等方面表现出色,适用于多种机器人应用场景,如物体抓取与放置、家务劳动、货物搬运等。
2025-07-11 08:00:00
924
原创 【AI大模型前沿】MiniCPM 4.0:面壁智能开源的端侧大模型(小版本、低消耗、极致提速)
MiniCPM 4.0 是面壁智能推出的一款极致高效的端侧大模型,旨在为端侧设备提供高性能、低资源消耗的语言模型解决方案。该模型分为 8B 和 0.5B 两种参数规模,其中 8B 版本采用创新的稀疏架构,能够高效处理长文本任务,而 0.5B 版本则以低计算资源消耗和高性能著称。MiniCPM 4.0 通过自研的 CPM.cu 推理框架,实现了在极限场景下最高 220 倍的提速,常规场景下也能达到 5 倍的速度提升。
2025-07-10 08:00:00
823
1
原创 【AI大模型前沿】OmniAudio:阿里通义实验室的空间音频生成模型,开启沉浸式体验新时代
OmniAudio 是阿里巴巴通义实验室语音团队推出的一种从 360° 视频生成空间音频(FOA)的技术。它通过构建大规模数据集 Sphere360 和创新的模型架构,能够直接从 360° 视频生成标准的 3D 空间音频格式 FOA,捕捉声音的方向性,实现真实的 3D 音频再现。OmniAudio 的训练分为自监督的 coarse-to-fine 流匹配预训练和基于双分支视频表示的有监督微调,显著提升了空间音频生成的性能和沉浸感。
2025-07-09 08:00:00
1606
2
原创 【AI大模型前沿】DeepEyes:小红书与西安交大联合打造的多模态深度思考模型
DeepEyes是一个基于端到端强化学习训练的多模态深度思考模型,由小红书团队和西安交通大学联合开发。它通过动态调用图像工具(如裁剪和缩放)增强对细节的感知与理解,实现了视觉与文本推理的无缝融合。该模型在高分辨率图像的视觉搜索任务中表现出色,准确率高达90.1%,并显著减少了幻觉现象,提升了模型的可靠性和泛化能力。
2025-07-08 08:00:00
876
3
原创 【AI大模型前沿】Ming-Lite-Omni:蚂蚁集团开源的统一多模态大模型的创新实践
Ming-Lite-Omni是由蚂蚁集团开源的统一多模态大模型,基于Mixture of Experts(MoE)架构设计,能够处理文本、图像、音频和视频等多种模态的数据,并生成高质量的文本和自然语音。该模型在多个模态基准测试中表现出色,具备高度的可扩展性和广泛的应用前景,适用于智能客服、内容创作、教育、医疗健康等多个领域。
2025-07-07 09:18:23
835
原创 【AI大模型前沿】CoGenAV:多模态语音表征新范式、通义联合深技大打造、噪声环境WER降低70%+
CoGenAV(Contrastive-Generative Audio-Visual Representation Learning)是由通义联合深圳技术大学共同开发的多模态学习模型,专注于音频和视觉信号的对齐与融合。该模型通过对比特征对齐和生成文本预测的双重目标进行训练,利用同步音频、视频和文本数据,学习捕捉时间对应关系和语义信息。CoGenAV仅需223小时的标记数据即可训练,展现出极高的数据效率,并在多种语音处理任务中表现出色。
2025-07-06 08:00:00
1008
1
原创 【AI大模型前沿】Pixel Reasoner:滑铁卢联合港科大等高校推出的视觉语言模型,助力视觉推理新突破
Pixel Reasoner 是一款基于像素空间推理增强的视觉语言模型,旨在通过直接操作视觉输入(如放大图像区域、选择视频帧等)来提升模型对视觉细节的捕捉能力。它采用两阶段训练方法,结合指令调优和好奇心驱动的强化学习,显著提升了视觉问答、视频理解等任务的性能。该模型在多个视觉推理基准测试中取得了优异成绩,展现了其在视觉密集型任务中的强大潜力。
2025-07-05 08:00:00
1032
原创 【AI大模型前沿】Matrix-Game:昆仑万维开源大模型,一键生成你的专属虚拟世界
Matrix-Game是由昆仑万维开源的工业界首个17B参数交互式世界基础模型,专注于可控游戏世界的生成。该项目采用两阶段训练策略,基于大规模无标签Minecraft游戏视频数据进行预训练,以学习环境的基本特征和动态规律;随后利用带有键盘与鼠标控制信号的Minecraft与Unreal可控视频数据进行细粒度的可控训练,使模型能够根据用户输入生成相应的交互式视频。
2025-07-04 08:00:00
1729
1
原创 【AI大模型前沿】BAGEL:字节跳动开源、多模态大模型的创新突破与实践指南
BAGEL是由字节跳动开源的多模态基础模型,拥有140亿参数,其中70亿为活跃参数。它采用混合变换器专家架构(MoT),通过两个独立编码器分别捕捉图像的像素级和语义级特征。BAGEL遵循“下一个标记组预测”范式进行训练,使用海量多模态标记数据进行预训练,涵盖语言、图像、视频和网络数据
2025-07-03 08:00:00
1248
2
原创 【MCP探索实践】Playwright MCP:微软打造的AI自动化利器,一键搞定浏览器操作
Playwright MCP是微软基于Model Context Protocol (MCP)协议开发的轻量级浏览器自动化工具。它通过Playwright的可访问性树实现与网页的交互,无需依赖视觉模型或截图,能够与大语言模型(LLM)无缝结合。
2025-07-02 08:55:48
1350
原创 【MCP探索实践】OpenMemory MCP:如何用MCP协议解锁AI工具的跨平台记忆共享
OpenMemory MCP是由mem0团队推出的一款开源工具,旨在解决AI工具在多场景切换时的记忆痛点。它基于开放模型上下文协议(MCP)构建,能够实现不同AI工具之间的上下文信息共享,并支持100%本地运行,确保数据存储在用户本地设备上,从而保障隐私和安全。
2025-07-01 08:00:00
661
3
原创 【AI大模型前沿】RelightVid:上海 AI Lab联合复旦等高校推出的视频重照明模型
RelightVid是一个由上海 AI Lab联合多所高校推出的视频重照明模型,旨在通过文本提示、背景视频或HDR环境贴图对视频进行高质量的重照明。
2025-06-30 15:15:35
788
原创 【AI大模型前沿】Index-AniSora:B站开源的动漫视频生成模型,助力高效创作
Index-AniSora是由哔哩哔哩(B站)开源的先进动漫视频生成模型。它基于超过1000万高质量的文本视频对进行训练,能够一键生成多种动漫风格的视频,包括番剧片段、国创动画、VTuber内容等。
2025-06-30 08:00:00
1296
1
原创 【AI大模型前沿】ChatTS:字节跳动联合清华大学开源、多模态时序大模型助力时序数据对话与推理
ChatTS 是字节跳动与清华大学联合开发的多模态时序大模型,旨在提升 AI 在时序数据问答与推理中的应用能力。它采用纯合成驱动的方式,设计了一个端到端的数据生成、模型训练框架,能够原生地理解时间序列的形状、波动与语义含义,并进行进一步的问答和推理。该模型在对齐任务与推理任务上均优于基线,平均提升 25.8%,展现了强大的性能和广泛的应用前景。
2025-06-29 08:00:00
1022
2
原创 【AI大模型前沿】Dolphin:字节跳动开源文档解析大模型,轻量级、高效、多格式,开启文档处理新时代
Dolphin 是字节跳动开源的一款轻量级、高效的文档解析大模型,基于先解析结构后解析内容的两阶段方法,能够高效地处理多种类型的文档图像,包括学术论文、商业报告、技术文档等。它在多种文档解析任务上表现出色,性能超越了 GPT-4.1、Mistral-OCR 等模型。
2025-06-28 08:00:00
878
原创 【AI大模型前沿】Muyan-TTS:开源零样本语音合成模型,助力播客与语音交互新突破
Muyan-TTS是一款开源的文本转语音(TTS)模型,专为播客和长篇语音内容生成场景设计。该模型预训练了超过10万小时的播客音频数据,能够实现零样本语音合成,即无需大量目标说话人的语音数据,仅通过少量参考语音和文本即可生成高质量语音。此外,Muyan-TTS还支持说话人适配功能,可以通过少量目标说话人的语音数据进行微调,实现个性化语音定制。
2025-06-27 08:00:00
1361
1
原创 【AI大模型前沿】ViLAMP:蚂蚁集团和人民大学联手打造的长视频理解利器,单卡处理3小时视频
ViLAMP 是一款专为高效处理长视频内容而设计的视觉语言模型,能够在单张 A100 GPU 上处理长达 1 万帧(约 3 小时)的视频,同时保持稳定的理解准确率。该模型基于混合精度策略,通过差分关键帧选择和差分特征合并机制,显著降低了计算成本,提高了处理效率。ViLAMP 在多个视频理解基准测试中表现出色,尤其在长视频理解任务中展现出显著优势,为长视频分析提供了新的高效途径。
2025-06-26 08:00:00
1062
1
原创 【AI大模型前沿】Seed1.5-VL:多模态理解的效率革新者,以小博大,性能惊艳
Seed1.5-VL是由字节跳动Seed团队开发的视觉语言多模态大模型,旨在推进通用多模态理解和推理能力。该模型由一个5.32亿参数的视觉编码器和一个激活参数规模达200亿的混合专家(MoE)大语言模型组成,通过创新的架构和训练方法,在60个公开评测基准中的38个上取得了最佳表现,展现了其在视觉理解、语言处理以及两者结合的多模态任务中的卓越性能。其高效的推理成本和强大的功能使其成为多模态领域的一个重要里程碑。
2025-06-25 08:00:00
703
1
原创 大模型之Spring AI实战系列(三十二):Spring Boot + DeepSeek 实战指南:工具函数(Function Call)实战应用
随着人工智能技术的飞速发展,大模型在各个领域的应用日益广泛,为开发者带来了前所未有的机遇和挑战。在众多的框架和平台中,Spring Boot以其简洁、高效的特点,成为了构建企业级应用的首选之一。而DeepSeek作为一款强大的人工智能平台,提供了丰富的API接口和功能,能够满足各种复杂的应用需求。本文将深入探讨如何将Spring Boot与DeepSeek相结合,通过工具函数(Function Call)的实战应用,帮助读者快速掌握这一前沿技术,实现高效、智能的应用开发。
2025-06-24 08:00:00
1881
51
原创 大模型之Spring AI实战系列(三十一):Spring Boot + DeepSeek 实战指南:结构化输出处理与实战应用
在AI应用开发中,**结构化输出**是提升模型响应质量的重要手段。通过合理使用结构化输出格式,我们可以更方便地解析和利用模型返回的内容,从而构建更智能的应用。
2025-06-23 15:00:11
820
原创 大模型之Spring AI实战系列(三十):Spring Boot + DeepSeek 实战指南:系统提示词设计
在AI应用开发中,**系统提示词设计**是提升模型输出质量的重要手段。通过合理使用系统提示词,我们可以控制AI助手的角色、风格和回答格式,从而提供更符合业务需求的响应。
2025-06-23 08:00:00
796
1
原创 大模型之Spring AI实战系列(二十九):Spring Boot + DeepSeek 实战指南:构建多轮对话系统
在人工智能应用不断发展的今天,单轮对话已经难以满足复杂的交互需求。通过实现多轮对话系统,我们可以让AI助手记住上下文,在连续对话中保持连贯性,提供更自然的交互体验。
2025-06-22 08:00:00
760
1
原创 大模型之Spring AI实战系列(二十八):Spring Boot + DeepSeek 实战指南:构建推理系统与思维链解析
在人工智能领域,推理能力是衡量模型智能水平的重要指标。DeepSeek推出的`deepseek-reasoner`模型,在数学推理、逻辑分析等任务上表现出色。本文将详细介绍如何使用Spring Boot框架集成DeepSeek的推理模型,构建一个支持思维链(Chain of Thought, CoT)解析的智能系统。
2025-06-21 08:00:00
1039
原创 大模型之Spring AI实战系列(二十七):Spring Boot + DeepSeek 实战指南:构建智能代码生成器
在人工智能技术快速发展的今天,大型语言模型(LLM)正在改变软件开发的方式。DeepSeek作为国内领先的AI平台,其提供的深度学习模型在代码理解和生成方面表现出色。结合Spring Boot框架的便捷性和DeepSeek的强大能力,我们可以构建一个高效的代码生成系统。
2025-06-20 15:00:00
1104
4
原创 大模型之Spring AI实战系列(二十六):Spring Boot + DeepSeek 实战指南:构建AI聊天应用
在人工智能技术飞速发展的今天,大型语言模型已经成为了推动技术创新的重要力量。DeepSeek作为国内领先的大型语言模型提供商,其推出的DeepSeek系列模型在多个领域都展现出了卓越的性能。本文将详细介绍如何使用Spring Boot框架集成DeepSeek API,构建一个简单的AI聊天应用。我们将实现两个核心功能:普通文本生成和流式文本生成。
2025-06-20 08:00:00
1359
42
原创 大模型之Spring AI实战系列(二十五):Spring Boot + DeepSeekAPI构建DeepSeek模型智能对话应用
随着大语言模型技术的快速发展,越来越多的企业开始探索如何将高性能、低成本的大模型集成到 Spring 生态中。本文将详细介绍如何使用 Spring AI 通过DeepSeekAPI 快速集成 DeepSeek 提供的 `deepseek-chat` 和 `deepseek-reasoner` 系列模型。
2025-06-19 15:05:35
920
1
原创 大模型之Spring AI实战系列(二十四):Spring Boot + OpenAI 集成DeepSeek模型构建智能对话应用
随着大语言模型技术的快速发展,越来越多的企业开始探索如何将高性能、低成本的大模型集成到 Spring 生态中。本文将详细介绍如何使用 Spring AI 快速集成 DeepSeek 提供的 `deepseek-chat` 和 `deepseek-reasoner` 系列模型。
2025-06-19 08:00:00
1593
13
原创 大模型之Spring AI实战系列(二十三):Spring AI + MCP + 自定义MCP服务开发实战
在上一篇文章中,我们学习了如何使用 Spring AI 集成 Model Context Protocol (MCP),并通过 SQLite 数据库实现自然语言数据库交互。本文将继续深入实践,介绍如何将 **天气服务** 封装为 LLM 可调用的工具
2025-06-18 15:21:37
2001
25
原创 大模型之Spring AI实战系列(二十二):Spring AI + MCP + SQLite 数据库实战指南
在上一篇文章中,我们学习了如何使用 Spring AI 集成 Model Context Protocol (MCP),并通过文件系统实现本地目录内容的访问。本文将继续深入实践,介绍如何将 **SQLite 数据库** 封装为 LLM 可调用的工具
2025-06-18 08:00:00
800
39
原创 大模型之Spring AI实战系列(二十一):Spring AI + MCP + 本地文件系统实战指南
在上一篇文章中,我们学习了如何使用 Spring AI 集成 Model Context Protocol (MCP),并通过 Brave Search 实现了互联网搜索能力的接入。本文将继续深入 Spring AI 的 MCP 实战能力,介绍如何将 **本地文件系统** 封装为 LLM 可调用的工具
2025-06-17 16:43:04
1056
4
原创 大模型之Spring AI实战系列(二十):Spring AI + MCP + Brave Search 实战指南
随着大语言模型(LLM)的快速发展,如何让模型具备访问外部世界的能力成为关键挑战。传统的 RAG 架构依赖于本地知识库,而 **Model Context Protocol (MCP)** 则提供了一种全新的方式 —— **通过协议化接口调用外部工具**,如搜索引擎、数据库、API 等。本文将详细介绍如何使用 Spring AI 集成 MCP 协议,并结合 [Brave Search](https://brave.com/search/api/) 实现一个完整的互联网搜索能力接入系统。
2025-06-17 08:00:00
1295
44
原创 【GitHub开源AI精选】Minion Agent:开源界的全能王,深度研究、自动规划全搞定
Minion Agent是一个开源的多功能AI Agent框架,支持浏览器操作、模型上下文协议(MCP)、自动规划和深度研究等功能。它基于灵活的配置选项,能够满足不同用户的需求,支持多种模型,用户可以通过简单的API调用快速部署和运行代理,完成信息检索、数据分析等任务。Minion Agent的设计目标是通过智能化的任务处理和自动化功能,帮助开发者高效完成复杂任务。
2025-06-16 17:29:20
908
5
各领域行业ChatGPT Prompt提示词大全
2024-06-05
CVP架构的企业级知识库落地
2024-05-26
面试必备十五问,面试难题预先知
2010-07-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人