deepseek大模型-CSDN博客

原创盘点国产十大最实用的AI大模型！（深度解析）

在这个由数据驱动的时代，人工智能（AI）已经成为推动世界进步的超级引擎。从日常的语音助手到复杂的医疗诊断，AI的应用无处不在，它的影响力正以前所未有的速度扩展。今天我们来聊聊那些国产的AI大模型，深度盘点一下国产最实用的十大AI大模型百度文心大模型包含NLP（自然语言处理）、CV（计算机视觉）和跨模态大模型。在自然语言处理领域，文心ERNIE系列模型具有强大的小样本学习能力和基本推理能力。在计算机视觉领域，百度提出了基于视觉掩码技术的文心VIMER-CAE，具有强大的图像分割能力。

2024-12-10 14:08:23 7683

原创我们为什么要用本地大模型？——坤叔的本地大模型入门指南

大模型，在2023年主要称之为大型语言模型（Large Language Models），是一种基于人工智能和机器学习技术构建的先进模型，旨在理解和生成自然语言文本。这些模型通过分析和学习海量的文本数据，掌握语言的结构、语法、语义和上下文等复杂特性，从而能够执行各种语言相关的任务。LLM的能力包括但不限于文本生成、问答、文本摘要、翻译、情感分析等。我们最熟悉的大模型，莫过于CHATGPT。但我们最常用的大模型，未必是CHATGPT。

2024-05-23 10:52:45 9370

原创值得收藏！十大中国流行的AI大模型企业及平台汇总

在当今这个信息化迅速发展的时代，人工智能技术已经成为推动社会进步的重要力量。特别是在我国，AI大模型技术的发展速度令人瞩目，各种平台纷纷涌现，表现出强大的技术实力和广泛的应用前景。

2024-05-16 13:37:12 9192

原创一文读懂 LLM 训练：从预训练到微调【大模型行业应用入门系列】

LLM Training 是指大型语言模型（LLM）的训练过程。作为一种采用超大规模数据进行预训练的深度学习模型，LLM 训练目标是培养出一个能够理解和生成自然语言文本的模型。在这个过程中，LLM 通过处理海量文本数据来学习语言的规律、语义和上下文关系等训练方式，可以获得丰富的语言知识和智能，从而使得能够自动理解和生成人类语言。通常而言，这种训练过程通常需要大量的计算资源和时间，以便模型能够充分地学习语言的各个方面。

2024-04-16 15:39:20 7044

原创全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

本地运行大模型耗资源，需要选择较小的模型作为基础模型。在终端中运行时可能会出现 CUDA 错误，表示显存不足，导致提供的端口失效。中文支持不够完善。3. 文中提到的技术软件工具有：Ollama、Chatbox、Open WebUI、向量数据库、嵌入模型、本地模型 Gemma、AnythingLLM。

2024-04-10 11:10:50 9274

原创一文吃透多模态：多模态大模型的探索五大研究方向与十大应用领域！

理想中的多模态大模型具备跨模态的泛化理解和生成能力，其更符合人类感知世界的方式，其或能进一步打开AI能力的上限。产业界也在积极探索多模态大模型可行的技术路径，在多模态领域“复刻”大语言模型的成功。但目前多模态大模型的技术栈也尚未收敛，多模态学习和跨模态对齐仍为技术难点，未来产业发展仍有无限可能。在大模型兴起之后，产业也试图在图像、视频、音频等更多模态领域复现“Scaling Law”的成功，继续实现大模型的“智能涌现”。• 薪资上浮10%-20%，覆盖更多高薪岗位，这是一个高需求、高待遇的热门方向和领域；

2024-04-07 18:30:11 7661

原创 2025人工智能行业人才供需趋势报告（免费下载）

在当今数字化浪潮席卷全球的背景下，人工智能（AI）行业宛如一颗璀璨明珠，闪耀着无限光芒，正以前所未有的速度重塑着世界产业格局。从智能家居到自动驾驶，从医疗诊断到金融风控，AI技术正深度融入各个领域，催生出一系列新业态、新模式，成为推动社会进步与经济发展的关键力量。

2025-06-02 09:30:00 425

原创 RAG是什么？一文讲清楚RAG原理与典型系统架构！

RAG，全称为Retrieval Augmented Generation，即检索增强生成。它是一种将外部知识检索与大型语言模型的生成能力相结合的人工智能技术框架。其核心思想是在大型语言模型（LLM）处理用户查询并生成回答之前，首先从一个或多个外部知识源（如数据库、文档集合、API等）中检索与查询相关的、最新的信息片段。然后，这些检索到的信息将作为额外的上下文（Context）注入到LLM的提示（Prompt）中，从而引导LLM生成更准确、更相关、更具事实性的内容。

2025-06-02 07:30:00 399

原创 AI大模型知识点：一文讲清楚MCP、RAG、Agent概念和关系

RAG 是一种融合信息检索与文本生成的人工智能技术框架，它打破传统大语言模型仅依赖预训练参数生成内容的局限，通过动态检索外部知识库中的相关信息，将这些精准数据作为生成依据，从而输出更具针对性、准确性和可靠性的文本回应。

2025-05-31 09:00:00 568

原创普通人如何成功转型AI产品经理？大厂AI产品经理揭秘3个关键

在AI技术日新月异的今天，产品经理的角色正在经历一场革命性的转变。你是否也在思考如何从传统岗位转型为AI产品经理？AI时代的产品经理该如何拥抱AI，实现自我提升与产品创新？

2025-05-31 07:00:00 734

原创【新手必看】大模型100个基础知识点，你知道多少？

从智能对话到图像生成，从文本创作到数据分析，大模型的应用场景无处不在。然而，对于初入大模型领域的小白来说，面对众多的专业术语和复杂的概念，可能会感到无从下手。别担心，本文为你整理了大模型基础知识点近100个名词解释，助你轻松开启大模型的学习之旅！

2025-05-30 12:13:23 1005

原创 DeepSeek-R1-0528版本：全球推理之王，新巅峰背后的硬核进化

2025年5月28日，DeepSeek 团队低调开源了 DeepSeek-R1-0528。虽被官方称为“小版本试升级”，但实测表现却堪称“推理能力大爆炸”——在数学、编程等核心推理任务中，它一举将开源模型推至接近 GPT-o3 的顶级水平。作为长期追踪大模型技术演进的研究者，我认为此次更新揭示了一条以深度后训练优化撬动基座模型潜能的全新路径。下面，我将从架构设计、训练策略、能力边界及产业影响等维度，为你层层拆解 R1-0528 的硬核技术原理。

2025-05-30 12:04:00 1072

原创 AI智能体｜扣子（Coze）搭建工作流入门教程，看完这篇你也可以！

简单来说，就是把大模型，插件，工具等连接在一起让它们帮你自动完成多个步骤的任务。

2025-05-29 14:42:58 967

原创终于把AI大模型三种模式agent、copilot、embedding弄清楚了

这张「人类与 AI 协同的三种模式」图，是我想搞清楚这三个概念热词的关系，自己花了些时间找资料总结后，让 Claude 3.7 Sonnet 生成出来的。之所以做这个对比图，是觉得在当下很有价值，有助于自己更好地理解和应用 AI。也挺适合大家去了解学习的，今天就在这里分享一下。

2025-05-29 14:38:55 818

原创 Dify+数据库+Echarts终极避坑指南！从自然语言到炫酷图表，一篇文章解决你90%的难题！

Dify+数据库+Echarts终极避坑指南！从自然语言到炫酷图表，一篇文章解决你90%的难题！

2025-05-28 15:53:41 789

原创大模型入门：一文讲清楚微调（Fine-Tuning）

微调（Fine-tuning）是一种在自然语言处理（NLP）中使用的技术，用于将预训练的语言模型适应于特定任务或领域。Fine-tuning的基本思想是采用已经在大量文本上进行训练的预训练语言模型，然后在小规模的任务特定文本上继续训练它。

2025-05-28 15:27:46 633

原创一文了解，什么是大模型，智能体、AIGC，关系及应用

人工智能技术飞速发展，各种新概念层出不穷。AIGC、大模型、Agent等术语频繁出现在新闻和社交媒体中，但很多人对这些概念感到困惑，不清楚它们之间的区别和联系。本文将用简单易懂的语言，为大家解释这些概念，即使是完全的"小白"也能轻松理解。

2025-05-27 14:09:48 1136

原创清华大学.智灵动力-《DeepSeek行业应用实践报告》附PPT下载方法

今天分享是由清华大学.智灵动力：《DeepSeek行业应用实践报告》，主要介绍了DeepSeek模型的概述、优势、使用技巧、与其他模型的对比，以及在多个行业中的应用和未来发展趋势。为理解DeepSeek模型的应用和未来发展提供了深入的分析，并通过多个行业的具体案例，展示了DeepSeek在提升工作效率和创造价值方面的巨大潜力。

2025-05-27 14:00:50 432

原创算力深度报告：算力研究框架——产业链全梳理（PDF文件下载）

今天分享的是人工智能AI研究报告：《算力深度报告一：算力研究框架-产业链全梳理》。

2025-05-26 13:55:38 961

原创一文说清楚什么是基础模型(Base LLM)、指令微调模型(Instruction-Tuned LLM)

在自然语言处理（NLP）领域，大语言模型（LLM）已成为推动人工智能进步的关键技术。随着模型规模的扩大和训练数据的增长，LLM 在各种文本生成和理解任务中展现了卓越的能力。在做开发的过程中，可能会接触到两种不同的模型类别，这两个类别是 Base LLM（基础大语言模型）和 Instruction-Tuned LLM（指令微调大语言模型）。

2025-05-26 13:47:33 1124

原创入门大模型应用开发：这些大模型知识必知必会！

语言建模的研究始于20世纪90年代，最初采用了统计学习方法，通过前面的词汇来预测下一个词汇。然而，这种方法在理解复杂语言规则方面存在一定局限性。

2025-05-24 14:23:26 1023

原创炸裂！Spring AI 1.0 正式发布，让 Java 再次伟大！

炸裂，炸裂，炸裂！从第一次提交代码到现在，经过 2 年的沉淀，Spring AI 框架的第一个正式版本 1.0 终于发布了。

2025-05-24 14:18:30 936

原创刚刚！首个下一代大模型Claude4问世，连续编程7小时，智商震惊人类

全世界都在等待 GPT-5、DeepSeek V4，但今天起，大模型竞争已经进入了全新阶段。北京时间周五凌晨，知名 AI 创业公司 Anthropic 正式推出 Claude 4 系列大模型。先期推出的型号包括 Claude Opus 4 和 Claude Sonnet 4，它们为代码生成、高级推理和 AI 智能体树立了全新标准。

2025-05-23 14:09:08 762

原创 Cursor + MCP = 王炸！彻底颠覆我的 Cursor工作流，效率直接起飞（手把手教程）

MCP是一种开放协议，它标准化了应用程序向LLM提供上下文的方式。可以将 MCP 视为 AI 应用程序的 USB-C 端口。正如 USB-C 提供了一种将设备连接到各种外围设备和配件的标准化方式一样，MCP 提供了一种将 AI 模型连接到不同数据源和工具的标准化方式。MCP 是 Claude (Anthropic) 主导发布的一个开放的、通用的、有共识的协议标准。还多提一句，这个协议的发布最佳机会应该是属于 OpenAI 的。如果 OpenAI 刚发布 GPT 时就推动协议，相信大家都不会拒绝，但是 O

2025-05-23 14:02:56 932

原创零基础也能学！90 天 AI 大模型学习指南，带你快速入门到精通

人工智能（AI）特别是大语言模型（LLMs）的浪潮正以前所未有的速度席卷全球，从科研到产业，其影响力日益深远。对于渴望踏入这一前沿领域的学习者而言，一个清晰、高效的学习路径至关重要。本文旨在为您提供一个为期三个月的AI大模型快速学习计划，帮助您从基础概念到实践应用，系统构建知识体系，抓住时代机遇。

2025-05-22 14:50:52 812

原创小米面试题: QLoRA和LORA有什么区别?

面试题:QLoRA和LORA有什么区别?

2025-05-22 14:39:34 544

原创大模型面试终极指南：100道大模型面试题，一篇掌握所有关键知识点_大模型面试

最近招聘市场正在如火如荼地进行中，看到很多人的简历上都包含大模型相关的工作，各家大厂和初创都很舍得给钱，动辄百万年包也变得不再稀奇。因此在大模型纵横的这个时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。本文总结了

2025-05-21 14:36:07 797

原创大模型微调指南：一文看懂5种微调大语言模型（LLMs）的技术！

在人工智能领域，微调大语言模型（LLMs）一直是提升模型性能的重要手段。传统上，微调LLMs意味着要调整数十亿个参数，这不仅需要强大的计算能力，还需要大量的资源。然而，随着一些创新方法的出现，这一过程已经发生了革命性的变化。今天，我们将通过视觉化的方式，为你介绍五种最新的LLMs微调技术，让你轻松理解这些复杂的技术概念。

2025-05-21 14:26:01 938

原创从0-1手把手教你用Dify+DeepSeek-R1，搭建超强AI工作流！

Dify是一个开源的LLM应用开发平台，它通过直观的可视化界面，帮助开发者快速构建和部署AI应用，支持包括模型管理、知识库、工作流编排等全方位功能，你可以把它理解为一个类似于扣子的"AI应用的乐高积木系统"。

2025-05-20 14:01:22 770

原创手把手教你构建Agentic RAG：一种基于多文档RAG应用的AI Agent智能体

经典RAG应用的范式与架构已经非常流行，你甚至可以在很短的时间内借助成熟框架开发一个简单能用的RAG应用：用户问题被输入RAG、应用执行检索、从被向量化的文档中检索相关知识块、送入到LLM（大语言模型）进行合成响应：

2025-05-20 13:55:03 648

原创【大模型微调】入门大模型微调，这些必备知识必须了解！

所谓大模型微调，指的在已有的大规模预训练模型基础上，通过对标注数据进行训练，进一步优化模型的表现，以适应特定任务或场景的需求。不同于RAG或者Agent技术，通过搭建工作流来优化模型表现，微调是通过修改模型参数来优化模型能力，是一种能够让模型“永久”掌握某种能力的方法。

2025-05-19 14:55:13 1435

原创终于有人把AI大模型三种模式：Agent、copilot、embedding讲清楚了！

今天来和大家讲讲AI大模型的三种模式：agent、copilot、embedding

2025-05-19 14:47:42 1300

原创 GitHub 热门学习笔记《从零构建大模型》，建议收藏！

今天给大家推荐一份 GitHub 上很火的机器学习学习笔记《从零构建大模型》，目前已经收获 1.6K stars，这份笔记完美展示了从零构建 LLM 的技术路线图，既有理论深度，又包含实践要点。每个核心概念都配有清晰的示意图，便于理解和实践。建议先掌握基础概念，再逐步深入理解高级特性，这样能形成更系统的知识体系。

2025-05-16 13:50:19 525

原创狂揽22.6k星！这个开源工具让你一键调用100+大模型，开发效率直接起飞！

LiteLLM 是由BerriAI团队开发的开源神器，它通过标准化OpenAI格式的API接口，让开发者可以无缝调用包括OpenAI、Azure、Anthropic、Hugging Face等在内的100+主流大语言模型。无论是企业级AI应用开发，还是个人AI工具搭建，这个项目都能让你摆脱"API接口地狱"，真正实现"一次开发，全平台通用"。

2025-05-16 13:40:48 498

原创 DeepSeek火爆出圈：一文详解使用方法及接入API

国产AI大模型 DeepSeek 直接登顶多个国家 AppStore 免费App排行榜第一，为什么DeepSeek会如此火爆？

2025-05-15 13:47:26 599

原创 AI从0到1喂饭教程｜什么是大语言模型（LLM）？

LLM（Large Language Model，大语言模型）是指基于深度学习、拥有大量参数（通常为十亿级以上）、在海量文本数据上进行训练的自然语言处理模型。它的目标，是让机器理解语言、生成语言、参与任务型语言交互。这类模型的输入是自然语言文本，输出也是自然语言文本，能力涵盖写作、翻译、摘要、代码生成、问答、逻辑推理、知识记忆等。它不仅仅是“聊天机器人”的技术底座，而是一种通用的语言认知引擎，是未来AI产品形态的中枢神经系统。

2025-05-15 12:02:53 904

原创一文读懂大模型思维链（Chain-of-Thought）、ToT、GoT、PoT等提示词工程框架

2025年，DeepSeek R1备受大众热烈关注。与以往的GPT系列、文心一言、通义千问等生成模型有所不同，它属于推理模型，显著增强了大模型处理复杂问题的能力。DeepSeek R1之所以具备推理功能，得益于其在模型中运用了思维链（Chains of Thoughts，CoT）。思维链这一概念最早由Google Brain高级研究员Jason Wei和Xuezhi Wang提出，并在2022年1月发表的论文“Chain-of-Thought Prompting Elicits Reasoning in L

2025-05-14 11:46:12 1270

空空如也

空空如也