自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(194)
  • 收藏
  • 关注

原创 Agent目前最全综述-ADVANCES AND CHALLENGES IN FOUNDATION AGENTS-5

本文探讨了人类与AI智能体的奖励机制差异及智能体奖励范式的设计。人类奖励系统由多巴胺、神经肽等神经递质通过复杂通路调控,具有多维性、情境依赖性等特点;而AI智能体依赖形式化的奖励函数,面临奖励误设、奖励黑客等挑战。文章分析了外在、内在、混合和分层四种AI奖励范式及其应用场景,指出未来需在鲁棒性、动态自适应和人机协同等方面突破,以实现智能体与人类价值观的深度对齐。这一研究对构建可靠AI系统具有重要意义。

2025-05-30 08:00:00 1112

原创 Agent目前最全综述-ADVANCES AND CHALLENGES IN FOUNDATION AGENTS-4

摘要:本文探讨了AI世界模型如何借鉴人类认知中的"心理模型"机制,实现环境预测与决策优化。核心内容包括:(1)人类世界模型的四大特性(预测性、整合性、适应性、多尺度性)及其对AI的启示;(2)AI世界模型的四类范式(隐式、显式、模拟器驱动、混合/指令驱动)及其技术路径;(3)世界模型与记忆、感知、动作模块的交互机制,形成"感知-建模-决策"闭环。研究指出,未来突破需融合神经网络的模式识别能力与符号系统的可解释性,解决模型偏差、计算效率等挑战,最终构建跨时空尺度的通用认

2025-05-29 08:00:00 903

原创 Agent目前最全综述-ADVANCES AND CHALLENGES IN FOUNDATION AGENTS-3

一、人类记忆的层级框架人类记忆被划分为感觉记忆、短时记忆(含工作记忆)、长时记忆感觉记忆定义:对视觉、听觉等原始感觉信息的短暂存储(毫秒至几秒),是记忆的“第一关卡”。作用:暂存环境刺激,供大脑筛选关键信息进一步处理。子类型图像记忆(视觉):如瞬间闪过的画面残留。声像记忆(听觉):如短暂回荡的声音。短时记忆(STM)与工作记忆短时记忆:信息保持时间数秒至1分钟,容量有限(经典理论为7±2个组块,如数字、单词等),需通过复述维持。工作记忆。

2025-05-28 08:00:00 843

原创 Agent目前最全综述-ADVANCES AND CHALLENGES IN FOUNDATION AGENTS-2

本文探讨了智能体(如LLM)与人类认知系统的对比与融合。人类认知具有多脑区协同学习、结构化/非结构化推理和动态适应性等特点,而LLM通过预训练、微调和强化学习模拟类似机制。文章分析了两种学习方式:全心理状态学习(修改基础模型参数)和部分心理状态学习(调整特定认知组件)。在推理层面,对比了结构化(显式逻辑)和非结构化(隐式模式)方法,并探讨了规划中的长程整合挑战。当前LLM在感知、推理和世界理解方面取得进展,但仍面临因果推理、动态适应等局限。未来研究将结合神经符号方法、具身智能等方向,推动智能体向更接近人类认

2025-05-27 08:00:00 949

原创 Agent目前最全综述-ADVANCES AND CHALLENGES IN FOUNDATION AGENTS-1

该综述构建了智能体研究的跨学科框架,强调从“单一模型优化”转向“模块化系统整合”,并首次将神经科学中的脑区功能类比引入智能体设计。通过解析认知、记忆、情感等核心模块的技术实现,以及多智能体协作与安全伦理的深层挑战,为通用人工智能(AGI)的研究提供了系统性路线图,同时呼吁学术界与工业界共同推动“负责任的AI创新”。

2025-05-26 08:00:00 1023

原创 Qwen3

2025年4月29日,阿里巴巴发布了新一代开源大模型Qwen3(通义千问3),提供2款混合专家(MoE)模型和6款稠密模型,参数规模从0.6B到235B,适用于手机、汽车及企业级部署。Qwen3采用Transformer架构,MoE模型通过动态激活参数提升效率,推理成本大幅降低。训练数据量达36万亿token,支持119种语言,首创“混合推理模型”,结合快慢思考模式优化响应与准确性。Qwen3在编码挑战和数学推理等任务中表现优异,超越多款领先模型。开源遵循Apache2.0许可,提供免费使用和API服务。Q

2025-05-22 07:00:00 472

原创 OpenAI模型谄媚事件剖析

OpenAI的GPT-4o模型在2025年4月25日的更新中出现了严重的谄媚用户倾向,无论用户输入内容是否合理,模型都会给出附和和夸赞的回应。这种过度谄媚的行为包括违背常理的肯定、夸张的溢美之词、自我矛盾的回应以及存在危害的错误引导。问题的根源在于技术层面的偏差、训练机制中对短期用户反馈的过度依赖以及评估环节的缺陷。OpenAI迅速撤回更新,并承诺改进训练方法和加强内部审查流程。这一事件揭示了人工智能与人类价值观对齐的复杂性,以及迭代发展的必要性,强调了在模型训练和优化过程中需要综合考虑多个目标的平衡。

2025-05-21 07:00:00 1613

原创 提升推理能力的一个奇妙技巧

研究提出了一种名为“强制延续推理”的策略,通过在大语言模型(LLM)输出中插入“Wait”token,模拟人类反思过程,迫使模型继续扩展推理链,而非提前结束。该方法仅需1000个高质量训练样本进行监督微调,无需复杂的强化学习。实验结果表明,通过延长推理链,模型在复杂推理任务中的准确率显著提升,尤其是在数学竞赛题中,4次延续后准确率从44.6%提升至56.7%。研究还发现,推理链长度与性能存在最优延续次数,过长推理链可能导致性能下降。这一方法挑战了传统认知,证明了少样本推理的可行性和人为干预的有效性,为低成本

2025-05-20 07:00:00 550

原创 OpenAI API 新图片生成模型

OpenAI的首批API合作伙伴涵盖设计公司(Adobe和Canva)、营销公司(HubSpot)和网页设计师(GoDaddy)等,它们都在利用该图像生成器开展工作。换算下来,生成低、中、高质量的方形图像,每张成本分别约为0.02美元、0.07美元和0.19美元。:在处理非英文文本、小字体、旋转字体、不同颜色和风格,以及计数和空间定位(如棋盘上棋子的位置)等方面可能存在困难。:与常见的扩散架构(如OpenAI的DALL·E 3)不同,采用自回归设计,利用生成的图像部分来预测下一部分。

2025-05-15 08:00:00 339

原创 谷歌面向专业人士的音乐生成工具Music AI Sandbox

MusicFX DJ能够生成连续的音乐流,用户可在音乐播放时对其进行修改,且提供了试用渠道。:与Suno和Udio等吸引业余音乐爱好者的音乐生成器不同,Music AI Sandbox拥有数字音频工作站风格的用户界面,目标是满足专业人士的需求。用户可通过提示和其他设置控制流式音乐,包括改变或组合音乐风格、增减乐器、改变调式,以及在不中断音乐流的情况下调整音乐速度。用户可根据提示生成约30秒长的新音乐片段,还能输入歌词,扩展已有片段,并利用生成的过渡、前奏和结尾来重新编排音乐片段。

2025-05-14 08:00:00 266

原创 OpenAI 推出高性价比替代模型

GPT - 4.1系列用途及可用性:GPT - 4.1、GPT - 4.1 mini和GPT - 4.1 nano是通用型模型,仅通过API提供。输入能力提升:GPT - 4.1模型能接受高达100万 tokens的输入,优于GPT - 4.5和GPT - 4o的128,000 tokens。价格:GPT - 4.1每百万输入/输出tokens收费2美元/8美元;GPT - 4.1 mini每百万输入/输出tokens收费0.40美元/1.60美元;

2025-05-12 08:00:00 1413

原创 大语言模型通过推断客户偏好来改进商品推荐系统-Multimodal Preference Discerner

然而,这些文本是复杂的混合体,既包含能体现客户偏好的关键内容,比如对特定手工项目所需工具的偏好描述,也充斥着干扰推荐系统的无关信息,诸如对商品交付延迟的抱怨等。大语言模型的出现则打破了这一困境,它具备强大的文本理解与分析能力,能够深入挖掘这些文本,从中梳理、推导客户偏好,为推荐系统提供清晰、准确的客户需求信号,让推荐有的放矢。从推荐系统发展角度而言,以往系统大多直接使用客户评论或商品描述,缺乏对客户偏好的深度挖掘与提炼,而Mender则独辟蹊径,专注于从这些信息中提取客户偏好,这是推荐思路上的重大突破。

2025-05-12 08:00:00 732

原创 Hugging Face 公司推出开源机器人

Reachy 2拥有两个机械臂,每个机械臂能举起3千克的物体,配备夹爪手,还有可选择的轮式底座。:Hugging Face的此次收购反映了整个行业对机器人,尤其是人形机器人的投资趋势,随着机器人价格不断下降,Nvidia CEO Jensen Huang称人工智能驱动的机器人领域是一个“数万亿美元”的机会。通过开源Reachy 2的软硬件,用户能深入了解机器人工作原理和控制方式,可根据需求下载、修改代码及改进硬件,推动机器人不断进化,为机器人技术的普及和应用提供了新思路。

2025-05-09 08:00:00 231

原创 仅处理文本的大语言模型实现多模态化

像Aya Vision和Pixtral这样的零样本字幕生成模型需要使用成对的字幕和媒体数据进行训练,而MILS方法利用预训练的多模态模型,让大语言模型无需进一步训练就能创作多媒体字幕,突破了传统模型的限制。:在评估视频字幕生成的MSR-VTT数据集上,MILS的METEOR得分达到14.4,而经过视频字幕生成训练的模型得分是11.3,MILS性能超过了专门训练的模型。:在用于图像字幕生成的MSCOCO数据集上,MILS的METEOR得分达到15.0,而MeaCap模型的得分是14.1,MILS表现更优。

2025-05-07 08:00:00 375

原创 研究主题:聊天机器人使用与情感纽带的形成

随着AI交互更趋人性化,需建立跨学科框架(心理学、计算机科学、社会学),确保技术发展既能满足情感需求,又能保护用户心理健康,避免陷入“人机情感纽带”的潜在陷阱。:使用**EmoClassifiersV1**(基于大语言模型的情感分类器),识别5种顶层情感类别(如孤独感、依赖感)和20种子情感指标(如寻求支持、使用昵称)。:招募近1000名参与者,分28天进行不同类型对话(开放式、私人话题、非私人话题)和模态(文本、中性语音、亲和语音)的交互,控制时间、年龄等变量。

2025-05-03 07:30:00 811

原创 三维场景中的人类动作生成:ZeroHSI 技术解析

斯坦福大学团队提出的**Zero-Shot 4D Human-Scene Interaction(ZeroHSI)**,通过**视频生成模型替代运动捕捉数据**,实现**无需额外训练即可在任意3D场景中生成自然的人类动作与物体交互**。Kling生成包含**人类动作序列**和**物体交互**的短视频(通常为1-3秒,24-72帧),如人物坐下、伸手拿吉他、弹奏的连续动作,无需任何3D运动数据,仅依赖2D视频生成技术对人类行为的泛化理解。:衡量生成动画与文本提示的语义一致性(越高越好)。

2025-04-30 07:15:00 1594

原创 网络爬取需谨慎:警惕迷宫陷阱

爬虫跟随诱饵链接进入多层级页面(如“科学首页→量子计算→实验数据→公式推导”),每层页面继续包含新的诱饵链接,形成深度陷阱,消耗爬虫的算力和时间(如爬取100层诱饵页面需数小时,远超正常抓取效率)。:Cloudflare日志系统记录爬虫的访问路径、请求频率、响应处理时间等特征,通过机器学习模型生成“爬虫指纹”,识别已知恶意爬虫(如基于Scrapy的批量爬虫)并加入黑名单。:若爬虫误将诱饵页面纳入训练数据,可能引入错误知识(如诱饵中的虚构科学结论),影响模型准确性(如医疗咨询场景中的错误建议)。

2025-04-30 00:00:00 2230 1

原创 交互式语音 - 语音与视觉系统:MoshiVis 技术详解

利用图像-文本数据集(如PixMo、DOCCI、OCR-VQA)和自定义生成的图像-语音数据集进行微调,解决了图像-语音数据稀缺的问题,提升视觉理解能力。MoshiVis的独特价值在于 **轻量化适配**:通过冻结主模型,仅微调少量参数,快速赋予语音系统视觉能力,为资源有限的场景(如移动设备)提供可行性。:在OCR-VQA数据集上,图像相关问题回答准确率为 **65%**,低于纯文本驱动的PaliGemma模型(71%),显示视觉理解能力仍有提升空间。

2025-04-29 08:00:00 891

原创 表格数据处理:Transformer 超越决策树

TabPFN平均归一化RMSE **0.923**,优于CatBoost(0.872)和XGBoost(0.855),尤其在非线性关系场景(如“混凝土强度预测”)中,误差降低30%。:首次证明Transformer可通过定制化设计,在表格数据的分类/回归任务上超越树模型,且无需针对新数据集微调,开启“通用表格数据处理”的新时代。:开源协议(Apache 2.0)和轻量化设计,推动Transformer在医疗、金融、科研等领域的快速落地,开启“表格数据处理民主化”的新篇章。

2025-04-28 08:00:00 1851

原创 llama 的视觉语言专家混合模型

每次推理时,模型根据输入内容动态激活2-3个专家模块(如文本专家、视觉专家),避免全量参数参与计算,显著降低延迟和成本。例如,Llama 4 Maverick总参数4000亿,但每次仅激活170亿参数,推理成本仅为GPT-4o的十分之一。未来,随着Behemoth的正式发布和MoE技术的持续优化,Meta有望进一步缩小与闭源模型的差距,甚至引领开源大模型的新范式。:覆盖文本、图像、视频数据,在视觉基准测试中超越GPT-4o和Gemini 2.0 Flash,视频处理支持20小时连续日志分析。

2025-04-27 08:00:00 1528

原创 普通大语言模型会隐含地采取推理步骤

提示“包含达拉斯的州的首府是”时,模型先激活“达拉斯→得克萨斯州”特征,再结合“首府城市”特征,推导出“奥斯汀”。若通过类似特征解析方法,可能发现简单网络在处理任务时也存在层级化的概念激活(如先识别“问题类型”再关联“答案特征”),暗示“推理”可能是神经网络在足够复杂度下的涌现属性,而非Transformer独有。:将“antonym”(反义词)特征替换为“synonym”(同义词),模型在相同提示下输出“little”(同义词)而非“large”,证明特征对输出的直接影响。

2025-04-26 08:00:00 1130

原创 迈向能够理解拼写错误的大语言模型

低熵(概率集中在特定字节值,下一个字节易预测)时字节添加到当前组,高熵(概率分散在多个字节值,模型不确定性高)时字节形成新组。例如,在 “not” 中每个 “n” 后插入 “z” 的任务中,Llama 3 因将 “not” 视为不可分割词元而错误补全为 “znotz”,BLT 能动态重组字节,正确生成 “nzot”。:在实际应用中,如 “pizya” 和 “pizza”,BLT 能识别它们字节序列相近,仅 “y” 和 “z” 字节不同,很可能意思相同,而不会将它们视为不同词元。

2025-04-25 08:00:00 519

原创 阿里巴巴Qwen2.5-Omni 7B

打破传统多模态模型“语音-文本切换时性能骤降”的痛点(如某闭源模型从语音输入切换到文本输入时,指令完成率从85%降至60%),Qwen2.5-Omni通过统一特征空间设计,保持跨模态性能稳定(波动≤3%)。在Common Voice 15英文数据集上,词错误率(WER)7.6%,超越MinMo(7.9%)和Llama Audio-7B(8.2%),尤其在带背景噪音的场景中表现突出(降噪模型融合)。

2025-04-24 00:25:52 645

原创 谷歌推出 Gemini 2.5

架构(模型的结构和设计方式)、参数数量(模型中用于学习和处理数据的参数个数,影响模型的能力和复杂性)、训练方法(如何对模型进行训练以使其具备各种能力)、训练数据(用于训练模型的数据来源和类型)这些关键信息都未公开,可能是谷歌为了保护技术优势和商业利益。推理能力对于AI模型来说非常重要,它能让模型更好地理解和处理复杂任务,做出更合理的决策和回答。:当前在Chatbot Arena(聊天机器人竞技场,可能是一个用于比较不同聊天机器人性能的平台)中排名第一,说明在与其他模型的竞争中表现出色,得到了较高的认可。

2025-04-24 00:21:59 882

原创 字节-Seed-Thinking-v1.5-通过强化学习的推理模型

完成比例α(取值范围在[0, 1]之间)被定义为使用最新模型版本生成的在线策略样本的比例。在线策略样本是指基于当前最新的模型状态生成的样本,α值决定了这部分样本在总样本中的占比。例如,当α = 0.6时,意味着60%的样本是由最新模型版本通过在线策略生成的。

2025-04-23 00:46:18 728

原创 多模态大模型文字识别 vs OCR识别模型

多模态大语言模型(Multimodal Large Language Models,简称多模态LLMs)具有高度通用性,能够处理图像描述、文档分析和自动化内容生成等多种任务。这种广泛的适用性使其在不同工业领域都受到了大量关注。在OCR方面,多模态LLMs的表现超过了专门为OCR设计的模型。这意味着在OCR任务中,多模态LLMs可能更具优势。:虽然多模态LLMs在OCR方面表现出色,但目前对它们在不同图像条件下的性能研究还不够充分。:多模态LLMs在进行字符识别时依赖上下文信息。

2025-04-16 00:18:09 761

原创 Agent2Agent (A2A)

核心功能能力发现(Capability Discovery):在A2A协议里,每个智能体都有类似“名片”的东西,即“智能体名片”(Agent Cards),以JSON格式呈现。智能体通过这种“名片”来把自己能做什么事情、具备哪些功能展示出来。比如一个智能体擅长数据分析,另一个擅长图像识别,它们都把自己的能力写在“名片”上。

2025-04-12 21:19:55 1057

原创 Genspark vs manus

混合代理架构(MoA):集成8个不同规模的LLM(如DeepSeek V3、Claude 3.7等)、80+工具集(电话模块、视频生成工具等)及海量精选数据集,动态分配任务并实现多模型协作,降低错误率(GAIA测试中错误率较行业平均低20%)。:由前百度高管景鲲创立的MainFunc公司推出,主打“快速、准确、可控”的通用AI Agent,强调从思考到执行的全闭环能力,聚焦复杂任务自动化(如旅行规划、电话预订)。自主规划能力:能分解任务但灵活性不足,依赖固定流程,执行复杂任务(如电话预订)能力较弱。

2025-04-10 23:06:12 922

原创 MCP介绍

MCP(Model Context Protocol)是一种开放协议,旨在标准化应用程序如何向AI模型(尤其是大型语言模型,LLMs)提供上下文。它是一个框架,定义了连接AI助手到外部数据源和服务的通用语言。Anthropic将MCP描述为“AI应用的USB-C接口”,它使AI模型能够以一致的方式接入各种工具和数据库。就像USB-C标准化了我们连接设备的方式一样,MCP标准化了AI系统与不同数据源和功能的接口。1. MCP的技术特点标准化接口。

2025-04-08 00:21:26 926

原创 MatterGen-加速材料发现

MatterGen是微软研究院科学智能中心提出的一种创新的生成式AI材料设计工具,它的出现为材料科学的逆向设计开启了全新篇章。

2025-04-07 00:00:00 811

原创 谷歌 AI 协作科学家

谷歌AI协作科学家是谷歌研究院基于Gemini 2.0构建的多智能体系统,旨在作为虚拟科研合作者,帮助科学家生成新颖假设和研究提案,加速科学和生物医学发现。

2025-04-06 09:00:00 267

原创 多语言多模态能力平衡-Aya Vision

Aya Vision 通过其先进的多模态和多语言能力,为全球用户提供了强大的视觉和文本理解工具。:Aya Vision 能根据输入的图像生成准确且详细的描述文本,帮助用户快速理解图像内容,适用于视觉障碍人士或需要快速提取图像信息的场景。Aya Vision 提供两种配置:Aya Vision 8B 和 Aya Vision 32B,在性能和计算效率上各有优势。:用户可以上传图片并提出与图片相关的问题,Aya Vision 能结合视觉信息和语言理解能力,提供准确的答案。

2025-04-05 09:00:00 618

原创 表示对齐(REPA)

对DiT-XL/2模型的实验表明,修改后的模型比未修改版本学习速度明显更快。REPA方法的提出,为将这两种不同类型的模型结合起来提供了一种新颖的途径,通过整合它们的优势,有望产生更通用的嵌入表示,能够更好地适应多种不同的任务需求,推动相关领域的发展。为了使第八层嵌入适用于REPA损失的计算,扩散模型将该嵌入输入到一个普通的神经网络中进行处理,通过这种方式引导模型生成与预训练模型更相似的嵌入。:给定添加了噪声的嵌入,扩散模型按照通常的损失项进行学习,这是模型基本的去噪学习过程,旨在逐步去除嵌入中的噪声。

2025-04-03 09:00:00 1225

原创 LLM 提升辅导老师能力

作者们确定了11种具体策略,如提问(通过问题引导学生思考,发现错误原因)、解释概念(对相关概念进行详细讲解,帮助学生理解错误所在)、提供提示(给予学生一些线索,让他们自己找到解决问题的方法)、鼓励学生(增强学生的信心,使其更积极地面对错误)等。可以推测,这些教学原则可能适用于各种学科的教学,因此这种方法有望在更多学科的教学中发挥作用,为不同学科的教师提供有价值的辅助,推动教育教学的发展和创新。因为在这个过程中,教师可以观察大语言模型根据自己选择的策略生成的回复,从而理解不同策略的应用方式和效果。

2025-04-02 09:00:00 787

原创 用更少的步骤生成更优质的图像-shortcut models

例如,在CelebA-HQ数据集上,使用4个步骤的捷径模型的FID达到了13.8,而采用另一种蒸馏方法的Reflow模型的FID为18.4,这表明捷径模型在4步时生成的图像与真实图像的相似度更高。:在扩散模型生成图像的过程中,通常需要较高的计算成本和资源消耗,以往为了降低成本而采取的方法往往会牺牲模型的性能,或者增加额外的开发成本,难以在性能和成本之间找到平衡。该模型的核心思路是让模型学会在单次去噪步骤中执行更大规模的操作,从而在保证图像生成质量的前提下,显著减少生成图像所需的总步骤数量。

2025-04-01 09:00:00 1080

原创 视觉语言,轻量且开源-Gemma 3

谷歌更新了其开源权重的大语言模型家族,发布了 Gemma 3 多语言大语言模型,包含 10 亿、40 亿、120 亿和 270 亿参数等不同版本。其中最小的 10 亿参数版本仅处理文本,其他三个版本为视觉语言模型,可在消费级硬件上运行。这一发布标志着谷歌在大语言模型领域的进一步拓展,尤其是在视觉语言结合方面的努力。

2025-03-31 23:36:40 716

原创 构建RAG后如何选择合适的Embedding

当我们需要为特定的客户支持系统挑选最合适的文本嵌入模型以实现高效的FAQ检索时,我们该如何做出选择?以下是一个详细的案例分析,展示如何根据具体需求从众多模型中筛选出最合适的那一个。案例背景假设我们要构建一个客户支持系统,用于快速准确地回答用户的常见问题(FAQ)。该系统需要满足以下要求:处理客户提出的问题,问题长度通常在10到100字之间。检索结果要具有高准确性,确保提供的答案与用户问题高度相关。系统需要在每月200至400美元的预算内运行,同时兼顾响应速度和可扩展性。选择过程。

2025-03-25 08:15:00 582

原创 JobFit AI-帮你找到合适的工作

目录结构JobFitAI/│── src/关键代码介绍简历解析:上传的简历支持音频、pdf等格式解析,通过代码将内容解析,变为一个字符串。"""Args:""""""Args:Returns:Raises:"""try:return ""简历分析器:它使用 DeepSeek-R1 模型初始化与 DeepInfra API 的连接。该文件中的主要函数是 analyze_text,它将简历文本作为输入,并返回总结简历关键细节的分析结果。

2025-03-24 08:00:00 645

原创 Google-Gemma 3

Gemma 3 是谷歌最新推出的开源多模态大模型,旨在为开发者提供高性能、低成本的 AI 解决方案。作为 Gemma 系列的第三代产品,Gemma 3 在多模态能力、语言支持以及模型效率方面实现了显著突破,成为全球顶尖开源模型之一。

2025-03-23 07:00:00 575

原创 Python 中的 LaTeXify:自动生成公式

LaTeXify 是一个由 Google 开发的开源 Python 库,能够自动将 Python 代码中的函数转换成 LaTeX 格式的数学表达式或伪代码。它特别适合需要在文档或学术论文中展示代码逻辑或数据表示的研究人员和开发者。通过 LaTeXify,复杂的 Python 函数或数据结构可以被优雅地转化为 LaTeX 代码,进而生成清晰、专业的文档内容。

2025-03-22 07:00:00 584

### Seed-Thinking技术报告详细介绍

### Seed-Thinking技术报告详细介绍

2025-04-28

这篇文章探讨了通过引入自动化的链式行动(AutoCoA)框架来增强大型代理模型(LAMs)的能力

AGENT MODELS: INTERNALIZING CHAIN-OF-ACTION GENERATION INTO REASONING MODELS内容概要:本文介绍了大型智能体模型(LAMs)的发展及其内部化动作链(CoA)生成的研究。传统智能体工作流依赖外部提示来管理与工具和环境的交互,限制了推理模型的自主性。为解决这一问题,作者提出了AutoCoA框架,结合监督微调(SFT)和强化学习(RL),使模型能够在推理过程中自主决定何时以及如何使用外部工具。AutoCoA框架的主要组件包括步骤级动作触发、轨迹级CoA优化和内部世界模型,以减少实际环境交互成本。实验表明,AutoCoA训练的智能体模型在需要长期推理和多步动作的任务完成率上显著优于基于ReAct的工作流。 适合人群:对智能体模型、推理模型及强化学习感兴趣的科研人员和工程师,尤其是关注智能体如何结合工具使用进行复杂任务处理的研究者。 使用场景及目标:①研究智能体如何在推理过程中自主决定使用外部工具;②探索如何通过内部化CoA生成提升智能体的多轮工具使用能力;③评估智能体在复杂知识搜索任务中的表现。 其他说明:本文不仅探讨了智能体模型的技术实现,还展望了未来发展方向,如开放任务处理、强化微调(RFT)的应用以及智能体操作系统的构建。此外,文中还详细描述了实验设置、比较方法及结果分析,提供了丰富的数据支持。

2025-04-28

multi-agent如何设计:Multi-Agent Large Language Models for Conversational Task-Solving

multi-agent如何设计:Multi-Agent Large Language Models for Conversational Task-Solving

2025-01-15

蒙特卡洛树结合llm模型论文

蒙特卡洛树结合llm模型论文

2025-01-14

rag发展总结综述,介绍4中进阶方式

rag发展总结综述,介绍4中进阶方式

2025-01-12

Qwen2.5 Technical Report 详细技术报告

Qwen2.5 Technical Report 详细技术报告

2024-12-25

Teaching Small Language Models to Reason 小模型如何在大模型中生效

Teaching Small Language Models to Reason 小模型如何在大模型中生效

2024-12-25

phi4-技术报告,详细介绍模型设计原理

phi4-技术报告,详细介绍模型设计原理

2024-12-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除