快手技术-CSDN博客

原创生成式强化学习在广告自动出价场景的技术实践

在实时竞价（RTB）广告系统中，广告出价模块作为连接广告主需求与流量匹配的核心枢纽，需要将广告主的营销目标（如转化率、ROI）转化为动态竞价决策。作为竞价机制的中枢神经，广告出价不仅直接影响广告主的投放效果，也是广告排序分的关键组成模块，进而影响平台侧的流量分配效率。广告出价的面临的核心挑战可以概括为以下三点：1. 既要花钱，又要省着花：广告主既需控制单日花费不超预算，又需尽可能降低每次转化（如购买、下载等）的成本。

2025-09-24 11:34:42 4488 1

原创入围AA总榜Top10，Non-Reasoning Model榜单第一！KAT-Coder-Pro V1 新版本踏浪归来！

快手 Agentic Coding 模型 KAT-Coder-Pro V1 重磅升级！在 Artificial Analysis Intelligence Index 官方评测中，该模型以64分超越 Claude 4.5 Sonnet，综合模型能力入围总榜Top 10；在 Non-Reasoning Model 榜单中以绝对优势斩获第一名。模型目前仍在限时免费中，欢迎试用。

2025-12-16 10:27:25 396

原创快手可图联合清华大学提出VQRAE, 首个能同时产生连续表征和离散表征的统一tokenizer!

快手可图联合清华提出的VQRAE技术，直接打造了首个能同时产生连续+离散表征的统一tokenizer，彻底打破两者的“语言隔阂”！核心亮点速码：✅ 单编码器架构超高效✅ 业内首个高维全利用率码本✅ 两阶段训练平衡满分

2025-12-15 11:05:34 635

原创快手可图与华中科技大学提出VGT，让任意 VLM 摇身一变成为 SOTA 图像生成模型！

谁说看懂世界的AI不会创造世界？快手可图团队联合华中科技大学搞出的VGT技术，直接把这个潜力激活了——不用从头训练大模型，只要简单“专项微调”，Qwen2.5-VL、InternVL3这些“理解派”AI，立马就能变身顶尖生图高手！

2025-12-11 10:46:19 553

原创可灵团队提出OmniSync：无限时长、强id保持、遮挡情况下强鲁棒性，视频口型编辑新突破！

换配音总对口型失败、数字人直播几小时就脸崩、遮挡场景下编辑口型直接崩效果？快手 OmniSync 直接用三大创新把这些痛点全攻克，重新定义了口型编辑的行业标准！✅ 无 mask 训练范式，彻底解耦口型与身份✅ 流匹配推理，实现无限时长不漂移✅ 动态时空 CFG，精准又不毁纹理

2025-12-10 10:55:41 871

原创 “对齐”驱动增长：快手Align³GR广告生成式推荐大模型

短视频广告推荐中常存在用户真实需求与广告内容、历史点击行为脱节的 “错位” 问题。快手推出的 Align³GR 广告生成式推荐大模型，以 “对齐” 技术为核心破解该难题，通过从基础对齐工具 DAS 到进阶大模型 Align³GR 的两步关键进化，让推荐系统同时读懂广告内容、把握用户真实偏好并契合平台与商家诉求，最终实现用户看得顺眼、商家获得效果、平台提升收益的三方共赢。

2025-12-09 13:24:02 880

原创 NeurIPS 2025 | 快手联合南开提出情感树推理新方法，显著提升多模态大模型情感理解能力

你是否希望AI不仅能“看见”画面，更能“读懂”人心？传统方法在分析视频情感时，往往只能进行基础分类，难以理解复杂情感的动态变化。针对这一挑战，快手可灵团队与南开大学提出了创新解决方案——VidEmo，让AI首次实现“情智兼备”的情感推理。🧠 核心创新：像人一样“分步推理”研究团队提出了一个基于情感线索引导的树状推理框架。VidEmo不再试图一步到位，而是模拟人类的认知过程，分三个阶段层层递进：🌟感知基础属性🌟分析表情信号🌟综合推断高层情感

2025-12-05 16:16:27 609

原创 NeurIPS 2025 | 让扩散模型“评价”自己：中科院与快手可灵团队提出隐式奖励建模新范式

用 AI 画图总遇到 “差口气” 的情况 —— 明明按指令描述了，生成的图却不符合审美，要么颜色奇怪，要么细节拉胯… 原来问题出在 “偏好优化” 上！中科院自动化所和快手可灵团队的新研究，用 LRM+LPO 直接解决了传统方法的坑，目前该论文已被NeurIPS 2025 录用。

2025-12-04 09:34:42 877

原创让搜索更“懂你”：快手自研UniDex与UniSearch实现新一代工业级搜索

为了让搜索能像推荐一样“懂用户”、甚至“懂视频本身”，快手团队开始尝试一条新路径：用更智能的语义表征替代传统 Term，用能理解、能生成的模型重构整个搜索链路。在这样的探索中，新一代工业级搜索体系 UniDex 与 UniSearch 逐步成形。

2025-12-03 17:19:47 763

原创能看清，更要看懂：MME-VideoOCR全面评估MLLM视频OCR能力

看视频想提取文字时，AI 总掉链子 —— 运动模糊认不清字幕，弹幕叠着文字就懵，跨帧找个时间点的文字更是难上加难…快手可灵团队联合北京大学、清华大学、中科院自动化所等单位提出了 MME-VideoOCR，该 Benchmark 致力于系统评估并推动 MLLM 在视频 OCR 中的感知、理解和推理能力，目前该论文已被NeurIPS 2025会议录用。💡这基准到底有多能打？▪️ 10 大类 25 个子任务▪️ 1464 个视频 + 2000 条标注▪️ 测遍 18 个主流模型

2025-12-02 11:01:37 755

原创视频理解霸榜！快手Keye-VL旗舰模型重磅开源，多模态视频感知领头羊

快手最新开源的多模态大模型Keye-VL-671B-A37B，这次真的重新定义了“视觉理解”！🎯三大核心突破：✅ 超强视觉感知不仅能看清细节，还能推理逻辑，比人类判断更可靠✅ 精准视频理解能捕捉视频中每个镜头变化，识别场景细节✅ 复杂推理能力在数学、图表、逻辑推理任务中表现惊艳，思考更深入

2025-11-28 17:34:25 580

原创当推荐系统真正“懂你”：快手团队在NeurIPS 2025提出新成果TagCF

为什么推荐系统需要学会理解“人”的角色？快手 TagCF 给出答案。快手消费策略算法团队联合快手基础大模型与应用部及武汉大学，提出了 TagCF 框架，让推荐系统从“知其然”迈向“知其所以然”。📚 【两个新任务】 · 用户角色识别（User Role Identification）：建模一个用户的特征、个性、社会角色、需求；· 用户行为逻辑建模（Behavioral Logic Modeling）：建模 user role 和 item topic之间的逻辑关联图

2025-11-28 10:17:46 1058

原创快手&南大发布代码智能“指南针”，重新定义AI编程能力评估体系

快手 KwaiKAT 团队与南京大学刘佳恒老师 NJU-LINK 合作推出 SWE-Compass ——一个涵盖8大任务类型、8大编程场景、10种编程语言的代码智能统一评估框架，它包含2000个高质量实例，在任务类别、编程场景和语言方面实现了良好的平衡，为评估大型语言模型在实际软件工程任务中的能力提供了一个严格且具有代表性的评估框架。

2025-11-27 09:40:59 938

原创 NeurIPS 2025 | 可灵团队提出Flow-GRPO, 首次将在线强化学习引入流匹配生成模型

尽管流匹配模型已成为图像与视频生成的基石，但在处理复杂场景与文本渲染时仍面临挑战。为此，港中文MMLab、清华大学与快手可灵团队联合提出了Flow-GRPO，开创性地将在线强化学习引入流匹配模型训练，破解复杂场景生成难题。核心实验效果：✅ 复杂组合生成能力大幅提升✅ 文字渲染精准无误✅ 更懂人类偏好✅ 有效抑制奖励黑客行为

2025-11-26 15:25:19 652

原创 NeurIPS 2025 | 从数据微调到反馈优化！可灵团队提出基于人类反馈的视频生成训练范式

打破视频生成天花板！香港中文大学、清华大学和快手可灵团队联合发表论文《Improving Video Generation with Human Feedback》, 提出了面向基于流匹配的现代视频生成模型的综合对齐管线，让模型真正学会“什么是好视频”。该管线包含四个核心组件:1. 大规模人类偏好数据集2. 视频奖励模型VideoReward3. 评测基准VideoGen-RewardBench4. 视频偏好对齐算法

2025-11-25 10:21:35 443

原创超越 VTM-RA！快手双向智能视频编码器BRHVC亮相NeurIPS2025

快手音视频技术团队提出了全新的双向智能视频编码方法 —— BRHVC。该方法不仅在压缩性能上显著超越业内最先进的端到端智能视频编码方案，也成功超越最新标准的 VTM-RA 编码。文章亮点：从低时延模式到双向模式的扩展创新的双向智能视频编码框架

2025-11-24 10:31:55 665

原创闪耀NeurIPS 2025！快手13篇论文入选，Spotlight 成果跻身前三！

13篇入选，1篇Spolight！快手在 NeurIPS 2025 战绩亮眼！这些论文涵盖视频生成与优化、多模态大模型评估与鲁棒性研究、视频压缩与表征、情感计算与跨模态同步、以及实时视频流分析与应用等方向。论文链接和项目地址都整理好放至文中啦，快来点击阅读吧～

2025-11-19 10:42:30 931

原创快手可灵提出IMBA Loss，无需新数据，几行代码大幅提升生成模型概念组合成功率

你是否有许多天马行空、奇思妙想的创意，因为生成模型的概念组合能力有限而无法实现？快手可灵团队最新提出的IMBA Loss帮助你美梦成真。

2025-11-14 19:11:08 902

原创快手统一特征抽取框架KaiFG，用Python的优雅，唤醒C++般的性能狂潮！

当算法工程师困于异构特征框架的碎片化泥潭，当创新灵感被30分钟编译枷锁牢牢禁锢 —— 快手算法引擎团队自研的「特征工程超导体」KaiFG，破局而来！这套框架将赋能更多业务团队，让创新不再受技术枷锁所困，让每一行代码都能释放极致效能。

2025-11-13 11:14:43 802

原创从“拦路虎”到“修路工”：基于AhaEdit的广告素材修复

“素材又被拒了，到底哪里不行？”，你知道有问题，却不知道问题在哪？别着急！快手AhaEdit革新广告审核：从风险拦截到自动修复，让违规广告分钟级“自愈”。✨“一键过审”正在成为现实如今的AhaEdit已经能够支持多种模态的素材修复：• 文本编辑：精准删除或替换违规词汇• 图像编辑：文字擦除、物体擦除/替换、人体表情/姿态调整、背景替换• 视频编辑：擦除/替换违规元素

2025-11-07 14:16:41 880

原创快手&南大联合发布自适应推理框架HiPO，突破LLM“过度思考”困局

别想太多，其实AI可以又简单又轻松！HiPO框架在简单问题上秒回，在复杂问题上深思，实现效率与准确率的双赢

2025-11-06 10:51:23 592

原创端到端短视频多目标排序机制框架EMER详解

近日，快手正式发布全新推出的端到端多目标融合排序框架——EMER。该框架以其“会比较、自进化”的核心能力，重构了传统依赖人工经验公式的推荐模式，在快手主站App与极速版应用中实现了七日留存提升0.13%~0.2%、用户停留时长提升1.2%~1.4% 的显著效果，为行业推荐系统的智能化升级提供了可落地的解决方案。

2025-10-31 16:15:34 7771

原创 KwaiKAT AI开发挑战赛火热开启！赢取iPhone 17等豪华大奖！

借助 KAT-Coder-Pro V1 模型强大的编程能力开发一个原创项目，释放你的创造力，赢取iPhone17、大疆Pocket3、Switch等丰厚大奖！

2025-10-25 23:46:47 239

原创兼顾效率和性能！快手低代码平台在大型活动中的技术实践！

本文以CNY内容会场为例，系统阐述了积木平台在架构设计、性能优化与系统集成等方面的技术实践与落地成果。通过体系化的技术架构，积木平台有效平衡了高效搭建与业务创新之间的关系，通过SSG静态生成、组件分级渲染与异步渲染等关键技术，解决了300+组件加载的页面性能瓶颈，实现了大规模组件场景下的流畅体验。单一技术问题的解决方案往往并不复杂，但当其置于低代码平台这一复杂架构背景下时，技术挑战呈指数级上升。期望本文所分享的经验与思路，能为面临类似问题的技术团队提供有益的参考。

2025-09-29 14:10:12 686

原创可灵团队提出MIDAS：压缩比64倍、延迟低于500ms，多模态互动数字人框架实现交互生成新突破！

MIDAS在双边对话、多语言生成等任务中，MIDAS均实现实时生成（<500ms延迟), 并且扩散头仅需4步去噪，在效率与质量间取得最佳平衡，支持长达几分钟的连续生成，且质量衰减显著低于基线方法。这种设计既保证了生成的连贯性，也大幅降低了计算延迟，适合实时流式生成。为训练模型，研究者构建了一个约2万小时的大规模对话数据集，涵盖单人、双人对话场景，涵盖多语言、多风格内容，为模型提供了丰富的语境与交互样本。团队表示，未来将进一步探索更高分辨率、更复杂交互逻辑下的生成能力，并推进系统在真实产品环境中的部署。

2025-09-24 17:22:49 681

原创可灵AI数字人来了！快手重磅发布Kling-Avatar，面向多模态指令理解与控制的数字人长视频生成新范式

从“对口型”迈向“会表演”，快手可灵团队探索出一条全新的数字人生成范式，实现了在分钟级长视频中生动细腻、情绪饱满、身份一致的影视级演绎。Kling-Avatar现已集成到可灵平台，欢迎移步可灵平台体验新版数字人应用，看看你的声音和想法如何被一镜到底地演绎出来。近年来，快手可灵团队持续深耕多模态指令控制与理解的数字人视频生成解决方案。

2025-09-19 15:21:06 826

原创快手提出端到端生成式搜索框架OneSearch，让搜索“一步到位”！

快手提出业界首个工业级部署的电商搜索端到端生成式框架——OneSearch，OneSearch框架集三大创新于一身：关键词增强层次量化编码（KHQE）模块、多视角用户行为序列注入策略以及偏好感知奖励系统（PARS）。目前，该系统已在快手多个电商搜索场景中成功部署，每日服务数百万用户，产生数千万页面浏览量。

2025-09-19 11:28:21 10346

原创多模态大模型Keye-VL-1.5发布！视频理解能力更强！

快手正式发布了多模态大语言模型Keye-VL-1.5-8B。与之前的版本相比，Keye-VL-1.5的综合性能实现显著提升，尤其在基础视觉理解能力方面，包括视觉元素识别、推理能力以及对时序信息的理—表现尤为突出。

2025-09-08 17:32:00 4029

原创上下文记忆力媲美Genie3，且问世更早：港大和可灵提出场景一致的交互式视频世界模型！

为此，一种更合理的方式是从历史上下文中动态检索少量相关帧，作为条件引导当前帧的生成，我们将其称为“记忆检索”。如上图（a）所示，Context-as-Memory的长视频生成是通过基于Context learning的视频自回归生成来实现的，其中，所有历史生成的视频帧作为context，它们被视为记忆力的载体。在实验中，研究者将 Context-as-Memory 与最先进的方法进行了比较，结果表明，Context-as-Memory 在长视频生成的场景记忆力方面，相较于这些方法，表现出了显著的性能提升。

2025-09-03 15:09:31 946

原创快手发布SeamlessFlow框架：完全解耦Trainer与Agent，时空复用实现无空泡的工业级RL训练！

与Areal等其他框架通过引入落后多步off-polcy数据的做法不同，SeamlessFlow的时空复用pipeline，将off-polcy数据的落后程度控制在了1步以内，在实现无空泡的同时，尽可能减小了其对RL算法侧的负面影响。在这种情况下，如何设计RL系统，以保证这些在线产生的数据能无缝高效地进入RL的训练管线中、以及在不影响线上产品的情况下，最大化利用异构的计算资源，成为了一个极具挑战的问题。从智能体的视角看，它只是收到了一个稍长的等待时间，完全感知不到背后发生的模型更新或资源调度。

2025-08-29 16:21:17 2602 1

原创不止于“think with image”！快手Kwai Keye发布Thyme，赋予模型超越图像思考的超能力！

然而，对于更困难的任务，如监控与自动驾驶，在这些任务上Qwen-2.5-VL-7B的感知能力较弱时，Thyme的感知和推理任务的提升超过了25%，尤其是在推理任务中，提升更为显著。首先，由于两轮对话数据的特殊性，出现了一些意想不到的模式：模型在第一轮倾向于生成错误或不充分的分析和代码，然后在第二轮进行修正，使得第一轮基本上无效。具体来说，为文本使用较高的温度以鼓励探索和创造性，为代码使用极低的温度（0.0）以确保生成代码的精确性和可执行性，巧妙地平衡了推理的灵活性和代码的稳定性。

2025-08-29 15:27:14 1155

原创快手Klear-Reasoner登顶8B模型榜首，GPPO算法双效强化稳定性与探索能力！

快手Klear-Reasoner（基于 Qwen3-8B-Base）发布，登顶 8B 模型榜首！核心突破：首创 GPPO 算法——强化学习新方法，训练稳+探索强！数学与代码能力超强：AIME2024 90.5%、AIME2025 83.2%，横扫同规模模型！全流程 pipeline 开源，诚意拉满，复现无忧！

2025-08-19 15:45:56 10724

原创 8篇入选，1项最佳论文提名！快手AI 研究在KDD2025 “全面开花”

作为一家以人工智能为核心驱动和技术依托的科技公司，快手致力于不断深化研发投入，将技术作为强劲引擎，驱动业务的迅猛增长。同时，快手将在人工智能领域持续探索，将前沿科技在业务场景中落地应用。欲了解更多关于论文的详尽内容及深度解读，敬请密切关注快手技术公众号的后续推文。- END -

2025-08-05 15:11:29 1238

原创快手LCRON：工业级级联排序系统一体化建模新范式，助力商业化收入增长

本文提出了LCRON训练框架，有效地解决了级联排序训练中的关键局限性。目前，LCRON已于2025年1月在快手商业化场景全量部署，统一了召回与粗排模型的训练，显著提升了广告收入，并成为线上占比最大的通路。

2025-07-24 12:23:33 1379

原创快手联合上交提出统一多模态生成理解模型Orthus：基于自回归Transformer的无损图文交错生成新范式！

在ICML25上，快手、上交联合提出统一多模态生成理解模型Orthus——基于自回归Transformer的无损图文交错生成新范式。Orthus 不仅在多个视觉理解指标上超越了Chameleon和Show-o等竞争模型，还在图像编辑、图文交错生成等任务上展现了强大的能力。目前代码已开源。

2025-07-24 11:35:11 1012

原创快手DHPS：国内首个实现基于RDMA 通信的可负载均衡高性能服务架构！

DHPS 是国内首个在在线系统中实现的基于 RDMA 通信的可负载均衡高性能服务架构。该架构在满足快手在线系统严苛的高稳定性要求下，实现了超高性能，查询吞吐提升 270%。本文详细分享 DHPS 架构的技术演进之路。

2025-07-23 16:51:08 2026

原创快手 AutoThink 大模型 KAT-V1 正式开源，40B版本比肩满血版R1，技术报告全公开！

Kwaipilot团队在过去几个月里已开源多款覆盖推理、编程、Embedding等领域的模型。在后续的工作中，我们将详细介绍完整的AutoThink训练框架，并计划开源相关训练数据、强化学习代码库，以及1.5B、7B和13B等不同规模的模型。此外，AutoThink框架未来有望扩展到多模态和交互式智能体应用，进一步提升模型的可控性与通用性。KAT-V1的200B参数的MoE（Mixture-of-Experts）变体也有望在训练完成后向社区开放。- END -

2025-07-22 12:36:46 1158

原创亲历者复盘：快手前端工程质量诊断平台建设与演进之路

也正因如此，即便在后续的演进中历经了频繁的功能更迭、调度算法升级甚至底层消息中间件替换等各种挑战，该系统依然能够维持清晰的边界与鲜明的架构特征，具备良好的灵活性和可演进性。正如文章开头所传达的信念一般，令人欣慰的是，即便天守在某种形式上 “消逝”，但「青鸾」平台作为其升华的 “天守 2.0 版本”，在未来的发展中，仍将传承天守的核心特质与思想脉络，使其仿佛以另一种姿态继续存在，让天守的影子得以延续，续写其未竟的使命。所幸，在与商业化共建的「青鸾」平台的过程中，我们弥补了这一设计上的不足。

2025-07-16 14:44:46 1111

原创 ICML 2025 | 从语言到视觉，自回归模型VARSR开启图像超分新范式

相较于基于扩散模型（Diffusion Model）的生成方式，自回归的方式更加有效地建模多模态信息，同时避免噪声采样的随机性，进而生成更加稳定的结果。为了感知图像中的低质量失真等因素，从而通过引导概率分布生成更具真实性的内容，我们提出了Image-based CFG，在训练时，将图像依据其质量划分为两类，高质量图像和低质量图像分别对应一个positive embedding -和negative embedding -作为控制，分别引导图像生成高质量和低质量的内容。（3）并在此基础上训练VARSR。

2025-07-14 15:22:29 1167

原创 ICML 2025 高分论文！快手&南开提出：模块化双工注意力机制，显著提升多模态大模型情感理解能力！

快手可灵团队与南开大学成功定位了现有多模态大模型在情感线索捕捉中的关键短板。提出了新的模块化双工注意力范式，并基于此构建了一个涵盖感知、认知与情感能力的多模态模型‘摩达（MODA）’。该模型在通用对话、知识问答、表格处理、视觉感知、认知分析和情感理解等六大类任务的21个基准测试中均实现了显著性能提升！

2025-07-11 11:43:18 17696

空空如也

空空如也