
深度学习拓展阅读
文章平均质量分 88
分享一些好文章
双木的木
种一棵树最好的时间是十年前,其次是现在。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
极市平台 | ICCV 2025|DiT 架构下的全新训练范式!中科大开源DualReal:打开视频定制“身份+运动”新次元
中科大团队提出DualReal框架,突破传统视频定制方法中身份与运动孤立训练的局限。该框架通过双域感知适配模块实现身份与运动的协同训练,利用阶段融合控制器动态调整不同去噪阶段的特征权重。实验表明,DualReal在CLIP-I和DINO-I指标上分别提升21.7%和31.8%,在动作质量指标上同样表现优异,仅需短时微调即可同时保证身份保真度和运动连贯性,为视频生成领域提供了新思路。相关代码已开源。原创 2025-07-31 16:53:53 · 508 阅读 · 0 评论 -
WeThinkIn | 从 DALL-E 到 GPT-4o的生图能力,回顾视觉生成从像素到多模态的发展历史!
视觉生成技术从DALL-E到GPT-4o实现了质的飞跃。早期DALL-E采用自回归模型生成效果有限,随后扩散模型(如GLIDE、Stable Diffusion)显著提升了图像质量。2023年DALL-E3通过增强文本描述实现精准指令跟随,而2024年GPT-4o和Gemini2.0Flash将视觉生成推向新高度——原生多模态模型不仅能高质量生成图像,还能结合文本、音频等实现复杂创作。OpenAI和谷歌的竞争推动了该领域快速发展,未来视觉生成将更注重多模态统一,传统单一文生图模型可能被取代。尽管技术细节尚未原创 2025-07-31 16:52:13 · 625 阅读 · 0 评论 -
Datawhale | 信息量很大:2025.7.28王坚院士接受彭博社采访实录
是的,因为云计算这个生意,跟传统的互联网业务本质上是不同的。那已经是将近20年前了,互联网思维十分普及,而云计算并不适合这个思维模式,这是一点。第二是,云计算在商业模式上也是非常不一样的。我总是说,我很幸运能在这个领域工作。首先,它是技术驱动的——不像很多其他的业务,它们一开始就是从“商业”出发,然后技术只是去“辅助业务”。但云计算不是这样的,它是先有技术。这是关键点。而且,并不是所有的技术都能转化成生意。我常说,原创 2025-07-30 18:09:27 · 659 阅读 · 0 评论 -
Coggle数据科学 | 科大讯飞AI大赛:新能源发电功率预测挑战赛 Baseline
本文来源公众号,仅用于学术分享,侵权删,干货满满。赛题名称:新能源发电功率预测挑战赛赛题类型:数据挖掘赛题任务:预测新能源场站发电功率预测。原创 2025-07-30 18:08:59 · 779 阅读 · 0 评论 -
集智书童 | 专治无‘小目标失明‘ | SOD-YOLO创新ASF机制,小目标mAP飙升20.6%
摘要:本文提出SOD-YOLO模型,针对无人机图像中小目标检测的难题进行优化。通过引入自适应尺度融合(ASF)机制增强多尺度特征融合,添加P2小目标检测层保留空间细节,并采用Soft-NMS优化后处理,显著提升了检测性能。在VisDrone2019-DET数据集上,mAP50:95提升36.1%至0.351,mAP50提升20.6%至0.526。尽管计算复杂度有所增加(FLOPs从78.7G增至94.9G),但该模型在密集小目标场景中表现优异,成为无人机图像小目标检测的高效解决方案。原创 2025-07-29 17:50:43 · 749 阅读 · 0 评论 -
AI生成未来 | ICCV`25 | 定制视频革命!中科大DualReal:让身份与运动共舞的高保真定制视频引擎
中科大团队提出DualReal视频定制新方法,通过自适应联合训练解决身份与运动的维度冲突问题。该研究创新性地设计了双域感知适配模块和阶段融合控制器,在DiT架构下实现身份保真与运动流畅的平衡。实验表明,DualReal在身份一致性指标(CLIP-I提升21.7%,DINO-I提升31.8%)和动作质量指标上均优于现有方法。该成果已开源代码和模型权重,为视频定制领域提供了新思路。原创 2025-07-29 17:34:35 · 975 阅读 · 0 评论 -
周报 | 25.7.21-25.7.27文章汇总
本周技术周报汇总了多篇AI与Python领域的优质文章:1)机器学习入门教程;2)Transformer模型解析;3)大模型蒸馏、量化技术详解;4)Python实用库sh介绍;5)KimiK2大模型技术报告;6)X光安检图像识别比赛方案;7)视觉语言模型压缩新方法;8)交互式修图Agent;9)主流大模型架构对比;10)具身智能训练新范式;11)Python内存优化技巧。这些文章涵盖AI基础、前沿研究和工程实践,适合不同层次开发者学习参考。欢迎推荐优质技术公众号,共同进步。原创 2025-07-28 17:43:26 · 275 阅读 · 0 评论 -
Datawhale | 让Qwen3-0.6B拥有视觉,保姆级教程来了!
本文介绍了如何通过模型拼接技术将SmolVLM2视觉模块与Qwen3-0.6B语言模型结合,构建支持中文的多模态模型"Qwen3-SmVL"。作者详细阐述了模型架构调整、上下文格式修改、特征映射层重构等关键技术步骤,并使用沐曦GPU在theCauldron数据集上进行微调训练。实验结果表明,在仅增加0.09B参数的情况下,该模型成功保留了Qwen3的语言能力并获得了视觉理解功能。文章提供了完整的GitHub代码和SwanLab训练日志,为中文社区提供了实用的多模态模型构建方案。原创 2025-07-28 16:50:52 · 804 阅读 · 0 评论 -
机器之心 | Claude挣钱强于o1!OpenAI开源百万美元编码基准,检验大模型钞能力
OpenAI 研究人员和 100 名其他专业软件工程师在 Upwork 上识别了潜在的任务,并在不更改任何文字的情况下,将这些任务输入到 Docker 容器中,从而创建了 SWE-Lancer 数据集。具体来讲,SWE-Lancer 包括了独立工程任务(从 50 美元的 bug 修复到 32,000 美元的功能实现)和管理任务,其中模型选择各种技术实施方案。对于 OpenAI 开源的这个基准测试,有人认为很棒,并表示随着软件工程中 AI 能力的扩展,拥有标准化的评估方法非常重要,但应该是独立的。原创 2025-07-27 19:59:28 · 663 阅读 · 0 评论 -
python | Python性能优化:使用__slots__减少内存占用
_slots__不仅提供内存优化,还能实现严格的属性访问控制。通过预先定义允许的属性名称,可以防止程序运行时意外添加不必要的属性,这有助于维护代码的一致性和可靠性。# 演示__slots__的属性控制功能"""验证配置的有效性"""raise ValueError("主机地址必须是非空字符串")raise ValueError("端口号必须是1-65535之间的整数")raise ValueError("超时时间必须是正数")returnTrue# 创建配置实例并测试。原创 2025-07-27 19:54:50 · 572 阅读 · 0 评论 -
AI生成未来 | 亿级短视频数据突破具身智能Scaling Law!Being-H0提出VLA训练新范式
【摘要】北京大学与BeingBeyond团队提出突破性方案Being-H0,利用亿级人类手部操作视频数据训练VLA模型,解决具身智能领域的数据瓶颈问题。该研究首创"物理指令微调"框架,通过预训练学习人类动作轨迹,实现从2D视频到3D机器人动作空间的精确映射。实验表明,该模型在真实机器人任务中显著提升成功率,并大幅降低所需真机数据量。这一成果为机器人灵巧操作研究开辟了新范式,相关论文已发表于arXiv平台。原创 2025-07-25 15:01:40 · 920 阅读 · 0 评论 -
极市平台 | 2025年8种主流大模型架构深度解析:从DeepSeek-V3到Kimi K2
本文对2025年主流的8种开源大语言模型架构进行了深入解析,包括DeepSeek-V3/R1、OLMo2、Gemma3、Llama4、Qwen3、SmolLM3和KimiK2等。文章重点比较了这些模型在注意力机制(如MLA、GQA、滑动窗口注意力)、归一化层设计(Pre-Norm、Post-Norm、QK-Norm)、混合专家系统(MoE)以及位置编码(NoPE)等关键架构上的创新与差异。其中,DeepSeek-V3的MLA和MoE设计、Gemma3的滑动窗口注意力、OLMo2的QK-Norm以及SmolL原创 2025-07-25 11:16:15 · 1012 阅读 · 0 评论 -
OpenCV学堂 | 影楼精修-交互式修图Agent
本文介绍了一种基于聊天交互的修图Agent系统,通过多模态大模型实现智能图像处理。该系统允许用户用自然语言描述修图需求(如"美白、瘦脸"),ChatGPT会解析用户意图并生成相应的API参数JSON和自然语言解释。系统包含三个核心模块:意图理解、参数映射和图像处理,可根据用户语气自动调整修图强度。文章提供了完整的Python实现代码,利用Gradio构建交互界面,支持图像上传和实时预览。该方案降低了修图门槛,同时保留专业参数调整功能,未来结合多模态模型可实现更智能的图像分析推荐。原创 2025-07-24 17:49:45 · 713 阅读 · 0 评论 -
集智书童 | VisionThink开源 | 从“一刀切“到智能判断,VisionThink用RL优化VLM视觉Token压缩范式
《VisionThink:基于强化学习的智能视觉Token压缩方法》 摘要:本文提出VisionThink创新范式,通过强化学习优化视觉语言模型中的Token压缩策略。该方法采用动态分辨率机制,从低分辨率图像开始处理,模型可自主判断是否需要高分辨率输入,在保持OCR任务性能的同时显著提升计算效率。关键技术包括:1)LLM-as-Judge策略实现通用视觉问答的强化学习;2)多目标Reward函数平衡效率与准确性;3)多轮GRPO算法扩展。实验表明,该方法在DocVQA等任务上实现100%推理加速,在Char原创 2025-07-24 17:43:43 · 891 阅读 · 0 评论 -
Coggle数据科学 | 科大讯飞AI大赛:X光安检图像识别挑战赛 赛季6 Baseline
摘要:科大讯飞AI大赛第六赛季推出X光安检图像识别挑战赛,要求参赛者基于真实X光安检图像构建目标检测模型,识别8类违禁物品。比赛采用mAP评估指标,提供VOC格式标注数据。Baseline方案建议使用YOLO模型,并提供了数据格式转换、模型训练和预测的完整代码流程,包括从VOC转YOLO格式、配置文件生成、模型训练到测试集预测的实现步骤。该赛题旨在提升安检场景下的目标检测准确率,推动AI技术在公共安全领域的应用。原创 2025-07-23 17:16:58 · 969 阅读 · 0 评论 -
江大白 | Kimi K2官方技术报告出炉:384个专家,训练不靠刷题,靠模型“用自己的话再讲一遍”!
Kimi最新发布的MoE基础模型KimiK2在技术报告中披露了其创新突破。该模型采用384个专家、激活32B参数,在代码、Agent和数学推理等任务上表现突出。核心技术包括MuonClip优化器实现稳定训练、大规模Agentic工具使用数据合成方法,以及通用强化学习框架。特别值得注意的是,模型通过"重述法"训练,即让数据以不同形式重复呈现而非简单重复训练,显著提升了学习效率。这些创新使KimiK2在多项基准测试中达到开源模型SOTA水平,并可与顶尖闭源模型媲美。原创 2025-07-23 16:57:53 · 1071 阅读 · 0 评论 -
python | Github 7.4k star,一个强大的 Python 库--sh!
sh库是Python生态系统中一个专门用于执行系统命令的第三方库,由Andrew Moffat开发。该库的设计理念是将系统命令转化为Python函数,使得在Python程序中调用系统命令变得更加直观和优雅。sh库提供了更加简洁的API接口,大大简化了系统命令的调用过程。sh库的核心优势在于其独特的设计思路:将每个系统命令都视为一个可调用的Python函数对象。原创 2025-07-22 20:39:55 · 572 阅读 · 0 评论 -
AI新智力 | AI | 大模型入门(八):蒸馏、量化、MoE、MHA
本文介绍了四种大模型优化技术:1. 知识蒸馏通过让学生模型模仿教师模型的输出分布实现模型压缩;2. 模型量化通过降低参数精度减少存储和计算开销;3. MoE架构通过动态选择专家子模型提升计算效率;4. MHA机制通过并行多注意力头捕获复杂依赖关系。这些技术能有效解决大模型在部署时面临的计算资源消耗大、推理速度慢等问题,适用于移动端和实时应用场景。文章详细阐述了每种技术的原理和主要作用,为AI模型优化提供了实用解决方案。原创 2025-07-22 20:15:31 · 1295 阅读 · 0 评论 -
周报 | 25.7.14-25.7.20文章汇总
本周技术周报涵盖多个前沿领域:YOLO系列改进研究(GSConv轻量化、时序融合策略提升MOT20Det至85.5%mAP);Kaggle数据科学赛题解析;大模型发展综述与关键技术解读(智能体架构、主流厂商、参数理解等);SLAM技术发展探讨;实用工具推荐(Python加密库pycryptodome);以及Seq2Seq算法详解。内容涵盖计算机视觉、时序分析、大模型、数据科学等热点方向,提供从算法改进到工程实践的多元技术视角。(149字)原创 2025-07-21 17:31:27 · 451 阅读 · 0 评论 -
阿里云开发者 | AI 基础知识从-1到0.1:带你走进机器学习的世界
本文系统梳理了机器学习的基础知识体系,从AI发展历程切入,介绍了机器学习、深度学习与大模型的核心概念。文章详细阐述了监督学习与无监督学习的区别与应用场景,通过房价预测案例解析了线性回归和特征工程的关键技术。重点讲解了向量化、Token和Embedding等文本处理技术,以及GPU在大模型训练中的作用。最后概述了机器学习项目的完整流程,为后续深度学习知识学习奠定基础。全文采用生活化案例和类比,帮助零基础读者理解复杂概念,适合AI初学者构建知识框架。原创 2025-07-21 17:14:23 · 1076 阅读 · 0 评论 -
集智书童 | 跨场景泛化王者 | UniDet-D在未训练沙尘暴/雨雾混合条件下仍保持85%检测精度
1.频率选择机制依赖DCT计算开销• 虽然引入了Gumbel-Softmax和可学习开关来优化频率选择过程,但整体架构中的DCT操作可能带来额外计算负担,影响实时性。2.模型泛化能力受限于训练数据多样性• 尽管在未见过的天气条件下有较好表现,但其泛化能力仍依赖于训练时涵盖的退化模式广度。3.未明确评估极端复杂天气组合下的性能• 如暴雨+浓雾+低光叠加情况下的检测效果未被系统验证,未来可进一步探索更复杂的实际场景。UniDet-D的整体框架如图2(a)所示。原创 2025-07-19 20:17:22 · 1014 阅读 · 0 评论 -
计算机视觉life | SLAM的最终形态应该是什么样的?
本文来源公众号,仅用于学术分享,侵权删,干货满满。原创 2025-07-19 20:16:56 · 581 阅读 · 0 评论 -
AI新智力 | AI | 大模型入门(七):参数量、Token、上下文窗口、上下文长度、温度
使用大模型时,我们经常会看到诸如“参数量”、“Token”、“上下文窗口”、“上下文长度”和“温度”等术语,这些术语代表着什么意思?它们对AI大模型有什么作用?原创 2025-07-18 07:30:00 · 1181 阅读 · 0 评论 -
AI新智力 | AI|大模型入门(六):主流厂商和产品
本文梳理了当前主流大模型产品及其技术路线。大模型主要分为三类:OpenAI的GPT系列(decoder-only)、Google的BERT系列(encoder-only)和清华的GLM系列(encoder-decoder)。国外代表产品包括ChatGPT、Bard和LLaMA,国内则有腾讯元宝、文心一言、通义千问等。文章建议普通用户选择科技巨头产品,因其在资源、数据等方面优势明显。目前大模型市场竞争本质仍是资本和流量的竞争,头部企业占据明显优势。原创 2025-07-18 00:30:00 · 883 阅读 · 0 评论 -
AI新智力 | AI|大模型入门(五):智能体(Agent)
在目前发展阶段,因为智能体适应性高、成本适中,正在被更多企业采纳。并且,智能体有望发展成为一个全新的平台,基于智能体的服务模式也将成为主流,智能体将成为主流交互模式。原创 2025-07-17 07:30:00 · 1299 阅读 · 0 评论 -
python | Github 3.1k star,一个有趣的 Python 库--pycryptodome!
pycryptodome是一个功能强大的Python密码学库,支持AES、RSA等多种加密算法,提供哈希计算、数字签名等功能。该库具有高性能C语言实现、安全默认参数和跨平台兼容性,适用于网络安全、数据保护等场景。文章介绍了其安装方法,并演示了对称加密(AES)、哈希算法(SHA)、随机数生成等基础功能,以及RSA加密、数字签名等高级应用。通过用户密码存储和文件加密的实际案例,展示了该库在提升系统安全性方面的实用价值,是Python生态中优秀的密码学解决方案。原创 2025-07-16 17:11:54 · 925 阅读 · 0 评论 -
程序员学长 | 终于把 Seq2Seq 算法搞懂了!
本文介绍了Seq2Seq(序列到序列)模型的基本原理及应用。该模型通过编码器-解码器架构处理变长序列数据,适用于机器翻译、文本生成等NLP任务。编码器将输入序列转换为固定大小的上下文向量,解码器基于该向量逐步生成目标序列。文章详细解析了模型结构、工作流程及优缺点,并提供了使用PyTorch实现英德机器翻译的完整代码示例,包括数据处理、模型构建、训练评估等环节。最后展示了模型的实际翻译效果,验证了Seq2Seq在序列转换任务中的实用性。原创 2025-07-17 06:15:00 · 537 阅读 · 0 评论 -
阿里云开发者 | 万字综述,讲一讲这两年大模型这整个领域到底发展了哪些方面
本文系统回顾了2023-2025年大模型领域的技术演进,指出发展轨迹从单纯追求规模(Scaling Laws)转向三大新支柱:效率、推理和智能体能力。在效率方面,MoE架构和新型注意力机制(如MLA)显著降低了计算成本;推理环节通过"思考预算"机制实现了复杂问题解决能力;智能体技术则让模型具备工具使用能力。当前行业呈现多元化竞争格局:OpenAI专注推理智能体,DeepSeek推动开源MoE创新,Google打造分层产品体系。基准测试也从传统NLP任务转向更复杂的推理和编码评估。原创 2025-07-16 17:06:18 · 1228 阅读 · 0 评论 -
Coggle数据科学 | Kaggle赛题解析:MAP绘制学生数学误解
本文来源公众号,仅用于学术分享,侵权删,干货满满。赛题名称:MAP - Charting Student Math Misunderstandings赛题类型:自然语言处理赛题任务:为学生的解释提供候选误解建议。原创 2025-07-15 21:38:40 · 286 阅读 · 0 评论 -
集智书童 | YOLOv7插上时序的翅膀 | 轻量级时序融合策略实现MOT20Det数据集85.5% mAP
1.对于大模型提升有限• YOLOv7等高性能模型由于本身具有较强的单帧检测能力,多帧输入带来的增益较小(如[email protected]:0.95仅提升0.9%)。2.时间窗口选择敏感• 过大的时间窗口(如9帧)会引入噪声并降低精度,需根据具体任务调整帧数与采样间隔。3.未探索自适应帧选择机制• 当前采用固定帧数或固定间隔采样,未来可结合动态帧选择以进一步优化性能。4.融合方式仍较简单• 虽然早期融合效果优于分组卷积,但仍未引入更复杂的时序建模机制,可能限制了更深层次的时间信息挖掘。原创 2025-07-15 21:37:45 · 407 阅读 · 0 评论 -
阿旭算法与机器学习 | 【保姆级教程|YOLO11改进】【卷积篇】【6】GSConv混合标准卷积与深度可分离卷积,轻量化同时确保精度与速度提升
本文介绍了如何通过替换YOLO11网络中的常规卷积模块为更高效的GSConv模块来提升性能。GSConv结合标准卷积和深度可分离卷积,在保持精度的同时实现轻量化。文章详细展示了源码修改步骤,包括新建模块文件、修改网络解析函数和配置文件,并提供了替换主干网络卷积的具体示例。修改后的模型训练验证了新结构的有效性。该方法为YOLO11的轻量化改进提供了可行方案。原创 2025-07-14 16:42:30 · 518 阅读 · 0 评论 -
周报 | 25.7.7-25.7.13文章汇总
本周技术周报精选了多篇前沿AI研究文章,涵盖DeepSeekV2的MLA注意力机制改进、AnyI2V图像动画生成技术、VISTA股市分析模型、YOLOv12检测器突破、谷歌AI编程里程碑、生物识别大模型等热点。重点包括:多头潜在注意力压缩KV缓存提升推理速度、点云草图秒变动画技术、A²机制实现实时检测突破、AI代码生成反超人类水平、2亿生物图像训练物种识别模型等创新成果。这些研究展示了AI在计算机视觉、自然语言处理、目标检测等领域的快速进展。原创 2025-07-14 16:35:37 · 436 阅读 · 0 评论 -
集智书童 | 小目标检测破局者 | MAFE R-CNN以多线索样本选择+类别感知特征增强显著超越Faster R-CNN
1.计算成本• 虽然MAFE R-CNN在性能上有显著提升,但其多阶段设计可能增加推理时间,影响实时性。2.超参数敏感性• MCsS中的最大正样本数量(k)和类别置信度权重(α)对性能有较大影响,需要精心调整。3.扩展性挑战• 方法在处理更复杂场景(如极端光照条件或更多类别)时的鲁棒性尚未完全验证。4.依赖高质量标注• 类别感知记忆模块的有效性依赖于高质量的真实标注数据,可能在标注不准确的情况下表现不佳。原创 2025-07-13 21:43:03 · 893 阅读 · 0 评论 -
马哥Linux运维 | Redis集群部署与性能优化实战
Redis集群部署与性能优化是一个系统工程,需要从硬件资源、系统配置、Redis参数等多个层面进行综合考虑。通过本文介绍的实战技术,运维工程师可以构建稳定、高效的Redis集群环境。关键要点包括:合理的集群架构设计、科学的性能优化配置、完善的监控告警体系,以及可靠的故障恢复机制。在实际生产环境中,还需要结合具体业务场景进行调优,持续监控和改进系统性能。这篇文章涵盖了Redis运维的核心技术点,代码示例丰富且实用,希望对您的运维工作有所帮助。文末福利THE END!原创 2025-07-13 21:42:40 · 401 阅读 · 0 评论 -
码科智能 | 大幅提升复杂场景精度?YOLOv13轻量化目标检测开源了,从局部感知到高阶语义关联!
将。原创 2025-07-10 21:33:11 · 590 阅读 · 0 评论 -
AI生成未来 | AI一眼认出95万物种,分辨雄雌老幼,2亿生物图像炼成“生命视觉”大模型
BIOCLIP 2 证明了“把正确的监督做大”同样能在专业领域复刻大模型的涌现属性——不仅准确,而且懂生物。项目主页:https://imageomics.github.io/bioclip-2/Demo网址:https://huggingface.co/spaces/imageomics/bioclip-2-demo论文网址:https://arxiv.org/abs/2505.23883THE END!原创 2025-07-10 21:32:39 · 919 阅读 · 0 评论 -
新智元 | AI编程里程碑!谷歌AI自己写代码惊呆工程师,GPU内核算法反超人类21%
本文来源公众号,仅用于学术分享,侵权删,干货满满。谷歌的AlphaEvolve,还在不断创造新的奇迹。而就在刚刚,patched.codes的联合创始人兼CTO Asankhaya Sharma,用基于AlphaEvolve论文的开源实现OpenEvolve,成功自动发现了高性能的GPU内核算法。具体来说,通过自我进化代码,它自动发现了一套在Apple Silicon上远超手动优化的GPU Metal核函数。原创 2025-07-09 21:43:44 · 805 阅读 · 0 评论 -
集智书童 | YOLO家族一路走来,YOLOv12为什么可以这么强?A²机制破局,登顶实时检测巅峰
1.硬件约束下的边缘部署挑战:尽管YOLOv12在高端GPU上表现出色,但其对内存和计算资源的需求限制了其在低功耗边缘设备(如NVIDIA Jetson Nano、树莓派)上的应用。2.训练复杂性增加:基于注意力的模块需要更多的FLOPs和内存带宽,导致训练成本高昂,尤其对于GPU资源有限的用户。3.数据集依赖性:YOLOv12的优越精度依赖于大规模数据集(如MS COCO和OpenImages),但在小规模或分布不平衡的数据集上表现可能受限。4.任务扩展的局限性。原创 2025-07-09 21:42:26 · 808 阅读 · 0 评论 -
Coggle数据科学 | 大模型理解股市“图”与“文”:VISTA模拟专业股票操盘手 | Arxiv 论文
《VISTA框架:多模态大模型提升股票预测准确率》摘要 VISTA创新性地结合股票走势图与历史价格数据,通过视觉-语言模型(VLM)进行多模态分析。研究表明,相比纯文本模型,VISTA的预测性能最高可提升89.83%。该框架模拟专业交易员认知方式,通过折线图识别技术形态(如阻力位、下降三角形),弥补了数值数据在模式识别上的局限。实验采用五组LLM-VLM模型对比,结果表明视觉输入显著降低40%-80%的MSE误差。虽然思维链提示在多数情况下有效,但模型表现仍受计算资源和黑箱特性限制。该研究为金融时间序列分析原创 2025-07-08 17:14:18 · 1185 阅读 · 0 评论 -
极市平台 | ICCV 2025 | 让任意图像‘活’起来,颠覆视频生成!AnyI2V:点云、草图都能秒变动画!
AnyI2V是一种创新的图像到视频生成框架,能够将点云、草图等任意模态图像作为首帧输入,结合用户定义的运动轨迹生成动画。该框架通过结构保持特征注入、跨帧对齐和动态语义掩码生成三项核心技术,无需额外训练即可实现高效灵活的视频生成。实验表明,AnyI2V在多样化场景中展现出卓越性能,支持多模态混合输入和内容编辑,显著提升了视频生成的可控性和多样性。该方法为3D数据生成、风格化视频等应用提供了新的可能性,未来有望进一步优化运动一致性和复杂场景处理能力。原创 2025-07-08 17:07:05 · 1217 阅读 · 0 评论