
最新资讯
文章平均质量分 83
追踪人工智能领域与大数据领域的最新行业动态与突发新闻。
庞德公
多年来在人工智能、数据和技术领域兜兜转转,拥有较强的行业洞察力和技术前瞻力。精通数据流通与数据空间技术,高并发、分布式计算、隐私计算、区块链和自然语言处理技术。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
资料导览(持续更新)
行文风格多变。清新而不脱俗,深入但又浅出。跟踪而不跟风,细腻但又抽象。给大家带来大模型领域乃至其他科技领域的最轻松但又最潮的独特解读。整体遵从条线分割,纵横交错的网线在编织内容。原创 2024-06-29 23:06:36 · 481 阅读 · 0 评论 -
Google AI发布 MedGemma:医疗文本与图像理解的开放模型套件
在 Google I/O 2025 大会上,Google 推出MedGemma,这是一套专为多模态医疗文本和图像理解设计的开放模型套件。MedGemma 基于 Gemma 3 架构构建,旨在为开发者提供一个强大的基础,用于创建需要集成分析医疗图像和文本数据的医疗应用程序。原创 2025-05-22 08:58:23 · 1055 阅读 · 0 评论 -
Seed1.5-VL:高效通用的视觉-语言基础模型
视觉-语言模型(VLMs)作为实现通用人工智能的关键技术,通过整合图像和文本信息,在多个领域取得进展,但仍面临三维空间理解、精确计数等挑战。字节跳动推出的Seed1.5-VL模型,结合了高效的视觉编码器和大型语言模型,在多个公开基准测试中表现优异,尤其在GUI控制和游戏任务中超越现有系统。该模型采用动态分辨率支持机制,增强了图像细节处理能力,并通过多阶段预训练和动态帧-分辨率采样策略,提升了视频和语音理解能力。Seed1.5-VL的紧凑设计在保证性能的同时降低了推理成本,展示了强大的多模态推理能力。原创 2025-05-14 21:35:18 · 985 阅读 · 0 评论 -
nanoVLM:750行代码训练视觉大模型
Hugging Face近日发布了nanoVLM,仅用750行代码从零开始训练视觉语言模型(VLM)。该项目秉承了Andrej Karpathy的nanoGPT等项目的精神:优先考虑代码可读性和模块化,同时不牺牲实际应用价值。原创 2025-05-09 08:29:16 · 519 阅读 · 0 评论 -
旧酒装新瓶:A2A+MCP
A2A的定位是与Anthropic的 Model Context Protocol(MCP)形成互补关系:MCP主要处理代理与其工具/数据源之间的连接,而A2A则促进代理之间的通信。原创 2025-05-09 08:32:46 · 819 阅读 · 0 评论 -
扒一扒最近较火的MCP
封面的图片很直观的阐述了MCP,它是一种开放协议,MCP 是一个开放协议,用于标准化应用程序向大语言模型提供上下文的方式。MCP由Anthropic公司在2024年底推出,旨在解决大语言模型(LLM)与外部数据源和工具之间的集成问题。原创 2025-05-04 17:05:25 · 1111 阅读 · 0 评论 -
Synthetic Data Kit:LLM微调的语料提炼方案
针对特定任务微调主流LLM的最大挑战是:高质量、任务专用的数据很难获取。Meta的合成数据工具包(Synthetic Data Kit,SDK)为此提供了一个精简的开源解决方案,用于生成、筛选和格式化合成数据集—无需数据科学家参与。原创 2025-05-07 08:21:24 · 977 阅读 · 0 评论 -
NVIDIA发布Parakeet TDT 0.6B-v2:ASR新标杆
2025年5月,NVIDIA重磅发布其全新一代自动语音识别(ASR)模型 ——Parakeet TDT 0.6B-v2。该模型具备 0.6B参数,采用CC-BY-4.0商用开源许可协议,并以 实时因子(RTF)达3386 的惊人速度刷新行业纪录,标志着语音AI进入一个全新的高性能、低延迟时代。原创 2025-05-07 08:24:56 · 1173 阅读 · 0 评论 -
NVIDIA AI发布Describe Anything 3B
NVIDIA推出了Describe Anything 3B(DAM-3B),一款多模态大语言模型,旨在提供详细的图像和视频本地化描述。配备DAM-3B-Video,该系统接受通过点、涂鸦或掩码指定区域输入,并生成具有上下文基础的描述性文本。原创 2025-04-30 09:03:22 · 761 阅读 · 0 评论 -
Granite 4.0 Tiny:IBM也开始卷大模型?
IBM最近推出了其即将到来的Granite 4.0语言模型家族中体积最小的成员——Granite 4.0 Tiny的预览版。这款紧凑型模型在保持高效性能的同时,也为长文本处理和指令遵循场景带来了新的可能。原创 2025-05-04 17:02:39 · 797 阅读 · 0 评论 -
BitNet:划时代的1-bit大模型
微软最近发布的模型BitNet b1.58 2B4T代表对模型效率的极致追求。BitNet架构旨在使用极低位权重运行,将量化技术推向了高潮。先来温习一些背景知识。原创 2025-04-28 08:30:53 · 1128 阅读 · 0 评论 -
深度思考Qwen3
这种所谓的"混合思考"模式,即在两种不同模式——"思考"和"非思考"之间切换,在"思考"模式下,Qwen3-235B能够逐步高效地分解复杂任务,非常适合数学、编程或深度分析。在思考模式下,Qwen3进行逐步、有条理的思考,非常适合微妙、复杂的问题,如编码挑战、包含详细说明的数学证明,或对复杂情况的深思熟虑。随着谷歌的Gemini-2.5-Pro和OpenAI的O3在各种基准测试中表现出色,加上"较老"的竞争者如DeepSeek R1仍然强劲,阿里巴巴的Qwen3-235B面临着艰难的挑战。原创 2025-05-03 15:31:53 · 1104 阅读 · 0 评论 -
靴子落地:Qwen3
Qwen 3已经凌晨正式发布,Qwen 3系列模型参数范围从0.6B到235B不等,提供了前所未有的灵活性和卓越性能。与前代产品不同,这次发布提供了一系列针对不同需求量身定制的模型。原创 2025-04-29 09:01:47 · 371 阅读 · 0 评论 -
推理能力:五一模型大放送
4月30日,微软推出了Phi-4推理系列,包括三个模型——Phi-4-reasoning、Phi-4-reasoning-plus和Phi-4-mini-reasoning。在广泛的推理基准测试中,Phi-4-reasoning-plus不仅在特定领域评估中表现出色,而且很好地泛化到规划和组合问题,如TSP和3SAT,尽管在这些领域没有明确训练。在基于语音的交互中,模型能够在30秒的剪辑中生成一致且自然的输出,保持与输入内容的一致性并最小化延迟,这对交互式系统和人机界面至关重要。原创 2025-05-03 14:58:04 · 941 阅读 · 0 评论 -
学而不倦:LLM书籍系列
大型语言模型(LLM)的普及,越来越多的人对AI与LLM工程感兴趣,尤其是从模型设计到实际部署。应各位读者的要求,后续将陆续推荐一些英文书籍,这些书籍系统讲解AI与LLM工程知识,更以实际项目经验为依托,帮助读者从零构建可落地的AI系统。原创 2025-04-29 08:24:33 · 1103 阅读 · 0 评论 -
WordLlama:在消费级GPU上奔跑的“瘦子”
WordLlama一个开源、快速、轻量级 (16MB) NLP 工具包,用于相似性和针对 CPU优化任务。它是一种用于NLP和单词嵌入的实用程序,它类似于GloVe、Word2Vec或FastText。它首先从最先进的LLaMA3中提取。原创 2024-09-20 08:30:39 · 633 阅读 · 0 评论 -
Apple发布iPhone16和Apple Intelligence
Apple宣布iPhone 16将成为第一款专为生成式人工智能打造的机型,它将允许用户使用自然语言提示创建文本和图像。原创 2024-09-10 08:44:44 · 785 阅读 · 0 评论 -
突发:Runway删库跑路,备受瞩目的Stable Diffusion v1.5不见了!
“这是一个神奇的世界,留给人类的是千变万化的瞬间。”正如电影里台词阐述的那样, Runway旗下的视频编辑工具Gen-2展现了AI将文本转化为视频世界的魔力与神奇,只需要输入短短几个词语或者一句话的描绘,就能生成想要的视频画面。原创 2024-09-01 09:54:28 · 2345 阅读 · 0 评论 -
Grok 2携AI图片生成重生
埃隆·马斯克(Elon Musk)的人工智能初创公司xAI推出其最新的AI助手Grok 2的测试版,添加了类似于OpenAI的DALL-E和Google的Gemini的图像生成工具,但对可以生成的图像类型的限制显然较少。原创 2024-08-17 08:31:33 · 732 阅读 · 0 评论 -
TorchChat:Ollama的潜在对手
昨天介绍的PyTorch最近发布TorchChat。TorchChat允许在本地台式机、笔记本电脑或移动设备上下载和运行大型语言模型。会不会让你想到什么,没错就是Ollama。原创 2024-08-17 08:27:38 · 1263 阅读 · 0 评论 -
泡沫还是机遇?复盘18个月的AI装备竞赛
最近是科技财报季,所有的人都会有提问:什么时候会有人开始从人工智能中赚钱?人工智能历史发展曲线经历了多次的沉浮。原创 2024-08-17 07:46:53 · 432 阅读 · 0 评论 -
Flux:Midjourney的新图像模型挑战者
Black Forest Labs是一家由前Stability.ai开发人员创立的AI初创公司,旨在为图像和视频创建尖端的生成式 AI 模型。这家初创公司声称,其第一个模型系列Flux.1为文本到图像的生成设定新的标准。原创 2024-08-04 10:59:14 · 1045 阅读 · 0 评论 -
Apple在Swift中引入同态加密
Apple 引入了一个Swift的新开源包swift-homomorphic-encryption,以实现同态加密技术。swift-homomorphic-encryption 软件包利用了几个高级功能:原创 2024-08-04 10:57:30 · 1198 阅读 · 0 评论 -
“年轻的”IMO选手:扫荡“围棋”后,开始扫荡“数学”
图表显示了AlphaProof+AlphaGeometry 2在IMO 2024上相对于人类竞争对手的性能。AI获得28分(满分42分),达到了与比赛中银牌得主相同的水平。原创 2024-07-29 07:18:38 · 798 阅读 · 0 评论 -
新版PyTorch:AI任务加速与Intel GPU集成
Pytorch 2.4 推出AI任务加速,提供对Intel GPU的支持。PyTorch 2.4现在为Intel数据中心GPU Max系列提供支持,该系列将Intel GPU和 SYCL 软件堆栈集成到标准PyTorch 堆栈中原创 2024-07-29 07:15:48 · 2079 阅读 · 0 评论 -
Llama 3.1和xAI超集群加速AI军备竞赛
从下面的各项基准而言,LLama3.1系列在同等量级中均有不俗的表现,尤其是405B已经和闭源的GPT-4o不分伯仲,甚至略压一头。原创 2024-07-25 07:37:11 · 603 阅读 · 0 评论 -
本周当之无愧:小模型周
Microsoft的Phi系列、阿里巴巴的Qwen2和Meta的 MobileLLM表明,如果经过深思熟虑的设计和训练,小型模型可以取得令人印象深刻的结果。但是,有关这些模型的数据管理和训练的大部分详细信息尚未公开。原创 2024-07-20 16:51:11 · 1241 阅读 · 0 评论 -
RWKV: 与Transformer和Mamba掰掰手腕的小家碧玉
开源项目RWKV是一个“具有 GPT 级别LLM性能的RNN,也可以像transformer并行训练。它主要是解决了Transformer的高成本。注意力机制是 Transformer 霸权背后的驱动力之一。原创 2024-07-11 21:29:20 · 3046 阅读 · 0 评论 -
2024 AI工程师世界博览会
6月24日至6月27日在旧金山举行的 AI 工程师世界博览会是AI 从业者和爱好者的首要活动之一。本次年度会议展示了人工智能技术的最新进展,并提供了对行业趋势的宝贵见解。原创 2024-07-04 21:15:05 · 626 阅读 · 0 评论 -
Hugging Face发布重量级版本:Transformer 4.42
Hugging Face 宣布发布Transformer 4.4.2,该版本为流行的机器学习库带来了许多新功能和增强功能。此版本引入了几个高级模型,支持新工具和检索增强生成 (RAG),提供 GGUF 微调,并整合了量化的 KV 缓存,以及其他改进。原创 2024-06-30 13:48:57 · 1596 阅读 · 0 评论 -
小模型家族又新增成员Gemma2
Google发布了Gemma 2,这是其最先进的开放LLMs系列的最新成员,目前可以在Hugging Face Hub上找到4个开放式模型(2个基本模型和 2个微调模型)。原创 2024-06-28 13:11:15 · 595 阅读 · 0 评论 -
Claude3.5:编码螃蟹游戏就是这么轻松
Anthropic AI推出了Claude 3.5 Sonnet,这是其新Claude 3.5模型系列的首次发布。Claude的最新版本带来了AI功能的重大进步。它可在Claude.ai和 Claude iOS应用程序上免费获得。该模型可通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI访问。收费模式为3美元每百万个输入和15美元每百万个输出,具有200K的上下文窗口。原创 2024-06-21 22:39:26 · 673 阅读 · 0 评论 -
Meta悄咪咪的发布多款AI新模型
Meta 的基础 AI 研究 (FAIR) 团队发布了一些最新的AI模型,包括可以处理和生成多模态文本和图像的 Chameleon、Multi-token prediction模型以及文本到音乐模型JASCO。原创 2024-06-20 18:45:48 · 532 阅读 · 0 评论 -
“开放”的大模型到底有多“开放”?!
有趣的是研究人员使用一个基于证据的框架,该框架区分了开放性的 14 个维度,从训练数据集到科学和技术文档,从许可到访问方法。通过调查 45 多个生成式人工智能系统(包括文本和图像)。虽然开源一词被广泛使用,但许多模型只是“开放权重”,许多模型的拥有者并没有提供完整的有关训练和微调数据的信息来进行科学、法律和监管审查。原创 2024-06-20 18:42:25 · 1026 阅读 · 0 评论 -
Stable Diffusion vs DALL·E3
Stable Diffusion和DALL·E3是目前可用的两个最好的AI图像生成模型,它们的工作方式大致相同。这两个模型都是在数百万或数十亿个文本-图像对上训练的。原创 2024-06-15 21:48:26 · 1250 阅读 · 0 评论 -
Apple Intelligence全面来袭,熟悉但又不同的味道
苹果刚刚在WWDC 2024上投下重磅炸弹,Apple Intelligence将改变用户与设备的交互方式。苹果公布了将人工智能引入iPhone每个角落的全面计划。它将在电子邮件、消息和照片的原生应用程序以及应用程序通知和 Siri功能中添加 AI 功能,甚至将使用人工智能来允许人们生成自定义表情符号。原创 2024-06-12 12:51:40 · 768 阅读 · 0 评论 -
速递FineWeb:一个拥有无限潜力的15T Tokens的开源数据集
FineWeb是一个新发布的开源数据集,它希望通过其广泛收集的英语网络数据来推动语言模型研究发展。FineWeb 由 huggingface 领导的团体研发,提供超过15万亿个Token,这些Token来自2013年至2024年的 CommonCrawl转储。原创 2024-06-03 22:12:49 · 819 阅读 · 0 评论 -
谁拥有最多的H100?
Omdia数据显示,Meta和微软作为H100的最大买家,各自采购了15万台GPU,两者总计占据30万台的销量。剩余的20万台则由Oracle、腾讯、Google和亚马逊平分,每家各购买了5万台。值得关注的是,报告指出,这些大型科技公司目前均在积极研发自家定制硅片,旨在未来应对AI和高性能计算(HPC)任务,预示着市场格局的潜在变化。原创 2024-05-31 20:34:40 · 839 阅读 · 0 评论 -
picoLLM:大模型的量化魔术师
Picovoice首席执行官Alireza Kenarsari指出,“picoLLM是Picovoice 深度学习研究人员和量产工程师共同努力的成果。前者研究出X 位量化算法,而后者构建了跨平台的LLM 推理引擎。目的还是在于将LLM遍及到任何设备且将控制权交还给企业”。原创 2024-05-31 19:46:10 · 1250 阅读 · 0 评论 -
Codestral横空出世:高级还是资深程序员
由 Microsoft 支持、估值 60 亿美元的法国 AI 初创公司Mistral发布其首个用于编码的生成式 AI 模型Codestral。与其他代码生成模型一样,Codestral旨在帮助开发人员编写代码并与之交互。Codestral在 80+ 种编程语言的多样化数据集上进行训练,包括最流行的语言,如 Python、Java、C、C++、JavaScript和Bash。它在Swift和 Fortran等更具体的设备上也表现良好。这种广泛的语言基础确保了 Codestral可以在各种编码环境和项目中为原创 2024-05-30 11:48:17 · 1152 阅读 · 0 评论