阿里技术

阿里技术官方博客号,专注分享阿里技术的丰富实践、前沿洞察、技术创新、技术人成长经验。阿里技术,与技术人一起创造成长与成就。

  • 博客(241)
  • 资源 (1)
  • 收藏
  • 关注

原创 阿里云基础网络技术5篇论文入选全球网络顶会NSDI

在2025年全球顶级网络系统会议NSDI上,阿里云基础网络技术的五篇论文被主会录用,涵盖了多个重要领域的研究成果。其中,主创论文《Evolution of Aegis: Fault Diagnosis for AI Model Training Service in Production》总结了阿里云在大模型训练中的实践经验,提出了端+网+任务协同的系统性智算网络诊断体系,显著降低了网络故障诊断耗时。此外,其他四篇论文也展示了阿里云在智能CDN拥塞控制、GPU解耦型推理场景、容器网络性能优化等方面的创新成果

2025-05-22 15:44:29 911

原创 【云故事探索 | No.12】:茶百道——奶茶上云,原生的更好喝

茶百道自2008年成立,从100家门店扩展至7000多家,年销量达8亿杯。2018年起,茶百道开启全国加盟,通过数字化转型,实现供应链、运营及营销的全面升级。借助阿里云技术,优化从前端到后端的业务流程,提升用户体验,降低运营成本,显著增强了市场竞争力。一年卖出 8 亿杯,考验的不仅是奶茶的品牌、口感和性价比,还得有一套打通线上和线下、连接上下游供应链、以保障丝滑购买体验的数字化系统。茶百道成立于 2008 年,起初,茶百道坚持一步一个脚印,用了 8 年时间门店数量也只有 100 家。

2025-05-22 15:32:13 909

原创 【云故事探索 | No.11】:福建紫讯——数字化转型的前行者

福建紫讯科技成立于2015年,致力于为跨境电商提供高效软件解决方案。通过整合大数据、云计算和AI,构建了完整的跨境电商生态系统。面对网络访问难题,紫讯优化了紫鸟浏览器,提升了用户体验,并借助阿里云的PAI框架,大幅降低了研发成本。未来,紫讯将继续深耕AI技术,提升卖家竞争力,并与阿里云深化合作,推动行业发展。云故事1102、紫讯的起源与愿景福建紫讯科技成立于2015年,创始人刘志海心怀助力中国跨境卖家的梦想,致力于提供更高效的软件解决方案。

2025-05-22 15:30:12 302

原创 【云故事探索 | No.10】:厦门立马耀的数字化转型之路

厦门立马耀网络科技有限公司在数字化转型中,通过将云计算技术深度融入业务,成功应对市场挑战并推动业务多元化发展。公司旗下的“蝉妈妈”品牌为中小企业提供全面的数字营销解决方案,成为行业标杆。通过与阿里云合作,立马耀构建了高可靠性计算平台,利用弹性计算和云原生技术提升业务灵活性和成本效益。此外,公司还通过AI技术赋能客户,推动新项目“蝉镜”的发展

2025-05-22 15:28:40 737

原创 【云故事探索 | No.9】:大洋彼岸的智能工具:劳动力管理,盖雅搞得定

在数字化转型的背景下,苏州盖雅信息技术有限公司(盖雅工场)作为劳动力管理领域的领军企业,通过与阿里云的合作,成功实现了从传统软件公司到领先SaaS提供商的转型。自2009年成立以来,盖雅工场已服务全球29个国家和地区的1800家客户,覆盖600万员工。利用阿里云的云计算技术,盖雅工场不仅提升了业务效率,还实现了服务的移动化和智能化。特别是在处理高并发数据和复杂计算方面,阿里云的技术支持帮助盖雅工场有效应对了业务挑战,如通过OSS实现高效文件存储,利用PolarDB Serverless进行动态扩展,以及通过

2025-05-22 15:26:24 886

原创 【云故事探索 | No.8】:揭秘餐饮行业龙头 SaaS 厂商神州商龙的全栈可观测实践

天津市神州商龙科技股份有限公司成立于1998年,专为餐饮行业提供数字化解决方案。公司服务10万余家知名餐饮企业,确保用餐体验的稳定性至关重要。在业务容器化和微服务化过程中,神州商龙面临技术架构多样性、高可用要求及成本控制等挑战。通过尝试自建Prometheus和SkyWalking监控方案,最终选择阿里云Prometheus和日志服务SLS,实现了统一可观测平台,提升了监控效率、缩短故障排查时间、增强系统稳定性和优化资源利用率。

2025-05-22 15:24:30 589

原创 【云故事探索 | 】No.7:「越用越上瘾」,中华财险60%研发人员用通义灵码提效

保险业被视为社会“稳定器”与经济“助推器”,正快速数字化转型。中华联合财产保险股份有限公司运用“云+大模型”技术革新业务,通过阿里云的通义灵码大幅提升编码效率,近60%的研发人员采用,采纳的生成代码占比约20%,显著提升了团队创新能力与代码质量,并积极探索大模型在更多垂直业务场景的应用。保险业被看成是社会“稳定器”和经济“助推器”,近年来已驶入数字化发展快车道。在 AI、大模型当道的今天,保险行业的研发流程、产品设计、场景拓展等业务链条各环节,都值得用大模型进行重塑。

2025-05-22 15:17:00 284

原创 【云故事探索 | No.6 】:云端生物,自服务用云的溯源精微

在北京溯源精微科技有限公司的故事里,云计算成为了驱动生物科技革新的核心力量。自2011年成立以来,溯源精微深耕生物信息分析领域,利用自主研发的BinBash科学计算平台及阿里云的弹性计算与存储解决方案,成功克服了数据处理上的瓶颈。通过与阿里云的合作,公司实现了大规模数据的高效处理,将原本耗时数月的任务缩短至几天乃至几小时。此外,灵活的资源调配能力和按需付费模式极大地降低了计算成本,使溯源精微得以提供精准高效的基因组分析服务。

2025-05-22 15:16:01 614

原创 【云故事探索 | No.5 】:PETKIT小佩,科技与爱,共绘宠物智能生活新篇章

在数字化浪潮中,中国宠物行业蓬勃发展,国内养宠规模已超2亿,形成千亿市场。成立于2013年的PETKIT小佩,专注智能宠物用品,服务遍布40+国家。面对618、双11等高峰挑战,阿里云ECS弹性扩容助其稳定运行。借助阿里云全球化部署能力,小佩成功出海。最新可视喂食器结合AI算法与OSS存储,提升用户体验。未来,双方将进一步探索AI大模型在宠物行业的应用,持续优化养宠体验。在这个数字化转型的时代,科技不断地改变着我们的生活,而宠物行业也不例外。

2025-05-22 15:14:47 609

原创 【云故事探索 | No.4 】:千寻位置,时空智能赋能行业数字化转型

千寻位置,成立于2015年,利用北斗卫星系统及全球5000多座增强站,提供厘米级定位服务。该公司借助阿里云的计算能力,为汽车、农业等多个行业提供高精度时空智能解决方案,推动行业转型升级。千寻已完成超130亿元估值的A轮融资,展现了其在时空智能领域的领先地位。通过云上部署,千寻优化服务质量和市场扩展,应对突发流量,计划进一步全球化并应用AI技术。阿里云的支持对于千寻的成功至关重要,双方合作将时空智能服务推向国际。

2025-05-22 15:14:09 855

原创 【云故事探索】NO.3:智慧出行,云思妙想,看享道出行如何打造智能交通新业态

作为上汽集团的移动出行品牌,享道出行在阿里云的帮助下,仅用5天完成核心业务搬栈,成为首个使用阿里云PolarDB的大型出行平台。如果我们只是像在使用线下机房那样去使用公有云资源,而无法利用云的特性去设计应用系统,不对云上架构及云服务精细化治理,那么业务上云的价值将会持续被削弱,最终不但无法支撑好业务,反而会带来巨大的运营开销及账单。作为上汽集团的移动出行战略品牌,我们服务于千家万户,为用户提供全方位的出行服务,包括网约车、企业用车、个人租车以及出租车等业务,致力于打造一站式的出行解决方案。

2025-05-22 15:13:34 666

原创 【云故事探索 | No.2 】:引领汽车行业智能进化,看朴数智能如何重塑数字营销版图

朴数智能,一家专注AI自动化的科技公司,借助阿里云的云服务,尤其是云手机和桌面云技术,成功实现业务的快速增长和数字化转型。在阿里云的稳定性和高效支持下,朴数智能应对业务弹性需求,提升了运营效率。双方在“客户第一”的理念上达成共识,形成紧密合作,共同面对数字化时代的挑战,共创未来。阿里云不仅是技术提供者,更是朴数智能成长的伙伴,一同解锁了数字化转型新篇章。

2025-05-22 15:13:00 439

原创 【云故事探索 】No.1:看森马服饰,在阿里云上如何用AI实现创新?

在数字化转型的浪潮中,森马服饰通过阿里云的Serverless解决方案,特别是函数计算技术,成功将AI技术融入其核心业务流程,实现了从设计到营销的全链条智能化升级。面对AI技术落地的高成本、长决策周期和复杂运维等挑战,森马利用阿里云的弹性GPU算力和一键部署功能,显著降低了初期硬件投入和运维难度,将服装设计时间从3天缩短至30秒,极大提升了设计效率和市场响应速度。此外,森马还通过AI技术优化了供应链管理和个性化推荐,增强了用户体验和市场竞争力。这一案例展示了云计算和AI技术如何助力传统行业实现数字化转型,提

2025-05-22 15:12:00 670

原创 5 步教你创建大模型自定义插件

我们以万相文生图 V2 版模型为例,构建一个文生图的自定义插件,并将该插件应用在工作流中。先来看下万相 2.1 文生图效果,语义理解更加准确,效果更好,支持任意分辨率和比例,更多信息,可以百炼的官方文档:查看文档[2]。选择应用组件-自定义插件,新建自定义插件,并填写相关参数。🚩 Authorization 对应的 Bearer 信息。格式为:Bearer APIKEY,API KEY 右上角点头像可以查看。🚩 插件 URL:至于参数为啥这么填?是因为官方文档中,这个模型就是这么调用的。

2025-03-21 10:24:39 544

原创 大模型推理框架 RTP-LLM Embedding 技术揭秘

我们基于 RTP-LLM 实现了 Embedding 框架,支持部署 Transformer 结构的 Embedding 模型及其下游任务(Reranker/Classifier),在请求上支持 HTTP/ARPC/GRPC 协议,在部署上支持用户使用 SentenceTransformer 自定义后处理逻辑。Embedding 引擎已服务了淘宝主搜等多个在离线场景,并成功度过双十一洪峰。

2025-03-20 10:17:49 1181

原创 一招解决数据库中报表查询慢的痛点

DuckDB【1】【2】是一款面向嵌入式分析场景的高性能开源列式关系型数据库,专注于复杂 SQL 查询的加速与大规模数据分析(OLAP)。该项目由荷兰国家数学与计算机科学研究院(CWI)的 Mark Raasveldt 和 Hannes Mühleisen 主导开发,于 2019 年正式开源,凭借其卓越的 AP 性能与轻量级设计,迅速成为数据科学和边缘计算领域的热门选择,月下载量超百万次。

2025-03-12 10:14:57 989

原创 一文读懂!多语言大模型数据研发在大模型时代的实战全解

从 2022.11.30 OpenAI 发布 ChatGPT 3.0 后,大模型呈现大爆炸式发展,AI 的重要性一下子大提升,经历了拉资源、AI 创业公司、大厂提升到战略高度、百模大战、大规模推理应用。而这一切都离不开数据,训练数据成为模型效果的核心要素之一。在 AICon(全球人工智能开发与应用大会)也经常会有大模型数据相关专题技术分享。

2025-02-12 10:00:30 948

原创 提示词工程的十大认知误区

提示词工程是和大语言模型沟通的桥梁,是一门关于提问的艺术。尽管看似简单,但在实际应用中却充满挑战。我们需要深入理解模型的能力和局限性,并根据不同的场景灵活调整提示词设计,以实现最佳效果。提示词工程的核心不在于复杂的框架或大量的示例,而在于如何精准传达任务需求,并通过持续优化提高模型表现。避免常见误区,掌握提示词工程的核心技巧,能够帮助我们更好地利用大模型的潜力。同时,重视用户输入的质量以及不断调优提示词的能力,也是提示词工程成功的关键。

2025-02-07 09:50:53 989

原创 1 行命令引发的 Go 应用崩溃

以上就是 Go 自动插桩工具在使用 go build -race 时出现崩溃的分析全过程。通过对崩溃内容和调用链的排查,我们找到了产生问题的根本原因以及相应的解决方案。这将有助于我们在理解运行时机制的基础上,更加谨慎地编写注入到运行时的代码。

2025-01-17 10:05:50 1308

原创 OpenAI 故障复盘 - 阿里云容器服务与可观测产品如何保障大规模 K8s 集群稳定性

Kubernetes(K8s)架构已经是当今 IT 架构的主流与事实标准(CNCF Survey[1])。随着承接的业务规模越来越大,用户也在使用越来越大的 K8s 集群。Kubernetes 官方建议的最大集群规模是 5000 节点。甚至,如 OpenAI 通过技术优化,曾将 K8s 集群扩展至 7500 节点(Scaling Kubernetes to 7,500 nodes[2])。这种千级别节点的大规模 K8s 集群,会容易引起分布式系统内部瓶颈,但也增加了系统的脆弱性。

2025-01-08 11:20:19 1268

原创 如何提升大模型的“深度思维能力”

人类的思考可以是瞬间的,也可以是漫长的,尤其在面对棘手问题时,人类需要更多时间。这种特性大大提升了人类思维的潜力。当我们面临困难问题时,人类会尝试“分析-反思-创新”的链条,从而花费很长的时间来获得更为可信的答案(亦或是更美的答案,这是另一个问题,暂时不在本章中讨论)。从大模型的计算过程而言,我们很难相信它能够不经过思维过程的训练就获得思维能力,事实上我们可以认为,大模型获得思维能力的最佳路径也是通过显性的文字(或者图像)来完成,深化大模型的思维能力,一个可能而合理的手段是通过模拟思考。

2024-12-26 14:23:30 1686

原创 HNSW 分布式构建实践

文章总结了HNSW算法在大规模向量检索中的应用挑战及优化方案,特别是通过分布式构建和分治策略显著提高了索引构建效率和查询性能。

2024-12-11 10:11:51 1333

原创 关于大模型语料的迷思

人类对语言的理解,不仅仅是沟通的工具,更是感知世界的方式。20 世纪哲学家路德维希·维特根斯坦曾提出:“语言的界限即是世界的界限。”在他的观点中,语言不仅是传递信息的媒介,更是人类思想和意识的边界所在。我们通过语言表达想法,交流信息,描述世界,思考未来。正因如此,语言成为了探索智能问题的核心。如果存在一个语言中没有的概念,我们甚至难以意识到它的存在,亦或者如果它存在我们一定会尝试对其定义,这也就保证了存在的概念一定存在于语言中。

2024-11-20 14:04:56 807

原创 白话文讲解大模型| Attention is all you need

2017/06/12Google、多伦多大学所有 LLM 的始祖,迈向 NLP 新时代的基础架构传统的序列转换模型使用复杂的循环或卷积神经网络,包括编码器和解码器。表现最好的模型会透过注意力机制连接编码器和解码器。作者团队提出了一种新的简单网络结构,Transformer,完全基于注意力机制,不再使用循环和卷积。在两个机器翻译任务上进行实验,发现这些模型在质量上的表现优越,并且更容易进行平行运算,训练所需时间明显减少。

2024-11-07 11:04:33 874

原创 NativeCrash 率从万分位降到十万分位,我做了这几件事...

在App开发过程中,崩溃率是衡量App稳定性的关键指标。因为App崩溃不仅仅影响用户的即时体验,更对用户留存率构成了潜在的威胁。它如同一颗隐形的定时炸弹,随时可能引发用户体验的灾难。App崩溃分为Java Crash和Native Crash 2种。

2024-10-25 11:13:18 1083

原创 从一个事故中理解 Redis(几乎)所有知识点

从上面的例子可以看出,Redis 的内存几乎被缓冲区占用殆尽。以下是具体的结论:当前内存使用 (used_memory) 已经接近最大内存限制 (maxmemory),即 1.02 GB 接近 1.00 GB 的限制。内存开销 (used_memory_overhead) 很大,主要被客户端普通连接使用(可能是输出缓冲区),而实际的数据仅占用了很少的内存。分配器和 RSS 碎片率 (allocator_frag_ratio 和 mem_fragmentation_ratio) 较低,表明碎片不是问题。

2024-10-16 17:30:42 1444

原创 Web 性能优化|了解 HTTP 协议后才能理解的预加载

在性能优化过程中,开发者通常会集中精力在以下几个方面:服务器响应时间(RT)优化、服务端渲染(SSR)与客户端渲染优化、以及静态资源体积的减少。然而,对于许多用户进入网站的第一个页面(如首页),网络开销也是一个不容忽视的问题。由于新用户可能从未与网站建立连接,从 DNS 查询到 TCP 连接,再到下载服务器返回的内容,这些步骤的耗时通常远远超过服务器的响应时间。而多数情况下开发者无法通过代码优化来减少这部分时间消耗。

2024-10-08 10:42:12 1320

原创 如何让 Android 的前端页面像 iOS 一样“优雅”?

总的来说,Android 端对前端 Safe Area 的支持其实就只是简单的把端上的 WindowInsets 中的 DisplayCutout 抛给了前端,只是其实现的方式不太优雅。首先 View 只支持设置一个 OnApplyWindowInsetsListener 监听,这又是个公开方法,指望业务层完全不去碰这个方法是不可能的,也就导致了在实际使用时 safe-area-inset-* 属性总是会"莫名其妙"的失效。

2024-09-27 15:10:01 2109

原创 架构设计的悖论,复用是美好的还是邪恶的

错误的抽象、错误的代码复用,所引发的复杂性无限蔓延,对系统的危害比面条代码强大一百倍。复用与扩展,业务与技术,到底哪些该复用哪些不该复用,好像变成了一个哲学问题。如果说“正确的抽象”是一个 100 分的美丽乌托邦,那面向复杂性隔离的整洁架构,会不会是一个稳定的 80 分。面向复杂性隔离的整洁架构,我好像有了一些新的想法... To Be Continue。

2024-09-18 09:59:18 1354

原创 每日必抢小程序下单总结

首先,小程序是没有一个标准化的组织,随着时间推移,各家小程序(微信,支付宝、抖音等)的差异肯定是越来越大,像 Rax 这类的跨端框架需要“抹平”的成本会越来越高。而且抹平一般会采用交集的方式进行抹平,会导致我们无法利用到各个小程序平台的最全能力。跨端框架拥有“Write Once, Run everywhere”的好处,对于 0 到 1 探索阶段的项目比较适合,可以快速铺到各个市场,但是无法适用于每日必抢这类对性能、体验、深入融合各端生态有着高要求的项目,基于此我们还是决定拥抱原生建设下单方案。

2024-09-14 10:23:24 833

原创 大模型推理框架 RTP-LLM 架构解析

我们首先对 RTP-LLM,该系统由多个层次组成,从最外层的到最内层的AsyncModel,每一层都有特定的职责。

2024-09-04 16:36:06 5047

原创 我们写的代码是如何被用户看到的——前端篇

用户在浏览器地址输入 URL 之后发生了什么?这个问题对于我们前端开发者来说简直是典中典了,是前端基础,也是工作面试八股,更是性能优化依据。但本文想分享的重点不是之后发生了什么,而是之前发生了什么,即我们平时码出来的代码经历了哪些步骤处理,成为互联网用户能打开浏览的页面的?我们又是如何合理的更新网页的?前一个问题涉及开发与部署,后一个问题涉及发布。下面我将会从网页入口、开发、部署与发布这 4 方面逐步展开分享。

2024-08-30 14:14:53 1226

原创 Java 日常反常识踩坑

本文主要是日常业务开发中自身碰到过跟常识不一致的坑,问题虽然基础,但却可能造成比较大的线上问题。

2024-08-21 10:56:54 1075

原创 “JVM” 上的 AOP:Java Agent 实战

说起 AOP 的实现方式,大家可能第一时间想到的是 Spring AOP。Spring AOP 通过封装 Cglib 和 JDK 动态代理的相关逻辑,提供给我们方便的途径来生成动态代理对象,从而轻松实现方法执行前后的切面逻辑。很多常见的日志框架、权限校验框架(Apache Shiro)、RPC 调用框架(Apache Dubbo)的切面逻辑都是通过集成 Spring AOP 来实现的。

2024-08-16 10:30:06 1208

原创 深入理解 RDMA 的软硬件交互机制

随着数据中心的飞速发展,高性能网络不断挑战着带宽与时延的极限,网卡带宽从过去的 10 Gb/s 、25 Gb/s 到如今的 100 Gb/s、200 Gb/s 再到下一代的 400Gb/s 网卡,其发展速度已经远大于 CPU 发展的速度。为了满足高性能网络下的通信需求,阿里云不仅自研了高性能用户态协议栈 (Luna、Solar) ,也大规模使用了 RDMA 技术,以充分利用高性能网络。尤其是在存储和 AI 领域,RDMA 被广泛使用。

2024-08-07 10:04:23 1975

原创 测试环境领域到测试环境产品

目前的测试环境实践部分方案是基于当前的现状做了局部最优的选择,并非终态方案。有些在已有的基础上做的升级,有些依赖于架构治理的妥协选择:Stable 环境稳定可靠最核心方案应该是运维等级等同于线上,如与线上一同发布、机器规格、部署策略、操作管控等。这方面能力淘天集团前几年已经完成相关的升级。可观测系统对长尾技术栈需要按部就班的接入,如果所有架构统一,也就无需多余的投入。动态配置产品在分支隔离和使用规范上做到极致,其实也无需配置巡检。

2024-07-31 14:08:00 508

原创 LLM 推理加速:decode 阶段的 Attention 在 GPU 上的优化

随着大语言模型(Large Language Models,LLMs)在各领域的广泛应用,如何以低成本构建高吞吐、低延迟的推理服务成为了一个紧迫的问题。考虑到 LLM 在 GPU 上推理时参数量和计算量较大以致于单流执行就可以充分利用 GPU 资源,我们可以把 LLM 的推理延时分解到 kernel level,因此,进一步的,不考虑时间占比小的 kernel 计算后,LLM 的延时优化也就相应的分解成 GEMM 和 Attention 的 kernel 优化。

2024-07-26 10:15:58 1484

原创 什么?for 循环也会出问题?

初来乍到的笃某不假思索,对方法入参内的列表使用了排序大法,通过实现 compare 接口,对应两个 Detail 的修改时间,便很轻松的获取到了想要的值。

2024-07-19 10:18:52 972

原创 微软最新 WiFi 远程代码执行漏洞(CVE-2024-30078)探究

从函数的名称 Dt11Translate80211ToEthernetNdisPacket 可以推测,这个函数用于处理 802.11 数据包。802.11 是一种无线局域网的标准,而 WiFi 是 802.11 标准的一种产品实现。用 IDA 反编译函数,发现补丁是增加了一处对数值的比较,如果不满足条件则返回 NDIS_STATUS_INVALID_PACKET(0xc001000),即数据包非法。调用层次图表明,函数会在接收到 802.11 数据包时被调用。

2024-07-17 09:58:42 1672

原创 异步日志:性能优化的金钥匙

前面提到了 Log4j2 的高可扩展性,同时 Log4j2 的性能也是极高的,下面是 Log4j2 官方的 benchmark 数据,仅供参考:Log4j2 之所以性能如此之高,其中一个很重要的原因就是其。

2024-07-12 10:46:28 1596

2021阿里研究生态报告集

《阿里研究生态报告集(2021)》由阿里研究院主编,汇集了阿里研究生态的30余篇课题成果,涵盖与阿里密切相关的社会价值、科技创新、乡村振兴和双循环等四大领域。

2022-04-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除