概述

協助任何地方的開發人員順利加速人工智慧

若要擴大人工智慧商機,開發人員需要取得最快速的人工智慧部署方法,以及最適合特定工作負載的最佳效能。Arm 致力於在整個 Arm 平台達到最高的人工智慧效能,協助確保每位開發人員、每個模型及每項工作負載都能順暢加速。

合作夥伴

連結開發人員與健全的人工智慧軟體生態系

Arm Kleidi 的目的是與頂尖人工智慧框架、雲端服務供應商及機器學習獨立軟體供應商社群合作,以提供完整的機器學習堆疊,並讓數十億計的工作負載能在開機後立即提升推論效能,無需額外的開發人員工作或專業知識。

PyTorch

Arm 與 PyTorch 社群密切合作,協助確保在 PyTorch 執行的模型能在 Arm 架構上順利運作,讓最繁重的人工智慧工作負載也能順暢加速。

BERT-Large

Arm 持續努力在 Arm CPU 提升 PyTorch 的推論效能,包括提供 Eager Mode 及 Graph Mode 等最佳化的主要執行模式。

整合 Kleidi 使得 Llama 模型推論效能提升 18 倍、Gemma 2 2B 提升 15 倍,而自然語言處理 (NLP) 模型也達到更高效能,包括 Bert-Large 提升 2.2 倍效能。

Llama 3.1 8B

在使用基於 Arm Neoverse V2 架構的 Graviton4 處理器時,於 PyTorch 套用 KleidiAI 最佳化,可讓示範的聊天機器人 token 產生速率如預期地提升 12 倍。

這項示範顯示在利用現有 Arm 架構運算能力的情況下,使用 LLM 建構人工智慧應用程式有多麼容易。

RoBERTa

AWS 與 Arm 合作最佳化 PyTorch 的 torch.compile 功能,用於搭載 Arm 運算函式庫 (ACL) 核心 (使用 oneDNN) 的 Neoverse V1 架構 Graviton3 處理器。

這項最佳化讓 Hugging Face 最熱門的 NLP 模型推論效能提升 2 倍。

FunASR Paraformer-Large

FunASR 是先進的開放原始碼自動語音辨識 (ASR) 工具套件,由阿里巴巴達摩院 (Alibaba DAMO Academy) 開發而成。

我們透過 oneDNN 將 ACL 與 PyTorch 整合,在基於 Neoverse N2 架構的 AliCloud Yitian710 處理器執行 Paraformer 模型時,發現效能提升了 2.3 倍。

ExecuTorch

Arm 和輕量級機器學習框架 ExecuTorch 共同在邊緣實現高效的裝置內介面功能。

Stable Audio Open

Stability AI 與 Arm 合作加速裝置內生成式人工智慧,無需網際網路連線便能發揮即時音訊產生能力。

Stable Audio Open 目前透過模型蒸餾及運用 Arm KleidiAI,在 Arm 架構智慧型手機上提供比以往快達 30 倍的文字轉音訊速度,使用者只需要幾秒鐘就能在邊緣產生高品質的音效。

Llama 3.2 1B

受惠於 Arm 和 Meta 的合作努力成果,人工智慧開發人員現可在 Arm CPU 上執行比以往快上 20% 的量化 Llama 3.2 模型。

透過 KleidiAI 與 ExecuTorch 整合並開發最加量化方案,我們在行動裝置上針對生成式人工智慧工作負載的預先填入階段已達到每秒超過 350 個 token 的速度。

Llama.cpp

為了展示 Arm 架構 CPU 處理 LLM 推論的能力,Arm 與合作夥伴正在 llama.cpp 實作最佳化的 int4 及 int8 核心,以運用各種更新型的指令。

Virtuoso-Lite 10B

Virtuoso-Lite 10B

Arcee AI Virtuoso-Lite 模型具備 4 位元量化功能,於 llama.cpp 執行,每秒提供 40 個 token,可在企業環境中執行 SLM 的 4.5 倍成本效能優勢。這是使用 Arm Kleidi 技術開機即用最佳化的原因。

客製化 SLM

AWS 與 Arm 已微調 TinyLlama 1.1B SLM,為汽車指南打造聊天機器人,讓駕駛人能夠直接與汽車互動。使用 KleidiAI,SLM 推論速度比以往的 Arm Cortex-A76 CPU 快 10 倍,回應時間只要 3 秒。

Llama 3.3 70B

SLM 與 Meta 合作,運用具備 4 位元量化功能的 KleidiAI,達到與更大的 Llama 3.1 405B 模型類似的效能。在採用 Arm Neoverse 技術的 Google Axion 處理器上部署時,效能均為每秒 50 個 token。

TinyLlama 1.1B

VicOne 使用 llama.cpp 搭配 KleidiAI,加速效能、加倍預先填入,並將資料編碼提升 60%。我們的合作關係透過減少依賴雲端、降低成本及確保資料在裝置內的安全,促成快速的車內網路安全威脅偵測。

TinyStories

TinyStories 是一個資料集,包含一般 3 歲兒童可能理解的詞彙。可用於訓練及評估 1,000 萬參數以下的小型模型。在 Arm Cortex-A320 CPU 上執行 TinyStories,提升超過 70% 的效能。

Llama 3 8B

在我們最佳化的 Graviton3 處理器示範產生文字,可讓 TTFT 提升 2.5 倍效能,並在文字產生階段達到每秒 35 個以上的 token,完全足以因應即時使用場景的需求。

其他領先框架

為了在整個 Arm 運算平台達到最高的人工智慧效能,我們致力於在所有主要的人工智慧及機器學習框架最佳化推論工作負載。

ONNX

ONNX

ONNX Runtime 是業界最廣泛使用的開放原始碼框架之一,適用於行動裝置、桌上型電腦及雲端的生成式人工智慧部署。

Arm 與 Microsoft 合作將 KleidiAI 整合至 ONNX Runtime,使用 Phi-3 Mini 3.8B 模型,在 Windows 及 Android 加速高達 2.6 倍的人工智慧推論。

LiteRT

LiteRT

KleidiAI 現在透過 XNNPACK (Google 適用於裝置內人工智慧的高效能運行時間,前身為 TensorFlow Lite) 與 LiteRT 整合。

這項合作關係與我們的 Stability AI Open Stable Audio Small 模型最佳化,促成裝置內的音訊產生,並將峰值運行時間 RAM 使用量從 6.5GB 降低至 3.6GB。

MNN

MNN 是由阿里巴巴開發的開放原始碼深度學習框架。我們的合作關係協助提升裝置內多模態使用場景的效能與效率。

如多語言指令調校 Qwen2-VL 2B 模型所示,整合 Kleidi 與 MNN 可提升 57% 的預先填入效能及 28% 的解碼速度。

OpenCV

隨著邊緣對先進節能電腦視覺 (CV) 的需求不斷增加,KleidiCV 可協助確保在 Arm CPU 進行 CV 應用的最佳效能。

目前已與 OpenCV 4.11 整合,開發人員可受益於提升高達四倍的關鍵影像處理作業速度,例如模糊、篩選、旋轉及調整大小。這樣的加速可協助提升影像分割及物件偵測,以及辨識使用場景的效能。

MediaPipe

Arm 與 Google AI Edge 合作的 MediaPipe 及 XNNPACK,可在目前及未來的 Arm CPU 加速人工智慧工作負載,協助開發人員使用 Gemma 及 Falcon 等眾多 LLM,為行動裝置、網際網路、邊緣及物聯網提供出色的人工智慧效能。

由於 Kleidi 透過 XNNPACK 與 MediaPipe 整合,在 Arm 架構高階智慧型手機的 Gemma 1 2B LLM 上執行聊天機器人示範時,TTFT 可加速 30%。

Angel

騰訊的 Angel 機器學習框架支援混元 LLM,範圍涵蓋 10 億至 3,000 億個以上的參數。可在智慧型手機及 Windows on Arm PC 等各種裝置實現人工智慧功能。

我們在 2024 年騰訊全球數位生態大會上宣布合作,並在騰訊眾多應用提供使用者更強大且高效的裝置內人工智慧服務,為實際工作負載帶來正面影響。

技術

加速 CPU 效能的關鍵開發人員技術

Arm Kleidi 包含最新的開發人員支援技術,設計用意在於推展人工智慧的模型功能、準確度及速度。這有助於確保人工智慧工作負載充分運用基礎的 Arm Cortex-A、Arm Cortex-X 或 Arm Neoverse CPU。

KleidiAI 及 KleidiCV 函式庫為輕量型核心,可協助機器學習 (ML) 及電腦視覺 (CV) 框架輕鬆以最佳效能為目標,並運用最新功能在 Arm CPU 架構設計中強化人工智慧和電腦視覺。

完整齊全且具有彈性的函式庫,可協助獨立軟體供應商取得最適合 Cortex-A 及 Neoverse CPU 的機器學習功能。函式庫不受作業系統影響,並可移植至 Android、Linux 及裸機系統。

開發人員資源

最新消息及資源

  • 開發人員
  • 最新消息及部落格
  • 指南
  • 電子書
  • 白皮書
人工智慧工作負載

瞭解 CPU 上的人工智慧推論指南

在 CPU 執行人工智慧工作負載的需求持續成長。我們的實用指南探討 CPU 推論在各種領域的效益及考量因素。

生成式人工智慧

生成式人工智慧在業務轉型所發揮的作用

探索如何運用生成式人工智慧發揮完整潛能,以及 Arm 在推動這項轉型的作用。

軟體人工智慧加速

為何軟體是人工智慧發揮完整潛能的關鍵所在

探索軟體為何是實作人工智慧的關鍵所在,以及如何加速建立高效能、安全的人工智慧應用。

生成式人工智慧

以兼具彈性及速度的方式擴展生成式人工智慧

擴展新型生成式人工智慧功能的競賽,為創新創造契機,同時帶來挑戰。瞭解如何克服這些挑戰,以 Arm 為基礎在任何地方成功部署人工智慧。

保持聯繫

訂閱最新動態即可掌握最新消息、個案研究與洞見。

電子報訂閱