協助任何地方的開發人員順利加速人工智慧
若要擴大人工智慧商機,開發人員需要取得最快速的人工智慧部署方法,以及最適合特定工作負載的最佳效能。Arm 致力於在整個 Arm 平台達到最高的人工智慧效能,協助確保每位開發人員、每個模型及每項工作負載都能順暢加速。
連結開發人員與健全的人工智慧軟體生態系
Arm Kleidi 的目的是與頂尖人工智慧框架、雲端服務供應商及機器學習獨立軟體供應商社群合作,以提供完整的機器學習堆疊,並讓數十億計的工作負載能在開機後立即提升推論效能,無需額外的開發人員工作或專業知識。
PyTorch
Arm 與 PyTorch 社群密切合作,協助確保在 PyTorch 執行的模型能在 Arm 架構上順利運作,讓最繁重的人工智慧工作負載也能順暢加速。
BERT-Large
Arm 持續努力在 Arm CPU 提升 PyTorch 的推論效能,包括提供 Eager Mode 及 Graph Mode 等最佳化的主要執行模式。
整合 Kleidi 使得 Llama 模型推論效能提升 18 倍、Gemma 2 2B 提升 15 倍,而自然語言處理 (NLP) 模型也達到更高效能,包括 Bert-Large 提升 2.2 倍效能。
Llama 3.1 8B
在使用基於 Arm Neoverse V2 架構的 Graviton4 處理器時,於 PyTorch 套用 KleidiAI 最佳化,可讓示範的聊天機器人 token 產生速率如預期地提升 12 倍。
這項示範顯示在利用現有 Arm 架構運算能力的情況下,使用 LLM 建構人工智慧應用程式有多麼容易。
RoBERTa
AWS 與 Arm 合作最佳化 PyTorch 的 torch.compile 功能,用於搭載 Arm 運算函式庫 (ACL) 核心 (使用 oneDNN) 的 Neoverse V1 架構 Graviton3 處理器。
這項最佳化讓 Hugging Face 最熱門的 NLP 模型推論效能提升 2 倍。
FunASR Paraformer-Large
FunASR 是先進的開放原始碼自動語音辨識 (ASR) 工具套件,由阿里巴巴達摩院 (Alibaba DAMO Academy) 開發而成。
我們透過 oneDNN 將 ACL 與 PyTorch 整合,在基於 Neoverse N2 架構的 AliCloud Yitian710 處理器執行 Paraformer 模型時,發現效能提升了 2.3 倍。
ExecuTorch
Arm 和輕量級機器學習框架 ExecuTorch 共同在邊緣實現高效的裝置內介面功能。
Stable Audio Open
Stability AI 與 Arm 合作加速裝置內生成式人工智慧,無需網際網路連線便能發揮即時音訊產生能力。
Stable Audio Open 目前透過模型蒸餾及運用 Arm KleidiAI,在 Arm 架構智慧型手機上提供比以往快達 30 倍的文字轉音訊速度,使用者只需要幾秒鐘就能在邊緣產生高品質的音效。
Llama 3.2 1B
受惠於 Arm 和 Meta 的合作努力成果,人工智慧開發人員現可在 Arm CPU 上執行比以往快上 20% 的量化 Llama 3.2 模型。
透過 KleidiAI 與 ExecuTorch 整合並開發最加量化方案,我們在行動裝置上針對生成式人工智慧工作負載的預先填入階段已達到每秒超過 350 個 token 的速度。
Llama.cpp
為了展示 Arm 架構 CPU 處理 LLM 推論的能力,Arm 與合作夥伴正在 llama.cpp 實作最佳化的 int4 及 int8 核心,以運用各種更新型的指令。
其他領先框架
為了在整個 Arm 運算平台達到最高的人工智慧效能,我們致力於在所有主要的人工智慧及機器學習框架最佳化推論工作負載。
ONNX
ONNX Runtime 是業界最廣泛使用的開放原始碼框架之一,適用於行動裝置、桌上型電腦及雲端的生成式人工智慧部署。
Arm 與 Microsoft 合作將 KleidiAI 整合至 ONNX Runtime,使用 Phi-3 Mini 3.8B 模型,在 Windows 及 Android 加速高達 2.6 倍的人工智慧推論。
LiteRT
KleidiAI 現在透過 XNNPACK (Google 適用於裝置內人工智慧的高效能運行時間,前身為 TensorFlow Lite) 與 LiteRT 整合。
這項合作關係與我們的 Stability AI Open Stable Audio Small 模型最佳化,促成裝置內的音訊產生,並將峰值運行時間 RAM 使用量從 6.5GB 降低至 3.6GB。
MNN
MNN 是由阿里巴巴開發的開放原始碼深度學習框架。我們的合作關係協助提升裝置內多模態使用場景的效能與效率。
如多語言指令調校 Qwen2-VL 2B 模型所示,整合 Kleidi 與 MNN 可提升 57% 的預先填入效能及 28% 的解碼速度。
OpenCV
隨著邊緣對先進節能電腦視覺 (CV) 的需求不斷增加,KleidiCV 可協助確保在 Arm CPU 進行 CV 應用的最佳效能。
目前已與 OpenCV 4.11 整合,開發人員可受益於提升高達四倍的關鍵影像處理作業速度,例如模糊、篩選、旋轉及調整大小。這樣的加速可協助提升影像分割及物件偵測,以及辨識使用場景的效能。
MediaPipe
Arm 與 Google AI Edge 合作的 MediaPipe 及 XNNPACK,可在目前及未來的 Arm CPU 加速人工智慧工作負載,協助開發人員使用 Gemma 及 Falcon 等眾多 LLM,為行動裝置、網際網路、邊緣及物聯網提供出色的人工智慧效能。
由於 Kleidi 透過 XNNPACK 與 MediaPipe 整合,在 Arm 架構高階智慧型手機的 Gemma 1 2B LLM 上執行聊天機器人示範時,TTFT 可加速 30%。
Angel
騰訊的 Angel 機器學習框架支援混元 LLM,範圍涵蓋 10 億至 3,000 億個以上的參數。可在智慧型手機及 Windows on Arm PC 等各種裝置實現人工智慧功能。
我們在 2024 年騰訊全球數位生態大會上宣布合作,並在騰訊眾多應用提供使用者更強大且高效的裝置內人工智慧服務,為實際工作負載帶來正面影響。
加速 CPU 效能的關鍵開發人員技術
Arm Kleidi 包含最新的開發人員支援技術,設計用意在於推展人工智慧的模型功能、準確度及速度。這有助於確保人工智慧工作負載充分運用基礎的 Arm Cortex-A、Arm Cortex-X 或 Arm Neoverse CPU。
KleidiAI 及 KleidiCV 函式庫為輕量型核心,可協助機器學習 (ML) 及電腦視覺 (CV) 框架輕鬆以最佳效能為目標,並運用最新功能在 Arm CPU 架構設計中強化人工智慧和電腦視覺。
完整齊全且具有彈性的函式庫,可協助獨立軟體供應商取得最適合 Cortex-A 及 Neoverse CPU 的機器學習功能。函式庫不受作業系統影響,並可移植至 Android、Linux 及裸機系統。
最新消息及資源
- 開發人員
- 最新消息及部落格
- 指南
- 電子書
- 白皮書