vLLM Quickstart: Pengiriman LLM Berkinerja Tinggi
Inferensi LLM yang Cepat dengan API OpenAI
vLLM adalah mesin inferensi dan pelayanan (serving) berbasis throughput tinggi dan efisien penggunaan memori untuk Large Language Models (LLMs) yang dikembangkan oleh Sky Computing Lab dari UC Berkeley.