vLLM hay SGLang: doanh nghiệp nên chọn engine nào cho Chatbot, RAG và Coder? (Phần 2)

vLLM hay SGLang: doanh nghiệp nên chọn engine nào cho Chatbot, RAG và Coder?

2.1 Tải thấp: vLLM tạo cảm giác phản hồi rất nhanh

Ở kịch bản c1, vLLM 1N đạt 52.73 tokens/s/user
TTFT khoảng 120ms. Đây là kết quả rất tốt cho demo vì người dùng gần như thấy hệ thống bắt đầu trả lời ngay.

Môi trường c1 tokens/s/user c1 TTFT Khách hàng cảm nhận
vLLM 1N 52.73 120ms Phản hồi nhanh nhất ở tải thấp
vLLM Ray 2N 50.48 147ms Rất tốt, nhưng cần Ray cluster
SGLang 2N 50.04 178ms Tốt, nhưng dùng nhiều node hơn
SGLang 1N 33.68 184ms Ổn định, thấp hơn vLLM 1N

Low-load c1 tokens per user

Biểu đồ 1. vLLM 1N cao hơn SGLang 1N khoảng 56.6% về tokens/s/user và TTFT thấp hơn khoảng 35%.

2.2 Tải cao: SGLang scale-out tốt hơn rõ rệt

Khi tăng lên c64, lợi thế low-load không còn đủ.
SGLang 2N đạt 298.26 tokens/s, cao hơn vLLM Ray 2N đạt 265.67 tokens/s.
Trong bộ capacity mới, SGLang 4N 1P3D đạt 480.40 tokens/s,
phù hợp cho khoảng 50–60 active chat users.

Điểm cộng của SGLang

SGLang thể hiện tốt khi dùng Kubernetes Prefill/Decode Disaggregation. Đặc biệt với Chatbot decode-heavy, cấu hình 1P3D tận dụng 3 Decode node để tăng throughput.

Điểm cần cẩn trọng với vLLM K8s

vLLM 2N K8s đạt 198.52 tokens/s và TTFT 4.78s tại c64, thấp hơn cả vLLM 1N về tổng throughput. Điều này cho thấy orchestration không phù hợp có thể làm thêm node nhưng giảm hiệu quả.

Cấu hình c64 total tokens/s c64 TTFT Nhận xét
K8s SGLang 4N 1P3D 480.40 2.16s Tốt nhất cho Chatbot tải cao
K8s SGLang 2N 1P1D 298.26 2.59s Mạnh trong nhóm 2N
vLLM Ray 2N 265.67 1.43s TTFT tốt hơn K8s
K8s vLLM 2N 198.52 4.78s Không khuyến nghị tải cao

3. Coder: hai lựa chọn tốt nhất lại khác nhau

Coder là workload sinh output dài. Ở đây, SGLang 2N 1P1D
vLLM Ray 2N đều đạt khoảng 50 tokens/s/user.
SGLang 2N đạt 50.07 tokens/s/user ở OSL2048 với latency khoảng 41.08s,
trong khi vLLM 2N K8s chỉ đạt 32.63 tokens/s/user và mất khoảng 63.05s.

Môi trường OSL256 OSL512 OSL1024 OSL2048 Nhận xét
SGLang 2N 50.25 50.24 50.20 50.07 Ổn định khi output dài
vLLM Ray 2N 50.53 50.55 50.49 Rất tốt cho Coder trên Ray
vLLM 2N K8s 34.10 33.60 32.20 32.63 Không nổi bật
SGLang 1N 33.85 33.76 33.87 33.93 Phù hợp nhóm nhỏ

4. RAG dài: Prefill mới là câu chuyện chính

RAG dài khác Chatbot vì hệ thống phải đọc tài liệu dài trước khi trả lời.
SGLang Ray 2N đạt prefill 7,601 tokens/s và TTFT khoảng 2.16s trong bài RAG 16K ưu tiên TTFT.
SGLang 4N 2P2D phù hợp hơn nếu cần nhiều RAG 16K users, với total 42.88 tokens/s và TTFT khoảng 3.19s.

RAG 16K prefill throughput

Biểu đồ 2. 1P3D rất mạnh cho Chatbot nhưng không phù hợp RAG dài vì chỉ có 1 Prefill node.

5. Bảng kết luận: nên chọn engine như thế nào?

  • vLLM 1N phù hợp cho PoC/demo: triển khai đơn giản, ít overhead, TTFT thấp và tạo cảm giác phản hồi nhanh ở tải thấp.
  • SGLang 4N 1P3D phù hợp cho Chatbot tải cao: tận dụng nhiều Decode worker, đạt throughput tốt nhất trong bài test c64.
  • SGLang 4N 2P2D phù hợp cho Chatbot + RAG: cân bằng giữa Prefill và Decode, phù hợp hơn với workload hỗn hợp.
  • SGLang 2N 1P1D hoặc vLLM Ray 2N phù hợp cho Coder: giữ tốc độ sinh output dài ổn định.
  • Không có engine tốt nhất cho mọi trường hợp: lựa chọn đúng phụ thuộc vào workload chính, concurrency kỳ vọng và kiến trúc scale-out.
Bài toán Nên chọn Lý do
PoC/demo, ít user vLLM 1N hoặc SGLang 1N Đơn giản, ít overhead, dễ triển khai
Chatbot tải cao SGLang 4N 1P3D Tối ưu decode-heavy, throughput cao nhất
Chatbot + RAG SGLang 4N 2P2D Cân bằng Prefill và Decode
RAG context dài SGLang 4N 2P2D hoặc SGLang Ray 2N Prefill throughput và TTFT quan trọng hơn
Coder / Dev Assistant SGLang 2N 1P1D hoặc vLLM Ray 2N Giữ tốc độ sinh output dài ổn định
Chưa rõ workload SGLang 4N 2P2D Baseline production cân bằng và ít rủi ro hơn

Cần tư vấn triển khai LLM inference cho doanh nghiệp?

Benchmark chỉ là bước đầu để hiểu engine nào phù hợp hơn với từng workload.
Khi đi vào triển khai thực tế, doanh nghiệp còn phải tính đến mô hình sử dụng,
dung lượng GPU, số lượng người dùng đồng thời, độ dài context, kiến trúc Kubernetes,
network, monitoring, chi phí vận hành và khả năng mở rộng trong tương lai.

Nếu doanh nghiệp của bạn đang cân nhắc triển khai Chatbot nội bộ, hệ thống RAG,
Dev Assistant/Coder hoặc nền tảng LLM inference production,
CSC có thể đồng hành từ tư vấn kiến trúc, benchmark, sizing hạ tầng đến triển khai và tối ưu vận hành.

Hãy liên hệ với CSC để được tư vấn giải pháp AI infrastructure phù hợp với workload, ngân sách và mục tiêu triển khai thực tế của doanh nghiệp.