vLLM hay SGLang: doanh nghiệp nên chọn engine nào cho Chatbot, RAG và Coder? (Phần 2)
vLLM hay SGLang: doanh nghiệp nên chọn engine nào cho Chatbot, RAG và Coder?
2.1 Tải thấp: vLLM tạo cảm giác phản hồi rất nhanh
Ở kịch bản c1, vLLM 1N đạt 52.73 tokens/s/user và
TTFT khoảng 120ms. Đây là kết quả rất tốt cho demo vì người dùng gần như thấy hệ thống bắt đầu trả lời ngay.
| Môi trường | c1 tokens/s/user | c1 TTFT | Khách hàng cảm nhận |
|---|---|---|---|
| vLLM 1N | 52.73 | 120ms | Phản hồi nhanh nhất ở tải thấp |
| vLLM Ray 2N | 50.48 | 147ms | Rất tốt, nhưng cần Ray cluster |
| SGLang 2N | 50.04 | 178ms | Tốt, nhưng dùng nhiều node hơn |
| SGLang 1N | 33.68 | 184ms | Ổn định, thấp hơn vLLM 1N |


Biểu đồ 1. vLLM 1N cao hơn SGLang 1N khoảng 56.6% về tokens/s/user và TTFT thấp hơn khoảng 35%.
2.2 Tải cao: SGLang scale-out tốt hơn rõ rệt
Khi tăng lên c64, lợi thế low-load không còn đủ.
SGLang 2N đạt 298.26 tokens/s, cao hơn vLLM Ray 2N đạt 265.67 tokens/s.
Trong bộ capacity mới, SGLang 4N 1P3D đạt 480.40 tokens/s,
phù hợp cho khoảng 50–60 active chat users.
Điểm cộng của SGLang
SGLang thể hiện tốt khi dùng Kubernetes Prefill/Decode Disaggregation. Đặc biệt với Chatbot decode-heavy, cấu hình 1P3D tận dụng 3 Decode node để tăng throughput.
Điểm cần cẩn trọng với vLLM K8s
vLLM 2N K8s đạt 198.52 tokens/s và TTFT 4.78s tại c64, thấp hơn cả vLLM 1N về tổng throughput. Điều này cho thấy orchestration không phù hợp có thể làm thêm node nhưng giảm hiệu quả.
| Cấu hình | c64 total tokens/s | c64 TTFT | Nhận xét |
|---|---|---|---|
| K8s SGLang 4N 1P3D | 480.40 | 2.16s | Tốt nhất cho Chatbot tải cao |
| K8s SGLang 2N 1P1D | 298.26 | 2.59s | Mạnh trong nhóm 2N |
| vLLM Ray 2N | 265.67 | 1.43s | TTFT tốt hơn K8s |
| K8s vLLM 2N | 198.52 | 4.78s | Không khuyến nghị tải cao |
3. Coder: hai lựa chọn tốt nhất lại khác nhau
Coder là workload sinh output dài. Ở đây, SGLang 2N 1P1D và
vLLM Ray 2N đều đạt khoảng 50 tokens/s/user.
SGLang 2N đạt 50.07 tokens/s/user ở OSL2048 với latency khoảng 41.08s,
trong khi vLLM 2N K8s chỉ đạt 32.63 tokens/s/user và mất khoảng 63.05s.
| Môi trường | OSL256 | OSL512 | OSL1024 | OSL2048 | Nhận xét |
|---|---|---|---|---|---|
| SGLang 2N | 50.25 | 50.24 | 50.20 | 50.07 | Ổn định khi output dài |
| vLLM Ray 2N | 50.53 | 50.55 | 50.49 | — | Rất tốt cho Coder trên Ray |
| vLLM 2N K8s | 34.10 | 33.60 | 32.20 | 32.63 | Không nổi bật |
| SGLang 1N | 33.85 | 33.76 | 33.87 | 33.93 | Phù hợp nhóm nhỏ |
4. RAG dài: Prefill mới là câu chuyện chính
RAG dài khác Chatbot vì hệ thống phải đọc tài liệu dài trước khi trả lời.
SGLang Ray 2N đạt prefill 7,601 tokens/s và TTFT khoảng 2.16s trong bài RAG 16K ưu tiên TTFT.
SGLang 4N 2P2D phù hợp hơn nếu cần nhiều RAG 16K users, với total 42.88 tokens/s và TTFT khoảng 3.19s.


Biểu đồ 2. 1P3D rất mạnh cho Chatbot nhưng không phù hợp RAG dài vì chỉ có 1 Prefill node.
5. Bảng kết luận: nên chọn engine như thế nào?
- vLLM 1N phù hợp cho PoC/demo: triển khai đơn giản, ít overhead, TTFT thấp và tạo cảm giác phản hồi nhanh ở tải thấp.
- SGLang 4N 1P3D phù hợp cho Chatbot tải cao: tận dụng nhiều Decode worker, đạt throughput tốt nhất trong bài test c64.
- SGLang 4N 2P2D phù hợp cho Chatbot + RAG: cân bằng giữa Prefill và Decode, phù hợp hơn với workload hỗn hợp.
- SGLang 2N 1P1D hoặc vLLM Ray 2N phù hợp cho Coder: giữ tốc độ sinh output dài ổn định.
- Không có engine tốt nhất cho mọi trường hợp: lựa chọn đúng phụ thuộc vào workload chính, concurrency kỳ vọng và kiến trúc scale-out.
| Bài toán | Nên chọn | Lý do |
|---|---|---|
| PoC/demo, ít user | vLLM 1N hoặc SGLang 1N | Đơn giản, ít overhead, dễ triển khai |
| Chatbot tải cao | SGLang 4N 1P3D | Tối ưu decode-heavy, throughput cao nhất |
| Chatbot + RAG | SGLang 4N 2P2D | Cân bằng Prefill và Decode |
| RAG context dài | SGLang 4N 2P2D hoặc SGLang Ray 2N | Prefill throughput và TTFT quan trọng hơn |
| Coder / Dev Assistant | SGLang 2N 1P1D hoặc vLLM Ray 2N | Giữ tốc độ sinh output dài ổn định |
| Chưa rõ workload | SGLang 4N 2P2D | Baseline production cân bằng và ít rủi ro hơn |
Cần tư vấn triển khai LLM inference cho doanh nghiệp?
Benchmark chỉ là bước đầu để hiểu engine nào phù hợp hơn với từng workload.
Khi đi vào triển khai thực tế, doanh nghiệp còn phải tính đến mô hình sử dụng,
dung lượng GPU, số lượng người dùng đồng thời, độ dài context, kiến trúc Kubernetes,
network, monitoring, chi phí vận hành và khả năng mở rộng trong tương lai.
Nếu doanh nghiệp của bạn đang cân nhắc triển khai Chatbot nội bộ, hệ thống RAG,
Dev Assistant/Coder hoặc nền tảng LLM inference production,
CSC có thể đồng hành từ tư vấn kiến trúc, benchmark, sizing hạ tầng đến triển khai và tối ưu vận hành.
Hãy liên hệ với CSC để được tư vấn giải pháp AI infrastructure phù hợp với workload, ngân sách và mục tiêu triển khai thực tế của doanh nghiệp.

