vLLM hay SGLang: doanh nghiệp nên chọn engine nào cho Chatbot, RAG và Coder? (Phần 2)
vLLM hay SGLang: doanh nghiệp nên chọn engine nào cho Chatbot, RAG và Coder? 2.1 Tải thấp: vLLM tạo cảm giác phản hồi rất nhanh Ở kịch bản c1, vLLM 1N đạt 52.73 tokens/s/user và TTFT khoảng 120ms. Đây là kết quả rất tốt cho demo vì người dùng gần như thấy hệ thống bắt […]
Read More

