Blog Standard - CSC Distribution

Awesome Image Awesome Image

Ghép nhiều máy chủ GPU: Giải pháp chạy được mô hình có kích thước lớn hơn vRAM của GPU

Phần 1 (Lựa chọn nền tảng chạy mô hình LLM phù hợp trong môi trường on-prem: vLLM hay SGlang) chắc các bạn đọc cũng có thấy chúng tôi sử dụng một số công cụ thể ghép nhiều GPU (hoặc node có GPU) lại với nhau để xử lý các bài toán: RAG, Agentic, Coding trong […]

Read More

CSC Distribution Chính Thức Trở Thành Nhà Phân Phối Giải Pháp Và Dịch Vụ Của Supermicro Tại Việt Nam

CSC Distribution Chính Thức Trở Thành Nhà Phân Phối Giải Pháp Và Dịch Vụ Của Supermicro Tại Việt Nam CSC Distribution SUPERMICRO Trang chủ Tin tức Giải pháp Liên hệ Thông cáo báo chí CSC Distribution Chính Thức Trở Thành Nhà Phân Phối Giải Pháp Và Dịch Vụ Của Supermicro Tại Việt Nam Hà Nội, […]

Read More

Loadbalancer.org: Cân bằng tải cho hệ thống lưu trữ doanh nghiệp

Loadbalancer.org: Tối ưu cân bằng tải cho hệ thống lưu trữ và ứng dụng trọng yếu Trong kỷ nguyên dữ liệu tăng trưởng nhanh, các hệ thống lưu trữ, ứng dụng giao dịch, nền tảng y tế, tài chính và dịch vụ số không thể chấp nhận tình trạng gián đoạn. Đây là lý do […]

Read More

vLLM hay SGLang: doanh nghiệp nên chọn engine nào cho Chatbot, RAG và Coder? (Phần 2)

vLLM hay SGLang: doanh nghiệp nên chọn engine nào cho Chatbot, RAG và Coder? 2.1 Tải thấp: vLLM tạo cảm giác phản hồi rất nhanh Ở kịch bản c1, vLLM 1N đạt 52.73 tokens/s/user và TTFT khoảng 120ms. Đây là kết quả rất tốt cho demo vì người dùng gần như thấy hệ thống bắt […]

Read More

vLLM vs SGLang: Nên Chọn Engine AI Nào?

vLLM hay SGLang: doanh nghiệp nên chọn engine nào cho Chatbot, RAG và Coder? Câu hỏi thường gặp: “vLLM hay SGLang tốt hơn?” Câu trả lời đúng không phải là chọn một engine cho mọi tình huống. Benchmark cho thấy vLLM rất mạnh ở tải thấp/single-node, trong khi SGLang nổi bật hơn khi scale-out cho […]

Read More