Các workload AI hiện nay ngày càng “khát dữ liệu”, đòi hỏi hệ thống lưu trữ vừa phải mở rộng lớn vừa chi phí hợp lý. Dự báo đến năm 2028, doanh nghiệp có thể tạo ra gần 400 zettabyte dữ liệu mỗi năm, trong đó khoảng 90% là dữ liệu phi cấu trúc như âm thanh, video, PDF, hình ảnh, log, v.v.
Kết hợp với nhu cầu di chuyển dữ liệu linh hoạt giữa hạ tầng on-premises và cloud, bài toán lưu trữ cho AI đang buộc nhiều tổ chức phải tìm kiếm các phương án mới.
Một trong những hướng đi nổi bật là RDMA cho S3-compatible storage – tận dụng RDMA (Remote Direct Memory Access) để tăng tốc giao thức lưu trữ dựa trên S3 API, tối ưu cho dữ liệu và workload AI.
Vì sao cần RDMA cho S3?
Object storage tương thích S3 từ lâu đã được dùng cho các bài toán lưu trữ dung lượng lớn, chi phí thấp như archive, backup, data lake, log… – những nơi hiệu năng không phải ưu tiên số một.
Ngày nay, nhiều khách hàng đã bắt đầu dùng object storage cho huấn luyện mô hình AI, nhưng họ cần hiệu năng cao hơn rất nhiều để theo kịp tốc độ xử lý của GPU.
Giải pháp RDMA cho S3-compatible storage, kết hợp với hạ tầng mạng tăng tốc của NVIDIA, mang lại khả năng truy cập object storagenhanh hơn và hiệu quả hơn nhờ sử dụng RDMA cho đường truyền dữ liệu object.
So với việc dùng TCP truyền thống cho object storage, giải pháp này giúp:
tăng throughput trên mỗi terabyte lưu trữ
tăng throughput trên mỗi watt điện tiêu thụ
giảm chi phí trên mỗi terabyte
giảm độ trễ một cách đáng kể
Các lợi ích chính cho doanh nghiệp
1. Giảm chi phí lưu trữ AI
Hệ thống có thể đạt hiệu năng cao hơn trên cùng hạ tầng lưu trữ, từ đó tối ưu chi phí cho mỗi TB dùng cho AI. Điều này cũng giúp việc phê duyệt và triển khai dự án AI dễ dàng hơn do tổng chi phí hạ tầng hợp lý hơn.
2. Tính linh hoạt và di động workload
AI workload có thể chạy không cần chỉnh sửa cả ở on-premises lẫn trên các cloud service provider hoặc “neo-cloud”, nhờ cùng sử dụng S3 API quen thuộc.
Do đó, doanh nghiệp giữ được khả năng di chuyển workload giữa các môi trường mà không phải viết lại phần lưu trữ.
3. Lưu trữ tăng tốc cho training & inference
RDMA cho S3-compatible storage cung cấp tốc độ truy cập dữ liệu cao hơn rõ rệt cho:
huấn luyện mô hình AI
suy luận (inference)
vector database
key-value cache phục vụ hạ tầng “AI factory”
Các giải pháp AI data platform cũng được hưởng lợi nhờ khả năng truy cập object storage nhanh hơn và metadata phong phú hơn, hỗ trợ tốt cho index và truy vấn nội dung.
4. Giảm tải CPU, tối ưu GPU
Vì RDMA cho S3-compatible storage không sử dụng CPU host để truyền dữ liệu, tài nguyên CPU được giải phóng cho các tác vụ khác trong pipeline AI.
Kết quả là GPU được “nuôi dữ liệu” đều hơn, tăng mức độ sử dụng GPU và rút ngắn thời gian xử lý.
Cách NVIDIA hiện thực hoá RDMA cho S3-compatible storage
NVIDIA phát triển bộ thư viện client và server để tăng tốc object storage:
Thư viện server được các hãng lưu trữ tích hợp vào giải pháp object storage của họ, cho phép truyền dữ liệu object qua RDMA dựa trên S3 API. Điều này giúp tăng tốc độ truyền và nâng cao hiệu quả cho các workload AI.
Thư viện client chạy trên các node GPU dùng cho AI. Nhờ đó, workload AI có thể truy cập dữ liệu object storage nhanh hơn nhiều so với truy cập S3 qua TCP truyền thống, cải thiện hiệu năng và nâng cao mức tận dụng GPU.
Các thư viện ban đầu được tối ưu cho GPU và mạng của NVIDIA, nhưng kiến trúc được thiết kế mở:
các vendor khác và khách hàng có thể đóng góp vào thư viện client hoặc tích hợp vào phần mềm riêng
hoặc tự xây dựng phần mềm của mình để hỗ trợ và khai thác API RDMA cho S3-compatible storage
Chuẩn hóa, đối tác và hệ sinh thái
NVIDIA đang phối hợp với các đối tác để chuẩn hóa RDMA cho S3-compatible storage, nhằm tạo nên một chuẩn chung cho toàn ngành.
Một số đối tác object storage lớn đã bắt đầu áp dụng công nghệ này, bao gồm
1.Cloudian: tích hợp RDMA cho S3 vào giải pháp Cloudian HyperStore, tập trung vào việc tăng tốc AI storage và giảm chi phí lưu trữ.
Đặc biệt, Cloudian đã đạt các chứng nhận quan trọng từ NVIDIA:
Certified NVIDIA AIDP (AI Data Platform): HyperScale AIDP của Cloudian được xây dựng trên reference design NVIDIA AIDP, tích hợp GPU RTX Pro 6000 và NVIDIA AI Enterprise. Đọc thêm!
Certified NVIDIA STX: Hỗ trợ kiến trúc AI-native STX với BlueField-4 và Spectrum-X. Đọc thêm!
CMX (Context Memory Storage): Tối ưu cho inference dài hạn với tier context memory pod-level. Đọc thêm!
Những chứng nhận này khẳng định Cloudian là lựa chọn enterprise-grade cho AI factory quy mô lớn.
Jon Toor, Giám đốc Marketing trưởng, Cloudian: “Object storage chính là tương lai của quản lý dữ liệu có khả năng mở rộng cho AI.”
“Cloudian đang tiên phong hợp tác với NVIDIA để chuẩn hóa RDMA cho S3-compatible storage, giúp tạo ra object storage nhanh hơn, hiệu quả
hơn – hỗ trợ mở rộng các giải pháp AI đồng thời giảm chi phí lưu trữ. Việc chuẩn hóa cùng khả năng tương thích S3 API của Cloudian sẽ mang lại khả năng mở rộng và hiệu năng mượt mà cho hàng nghìn ứng dụng và công cụ dựa trên S3 hiện có, cả on-premises lẫn trên cloud.”
2. Dell Technologies: kết hợp với NVIDIA để đưa RDMA cho S3-compatible storage vào Dell ObjectScale, cung cấp khả năng mở rộng lớn, hiệu năng cao và độ trễ thấp từ đầu đến cuối, làm nền tảng lưu trữ cho “AI factory” và AI data platform.
3.HPE: tích hợp RDMA cho S3-compatible storage vào HPE Alletra Storage MP X10000, hướng đến lưu trữ thông minh, mở rộng và tối ưu cho dữ liệu phi cấu trúc và workload AI.
Jim O’Dorisio, Phó Chủ tịch Cấp cao kiêm Tổng Giám đốc Storage, HPE:
“Khi các workload AI tiếp tục tăng quy mô và độ phức tạp, những sáng tạo của NVIDIA về RDMA cho S3-compatible storage APIs và thư viện đang tái định nghĩa cách dữ liệu di chuyển ở quy mô lớn. Hợp tác chặt chẽ với NVIDIA, HPE đã xây dựng giải pháp tăng tốc throughput, giảm độ trễ và hạ thấp tổng chi phí sở hữu. Với khả năng RDMA cho S3-compatible storage nay đã được tích hợp vào HPE Alletra Storage MP X10000, chúng tôi đang mở rộng vị thế dẫn đầu về lưu trữ thông minh, có khả năng mở rộng cho dữ liệu phi cấu trúc và workload AI.”
Các lãnh đạo từ Cloudian, Dell và HPE đều nhấn mạnh rằng object storage là tương lai của quản lý dữ liệu quy mô lớn cho AI, và RDMA cho S3-compatible storage là bước quan trọng để đạt được hiệu năng lẫn chi phí tối ưu ở quy mô hàng nghìn GPU.
Lộ trình phát hành và chương trình chứng nhận
Thư viện RDMA cho S3-compatible storage của NVIDIA hiện đã được cung cấp cho một số đối tác chọn lọc và dự kiến sẽ được phát hành rộng rãi thông qua NVIDIA CUDA Toolkit (tháng 1, theo lộ trình của NVIDIA).
Bên cạnh đó, NVIDIA cũng giới thiệu chương trình chứng nhận NVIDIA Object Storage Certification, thuộc chương trình NVIDIA-Certified Storage, giúp khách hàng nhận diện các giải pháp lưu trữ đã được kiểm chứng cho workload AI.