Nutanix “rục rịch” chuẩn bị cho GPUDirect

Sự chuẩn bị cho GPUDirect

Một tài liệu kỹ thuật của Nutanix xác nhận rằng công ty này sẽ hỗ trợ việc đào tạo mô hình nền tảng AI với khả năng truy cập dữ liệu phân tán và phân phối dữ liệu nhanh chóng đến các máy chủ GPU của NVIDIA.

Các mô hình nền tảng, hay còn gọi là mô hình ngôn ngữ lớn (LLMs), là một đặc điểm của AI tạo sinh (Generative AI). Những mô hình này được đào tạo trên các máy chủ GPU bằng cách sử dụng các tập dữ liệu quy mô lớn, đạt đến hàng petabyte, với việc truy cập lặp đi lặp lại các phần tử dữ liệu. Quá trình này diễn ra trên các máy chủ có nhiều GPU hoạt động song song. NVIDIA đã phát triển giao thức GPUDirect, cho phép bộ nhớ của máy chủ GPU truy cập trực tiếp vào các ổ NVMe SSD, loại bỏ độ trễ do CPU của bộ điều khiển hệ thống lưu trữ tạo ra khi sao chép dữ liệu từ ổ đĩa vào bộ nhớ trước khi chuyển qua mạng.

Trước đây, điều này chỉ hoạt động với các mảng lưu trữ bên ngoài, mỗi mảng có một bộ điều khiển riêng, nhưng không khả thi với các hệ thống hạ tầng siêu hội tụ (HCI), nơi lưu trữ dựa trên các ổ đĩa được gắn trực tiếp vào các nút máy chủ HCI và được ảo hóa để tạo thành SAN. Nutanix cũng hỗ trợ truy cập dữ liệu ở cấp độ tệp.

Khi việc đào tạo mô hình AI thế hệ mới (Gen AI) trở thành một yêu cầu phổ biến hơn, Nutanix đã quyết định cần hỗ trợ khả năng cung cấp dữ liệu nhanh nhất có thể đến các máy chủ GPU của NVIDIA. CEO Rajiv Ramaswami đã đề cập đến dữ liệu cần thiết cho việc đào tạo mô hình AI vào tháng 7, nói rằng:
“GPU Direct đang nằm trong lộ trình của chúng tôi. Chúng tôi sẽ triển khai GPU Direct, đặc biệt là cho các file – đây là nơi thực sự cần GPU Direct. … Một điều khác cũng cần thiết là I/O băng thông cao. Hiện tại chúng tôi đã hỗ trợ các NIC 100 gig. … Ngoài ra, một máy chủ với dung lượng bộ nhớ lớn hơn cũng rất quan trọng. Tất cả những yếu tố này đều đóng vai trò quan trọng.”

Những kỹ thuật mới

Hiện tại, một tài liệu kỹ thuật của Nutanix mang tên “Scaling Storage Solutions for Foundation Model Training” do Vishal Sinha, Phó Chủ tịch kiêm Tổng Giám đốc (Engineer, Product & GTM), viết đã giải thích lý do cho việc này và cho biết:
Nutanix dự định tích hợp NVIDIA GPUDirect Storage và NFSoRDMA, cho phép truyền dữ liệu trực tiếp giữa bộ lưu trữ và bộ nhớ GPU, bỏ qua CPU.”

NFSoRDMA là giao thức NFS được sử dụng để gửi dữ liệu thông qua Remote Direct Memory Access (RDMA).

NUS sẽ sớm hỗ trợ một không gian tên lưu trữ đa đám mây kết hợp, cung cấp một cái nhìn thống nhất về dữ liệu trên các môi trường tại chỗ và đám mây. Điều này vô giá đối với việc đào tạo AI/ML khi các nguồn dữ liệu được phân tán tại nhiều địa điểm khác nhau, bao gồm edge, trung tâm dữ liệu và đám mây, vì nó đơn giản hóa và tăng tốc việc truy cập và chuẩn bị dữ liệu.

NUS (Nutanix Unified Storage) là giải pháp lưu trữ hợp nhất của Nutanix, tích hợp lưu trữ tệp, đối tượng và khối vào một giải pháp hiệu suất cao, tối ưu chi phí.

Tài liệu cũng đề cập đến sự tích hợp của NUS với AWS, sử dụng Elastic Block Store (EBS) và Amazon S3 để cung cấp khả năng lưu trữ tệp đa đám mây hiệu suất cao.

Tài liệu dẫn chứng một bài viết trên blog của Nutanix, trong đó trình bày kết quả điểm chuẩn MLPerf Storage v1.0 cho khối lượng công việc phân loại hình ảnh ResNet50. Vishal Sinha cũng đã trình bày một biểu đồ cho thấy Nutanix vượt trội hơn các nhà cung cấp khác về số lượng GPU H100 được hỗ trợ trong khối lượng công việc này:

Dự kiến, Nutanix sẽ công bố hỗ trợ GPUDirect và NFSoRDMA cho NUS trong nửa đầu năm 2025, cùng với một không gian tên lưu trữ đa đám mây kết hợp, hỗ trợ 200 và 400 GigE, và các máy chủ với dung lượng bộ nhớ lớn hơn hiện tại.

Liên hệ ngay với CSC để trải nghiệm nhanh cũng như tìm hiểu về sản phẩm Nutanix !