Triển khai NVIDIA Accelerated Computing cho AI Workloads với Rafay

Việc AI tạo sinh (generative AI) được áp dụng rộng rãi trên toàn cầu đang tạo ra nhu cầu khổng lồ về phần cứng tính toán tăng tốc. Trong môi trường doanh nghiệp, điều này đã thúc đẩy việc triển khai hạ tầng private cloud tăng tốc. Ở quy mô khu vực, nhu cầu này cũng dẫn đến sự xuất hiện của một lớp nhà cung cấp cloud mới chuyên cung cấp năng lực tính toán tăng tốc (GPU) cho các workload AI – thường được gọi là GPU cloud providers hoặc AI clouds. Nhiều nhà cung cấp trong số này có thể đáp ứng các tiêu chuẩn của NVIDIA Cloud Partner (NCP).

Những nhà cung cấp này không chỉ mang đến phần cứng GPU-accelerated mà còn cung cấp các dịch vụ AI cấp cao được tùy chỉnh theo nhu cầu khu vực. Dù là private cloud nội bộ hay GPU cloud khu vực, mục tiêu đều rõ ràng: biến hạ tầng AI trở nên dễ tiếp cận hơn, đồng thời đảm bảo các giải pháp phù hợp với đặc thù doanh nghiệp và khu vực phục vụ.

Trong bài viết này, chúng tôi sẽ trình bày các yêu cầu kỹ thuật cốt lõi và những thách thức trong việc xây dựng GPU cloud dạng self-service, cũng như cách nền tảng PaaS của đối tác NVIDIA – Rafay – có thể giải quyết những thách thức đó.


Nhu cầu cấp thiết của hạ tầng AI dạng self-service

Các lập trình viên và nhà khoa học dữ liệu hiện nay cần quyền truy cập vào tài nguyên tính toán theo cách self-service và on-demand, không thể phụ thuộc vào quy trình xử lý ticket truyền thống vốn gây ra sự trì hoãn nhiều giờ, thậm chí nhiều ngày.

Đối với các cloud provider, việc cung cấp luồng công việc self-service giúp provisioning môi trường tức thời không chỉ là yếu tố nâng cao trải nghiệm người dùng mà còn tối ưu hóa việc sử dụng hạ tầng GPU quý giá. Do đó, triển khai mô hình PaaS cho các môi trường GPU-powered không còn là một lựa chọn, mà là điều tất yếu.

Bên cạnh đó, NVIDIA AI Enterprise tăng tốc các workload AI thông qua các microservice dựng sẵn, bảo mật, hỗ trợ triển khai và scale các mô hình AI trong môi trường self-service.


Thách thức khi xây dựng giải pháp GPU PaaS

Việc dựng thử một PaaS GPU dựa trên mã nguồn mở có vẻ đơn giản, nhưng để đưa nó vào vận hành thực tế lại là chuyện khác. Nó đòi hỏi:

  • Phát triển tính năng liên tục

  • Bảo trì và hỗ trợ thường xuyên

  • Vá lỗi bảo mật định kỳ và cập nhật hệ thống

  • Đội ngũ chuyên nghiệp vận hành hệ thống mã nguồn mở

Đây chính là lúc các nhà cung cấp phần mềm hạ tầng (ISV) như Rafay thể hiện giá trị. Họ giúp doanh nghiệp và cloud provider rút ngắn thời gian triển khai, mang đến nền tảng PaaS GPU-powered sẵn sàng cho môi trường sản xuất.


Tăng tốc AI nhờ nền tảng self-service

Để xây dựng trải nghiệm private cloud dành cho AI, cần có 3 thành phần chính:

1. Accelerated computing infrastructure

Lập trình viên và nhà khoa học dữ liệu cần truy cập vào hạ tầng tính toán tăng tốc NVIDIA. NVIDIA Reference Architecture for AI Clouds cung cấp hướng dẫn để triển khai và cấu hình tối ưu GPU infrastructure.

2. PaaS layer

Một lớp PaaS cho phép tiêu thụ hạ tầng tính toán và ứng dụng AI theo cách self-service. Rafay Platform cung cấp:

  • Quản lý inventory

  • Cluster multitenancy

  • Luồng self-service provisioning

  • Các chức năng quản trị, lifecycle management ở cấp doanh nghiệp

Từ đó, rút ngắn thời gian đưa giải pháp ra thị trường.

3. AI models và frameworks

Người dùng cần truy cập vào các mô hình AI mới nhất để xây dựng hoặc fine-tune các ứng dụng AI sinh. Với NVIDIA AI Enterprise, họ có một nền tảng phần mềm cloud-native giúp đơn giản hóa việc phát triển và triển khai AI ở cấp độ sản xuất.

Bộ công cụ đi kèm gồm:

  • NVIDIA NIM: bộ microservice dễ dùng, giúp tối ưu hiệu năng mô hình với bảo mật và ổn định cấp doanh nghiệp.

Rafay Platform đóng vai trò là lớp orchestration và quản lý môi trường, giúp vận hành NVIDIA AI Enterprise một cách liền mạch trên toàn bộ hạ tầng.


Rafay Platform – Nền tảng PaaS cho hạ tầng AI

Rafay Platform cho phép các doanh nghiệp và cloud provider triển khai PaaS self-service cho các workload AI với mức độ kiểm soát cao. Được thiết kế dành riêng cho NVIDIA accelerated computing, nền tảng này hỗ trợ NVIDIA AI Enterprise cùng với đa dạng mô hình AI, framework, và hệ sinh thái ứng dụng AI bên thứ ba.

A diagram depicting Rafay's architecture for a self-service platform for AI workloads.
Kiến trúc Rafay cho nền tảng self-service phục vụ AI workload. Nguồn: Rafay

Rafay mang lại tỷ lệ hoàn vốn nhanh nhất, cung cấp đầy đủ cả phần cứng và phần mềm, mang lại trải nghiệm như cloud với các ứng dụng AI từ NVIDIA và đối tác.

Tại Đông Nam Á, Lintasarta (Indonesia) đang có kế hoạch sử dụng Rafay Platform để cung cấp khả năng PaaS cho người dùng cuối phục vụ các workload AI như inferencing, fine-tuning và training.

“Chúng tôi rất vui khi hợp tác cùng NVIDIA và Rafay để đánh giá và định nghĩa yêu cầu cho lớp PaaS phục vụ tiêu thụ ứng dụng AI.” – Vikram Sinha, Chủ tịch kiêm CEO của Indosat Ooredoo Hutchinson, công ty mẹ của Lintasarta.


Tích hợp NVIDIA AI Enterprise

Với Rafay, các tổ chức có thể triển khai đầy đủ các công cụ như:

  • NVIDIA NIM

  • NVIDIA NeMo

  • NVIDIA Blueprints

Tất cả đều là thành phần của nền tảng NVIDIA AI Enterprise, sẵn sàng cho môi trường sản xuất. Rafay cũng hỗ trợ cung cấp dịch vụ AI giá trị gia tăng dựa trên các ứng dụng bên thứ ba thông qua Environment Management layer.


Từ bare-metal đến turnkey AI cloud

Cloud provider hoặc doanh nghiệp có thể dùng Rafay Platform để tự động hóa hạ tầng và cung cấp:

  • OS, virtualization layer

  • Kubernetes hoặc SLURM

  • Multitenancy, inventory & policy management

  • SSO, RBAC, billing, monitoring, visibility

  • Triển khai AI apps & self-service platform

Tùy theo nhu cầu, họ có thể chọn triển khai từng phần riêng biệt.


Hỗ trợ hybrid AI workload

Rafay hỗ trợ tiêu thụ GPU dạng self-service không chỉ ở datacenter mà còn trên public cloud như AWS, Azure hoặc GCP. Nhờ đó, các tổ chức có thể mở rộng năng lực tính toán bằng cách kết hợp tài nguyên cloud với hạ tầng on-prem.


Tính năng doanh nghiệp cho quản lý hạ tầng GPU

Một số khả năng nổi bật:

  • SKU automation: định nghĩa các SKU gồm GPU, CPU, AI app

  • Self-service portal: dành riêng cho dev và data scientist

  • User Management: SSO, RBAC, audit log tích hợp với SIEM

  • Persona-specific admin: phân quyền và quản lý theo vai trò

  • Kubernetes lifecycle & platform management

  • Quota, audit, segmentation, policy enforcement

  • Usage & chargeback data: tích hợp hệ thống billing

  • Underlay automation: tự động hóa cấu hình mạng vật lý (switch…)


Kết luận

Khối lượng công việc AI đang đòi hỏi một cách tiếp cận hoàn toàn mới về triển khai và quản lý hạ tầng. Rafay Platform chính là câu trả lời cho nhu cầu này – cung cấp giải pháp PaaS sẵn sàng cho doanh nghiệp, tích hợp GPU NVIDIA và phần mềm AI hàng đầu.

👉 Bắt đầu hành trình chuyển đổi AI của bạn với Rafay Reference Architecture
👉 Liên hệ ngay với chúng tôi để tìm hiểu thêm: Contact Now!!