Đơn Giản Hóa Truy Cập GPU Fractional Với Rafay GPU PaaS

Đơn Giản Hóa Truy Cập GPU Phân Mảnh (Fractional GPU) Với Rafay GPU PaaS – Phần 1

Các doanh nghiệp và nhà cung cấp GPU Cloud đang chuyển dịch rất nhanh sang mô hình self-service cho developer và data scientist. Họ muốn cung cấp khả năng truy cập tức thì vào tài nguyên tính toán hiệu năng cao — đặc biệt là GPU — đồng thời tối ưu sử dụng và kiểm soát chi phí.

Rafay GPU PaaS được tạo ra để giải quyết đúng nhu cầu đó: developer và data scientist có thể tự tạo Developer Pods hoặc Jupyter Notebooks sử dụng GPU phân mảnh (fractional GPU) chỉ với vài thao tác từ giao diện self-service trực quan.

Đây là Phần 1 trong chuỗi bài viết về việc cung cấp tài nguyên AI/ML dạng self-service dựa trên Fractional GPU cho người dùng cuối.

Fractional GPU

Fractional GPU – Đơn Giản Hóa Truy Cập GPU

Trong môi trường AI hiện đại, quy trình cấp GPU kiểu truyền thống — nộp ticket, chờ IT xử lý, cấp server — không còn phù hợp. GPU phân mảnh cho phép nhiều workload chia sẻ một GPU vật lý một cách an toàn và hiệu quả.

Với Rafay GPU PaaS, các lớp fractional GPU được trừu tượng hóa đơn giản thành các lựa chọn như 0.25 GPU hay 0.5 GPU.
Không cần hiểu MIG, time-slicing hay cấu hình GPU chuyên sâu.
Không cần quyền admin hay quyền truy cập hạ tầng.

Developer Pods: Workspace Linux Đầy Đủ Trong Vài Giây

Developer chỉ cần điền vài thông số đơn giản:

  • Tên & mô tả

  • CPU (ví dụ: 500Mi)

  • Memory (ví dụ: 512MiB)

  • GPU Fraction (ví dụ: 0.25)

  • Base Image (Ubuntu 24.04 với CUDA, Python, v.v.)

    Developer Pod

Dựa trên lựa chọn này, Rafay tự động tính toán chi phí theo thời gian thực, giúp người dùng biết chính xác môi trường của mình sẽ tốn bao nhiêu trước khi khởi tạo.

Developer Pod Success

Chỉ với một click, Rafay xử lý toàn bộ phần còn lại:

  • KAI Scheduler cấp đúng phần GPU (25% GPU A100 hoặc L40S)

  • Áp quota, policy & isolation

  • Developer SSH trực tiếp vào môi trường Ubuntu từ xa

Trải nghiệm của người dùng giống như có một máy Linux riêng với GPU đầy đủ, nhưng thực tế chỉ sử dụng một phần GPU được cấp phát thông minh.

Developer Pod Access

Jupyter Notebook Với Fractional GPU

Với data scientist, trải nghiệm cũng đơn giản không kém.

Người dùng chỉ cần nhập:

  • CPU: ví dụ 1000m

  • Memory: ví dụ 4Gi

  • GPU Fraction: ví dụ 0.25

  • Chọn Base Image: TensorFlow, PyTorch, RAPIDS, Minimal…

Rafay tiếp tục hiển thị chi phí theo giờ/mức sử dụng.

Sau khi khởi tạo notebook, Rafay tự động:

  • Cấp fractional GPU

  • Tạo ingress, TLS cert, authentication

  • Trả về URL notebook sẵn sàng dùng

Tất cả trải nghiệm tương tự dịch vụ notebook managed trên cloud —
nhưng không phụ thuộc vendor, kiểm soát chi phí và policy đầy đủ.

Lợi Ích Mang Lại Cho Người Dùng

1. Truy Cập Tức Thì

Không cần chờ duyệt, không chờ cấp hardware.

2. Tài Nguyên Phù Hợp Nhu Cầu

Chọn đúng phần GPU phù hợp workload → giảm lãng phí.

3. Chi Phí Minh Bạch & Trực Quan

Thấy được cost theo giờ & theo tháng ngay trong UI.

4. Environment Quen Thuộc, Sẵn Sàng Làm Việc

Chọn framework ML/AI quen thuộc, vào là chạy ngay.

Bên Trong Rafay GPU PaaS

Rafay hoạt động phía sau với nhiều công nghệ khác nhau, nhưng người dùng có một trải nghiệm thống nhất và đơn giản.

Rafay Integrations

NVIDIA MIG

MIG là công nghệ chia GPU phần cứng, cung cấp:

  • Isolation mạnh

  • Các phân vùng GPU cố định

Hạn chế:

  • Phải partition GPU theo profile cố định

  • Chỉ chạy trên GPU datacenter cao cấp (đắt)

NVIDIA KAI Scheduler

Dùng thời gian (time slicing) để chia sẻ GPU khi MIG không có.

Cho phép:

  • Fractional GPU

  • Fractional GPU Memory

  • Queue-based sharing

Hạn chế:
Không có isolation về GPU memory — pod có thể nhìn thấy toàn bộ dung lượng GPU.

Tiêu Chuẩn Mới Cho GPU Cloud Self-Service

Với Rafay GPU PaaS, doanh nghiệp và GPU Cloud provider có thể vận hành GPU cloud đa tenant – self-service – hiệu quả:

  • Môi trường GPU sẵn sàng trong vài phút

  • Fractional GPU phân bổ linh hoạt

  • UI đơn giản, không cần hiểu kiến trúc GPU

  • Cost visibility rõ ràng

  • Tận dụng tối đa hạ tầng, giảm lãng phí

Kết quả:
Developer và Data Scientist làm việc nhanh hơn — và tối ưu từng đồng chi cho GPU.

Phần Tiếp Theo

Trong bài tiếp theo, chúng tôi sẽ giới thiệu khả năng tự chọn GPU Memory Fraction.
Thay vì chọn 25% GPU, người dùng có thể chọn dung lượng GPU Memory chính xác mà workload cần.

Liên hệ CSC Distribution để tìm hiểu thêm thông tin kiến thức về Rafay System!