Trong thế giới AI đang bùng nổ, mọi thứ đều xoay quanh dữ liệu – từ việc thu thập đến xử lý, huấn luyện mô hình và suy luận. Nhưng để AI hoạt động hiệu quả, hạ tầng lưu trữ phải đáp ứng đúng nhu cầu của từng giai đoạn trong vòng đời AI. Vậy hệ thống lưu trữ nào phù hợp với từng bước trong quy trình AI?
Bạn có thể tham khảo bài viết sau của chúng tôi để có một cái nhìn tổng quan về hạ tầng lưu trữ cho HPC/AI một cách tổng quát nhất. Những bài viết tiếp theo mình sẽ chia sẻ nhiều hơn và sâu hơn.

1. Giai Đoạn Nhập Dữ Liệu (Ingest) – Dữ Liệu Nhiều, Cần Lưu Trữ Dung Lượng Lớn
Vai Trò Của Giai Đoạn Này
AI cần một lượng dữ liệu khổng lồ để hoạt động – từ hình ảnh, video, cảm biến IoT cho đến dữ liệu giao dịch. Giai đoạn ingest là lúc hệ thống thu thập và lưu trữ dữ liệu từ nhiều nguồn khác nhau.
Yêu Cầu Về Lưu Trữ
- Dung lượng cao: Dữ liệu AI có thể lên đến petabyte hoặc thậm chí exabyte.
- Tiêu thụ điện năng thấp: Vì dữ liệu được thu thập liên tục, lưu trữ phải tối ưu về hiệu suất năng lượng.
- Băng thông đọc tuần tự cao: Hệ thống cần tốc độ đọc nhanh để phục vụ các bước xử lý sau.
Công Nghệ Được Dùng
- Lưu trữ đối tượng (Object Storage – S3, Cloudian, MinIO): Phù hợp để lưu trữ dữ liệu thô.
- HDD dung lượng cao: Tiết kiệm chi phí cho dữ liệu ít truy cập.
- NVMe SSD: Dành cho các workload cần ingest dữ liệu theo thời gian thực.
2. Giai Đoạn Chuyển Đổi Dữ Liệu (Transform)
Vai Trò Của Giai Đoạn Này
Trước khi đưa vào mô hình AI, dữ liệu phải được làm sạch, chuẩn hóa và chuyển đổi. Đây là giai đoạn cực kỳ quan trọng để đảm bảo mô hình không bị nhiễu bởi dữ liệu kém chất lượng. Dữ liệu trong giai đoạn này lọc bỏ các thông tin trùng lặp, chuyển đổi thành dạng token từ đó có thể giảm dung lượng vài trăm cho đến ngàn lần từ dữ liệu thô.
Yêu Cầu Về Lưu Trữ
- Dung lượng cao: Phục vụ quá trình chuyển đổi và lưu trữ dữ liệu sạch.
- Tiêu thụ điện năng thấp: Vì dữ liệu liên tục được xử lý, lưu trữ cần tiết kiệm năng lượng.
- Đọc ngẫu nhiên cao: Mô hình AI cần truy cập nhiều phần dữ liệu khác nhau.
- Ghi tuần tự tốc độ cao: Để lưu kết quả xử lý nhanh chóng.
Công Nghệ Được Dùng
- Computational Storage: Xử lý dữ liệu ngay trong thiết bị lưu trữ, giảm độ trễ.
- NVMe-over-Fabrics (NVMe-oF): Cung cấp tốc độ cao và độ trễ thấp.
- Lưu trữ file hiệu suất cao (GPFS, Lustre, BeeGFS): Xử lý dữ liệu lớn theo luồng song song.
- GPUDirect:Tải dữ liệu trực tiếp từ storage lên bộ nhớ của GPU mà không qua CPU.
- Local NVMe Drive: sử dụng chính các ổ cứng NVMe của GPU-node để lưu trữ để tăng tốc độ truy cập.
3. Giai Đoạn Huấn Luyện & Tinh Chỉnh (Training/Tuning) – Cần Tốc Độ Và Độ Trễ Thấp
Vai Trò Của Giai Đoạn Này
AI thực sự “học” ở bước này. Dữ liệu sau khi được chuẩn hóa và chuyển đổi thành Token và Vector hóa sẽ được đưa vào thuật toán để huấn luyện mô hình, sử dụng GPU hoặc TPU. Lưu ý dữ liệu để training thực tế sẽ không quá lớn. Một số mô hình chỉ khoảng 60TB đến 100TB.
Yêu Cầu Về Lưu Trữ
- Băng thông cao: GPU cần lượng lớn dữ liệu để hoạt động hiệu quả.
- Đọc ngẫu nhiên nhanh: Truy cập ngẫu nhiên giúp mô hình huấn luyện hiệu quả hơn.
- Viết tuần tự lớn theo từng checkpoint: Tránh mất dữ liệu khi huấn luyện kéo dài.
- Độ trễ thấp: Đảm bảo GPU không bị idle vì thiếu dữ liệu.
- Tối ưu hóa sử dụng GPU: Giúp khai thác tối đa tài nguyên tính toán.
Công Nghệ Được Dùng
- NVMe SSD hiệu suất cao: Giảm thời gian truy xuất dữ liệu cho GPU.
- RDMA (Remote Direct Memory Access): Giúp truyền dữ liệu tốc độ cao giữa storage và GPU.
- DPU (Data Processing Units): Hỗ trợ xử lý dữ liệu để giảm tải cho GPU/CPU.
4. Giai Đoạn Suy Luận (Inference) – Khi AI Bắt Đầu “Làm Việc”
Vai Trò Của Giai Đoạn Này
Mô hình AI đã được huấn luyện, giờ đây nó sẽ nhận đầu vào mới và đưa ra dự đoán, nhận diện hình ảnh, phân tích dữ liệu….
Yêu Cầu Về Lưu Trữ
- Kết hợp đọc và ghi ngẫu nhiên: AI phải phản ứng nhanh với dữ liệu mới.
- Cung cấp dữ liệu nhanh cho tài nguyên tính toán: Hạn chế GPU/CPU bị idle.
- Giảm thời gian chờ (idleness): Đảm bảo tốc độ xử lý ổn định.
Công Nghệ Được Dùng
- Computational Storage: Cho phép AI suy luận ngay trên thiết bị lưu trữ.
- Flash Storage NVMe: Độ trễ thấp, tăng tốc độ truy vấn dữ liệu.
- Edge Storage: Lưu trữ tại biên để suy luận nhanh mà không cần truy xuất về datacenter.
Vậy Một hệ thống AI mạnh mẽ không chỉ cần phần cứng GPU mạnh, mà còn phải có hạ tầng lưu trữ tối ưu cho từng giai đoạn. Dưới đây là một số chiến lược tối ưu:
- Dữ liệu thô → Dùng Object Storage (Cloud S3 hoặc on-prem Object Storage như Cloudian).
- Xử lý dữ liệu → Cần NVMe SSD & Computational Storage để tăng tốc.
- Huấn luyện AI → Cần NVMe SSD, DPU, RDMA để tránh nghẽn cổ chai.
- Suy luận AI → Dùng Computational Storage & Flash NVMe để giảm độ trễ.
Hãy liên hệ với chúng tôi để trao đổi và trải nghiệm thực tế trên lab của chúng tôi.