MLOps – Từ Thành Công Thực Tiễn Đến Xu Hướng Tương Lai

MLOps – Machine Learning Operations – là tập hợp các phương pháp giúp doanh nghiệp vận hành AI hiệu quả, với sự hỗ trợ từ một hệ sinh thái ngày càng mở rộng gồm các sản phẩm phần mềm và dịch vụ đám mây.

MLOps: Đưa Enterprise AI vào hoạt động chính thức

Cột mốc quan trọng của AI xuất hiện vào năm 2012 khi một nhà nghiên cứu giành chiến thắng trong cuộc thi nhận diện hình ảnh bằng deep learning. Kể từ đó, AI đã phát triển mạnh mẽ.

Ngày nay, AI có thể dịch trang web, tự động điều hướng cuộc gọi dịch vụ khách hàng, hỗ trợ bệnh viện đọc X-ray, giúp ngân hàng đánh giá rủi ro tín dụng và tối ưu hóa hàng tồn kho trong ngành bán lẻ.

Machine Learning (ML) – một nhánh của AI – đang dần trở thành một phần không thể thiếu trong doanh nghiệp, tương tự như các ứng dụng phần mềm truyền thống. Điều đó đòi hỏi quy trình vận hành ML phải được quản lý chặt chẽ, tương tự như việc quản lý hệ thống IT.

MLOps – Kết Hợp ML với DevOps

MLOps được xây dựng dựa trên DevOps – phương pháp hiện đại giúp tối ưu hóa quy trình phát triển, triển khai và vận hành ứng dụng doanh nghiệp. DevOps xuất hiện nhằm kết nối hai nhóm trước đây thường hoạt động độc lập: đội phát triển phần mềm (Dev) và đội vận hành hệ thống (Ops).

MLOps bổ sung vào nhóm này các data scientist – những người thu thập và xử lý dữ liệu, đồng thời xây dựng các mô hình AI phân tích dữ liệu đó. Ngoài ra, còn có ML engineer – những người đảm bảo dữ liệu được đưa vào mô hình một cách khoa học và tự động hóa.

MLOps kết hợp ba yếu tố: Machine Learning, phát triển ứng dụng và vận hành IT.

Hệ thống AI mạnh mẽ là nền tảng của MLOps

Vì MLOps xử lý các tập dữ liệu khổng lồ, thay đổi theo thời gian thực, và yêu cầu theo dõi nghiêm ngặt các mô hình AI qua nhiều vòng thử nghiệm, điều chỉnh và huấn luyện lại, nó đòi hỏi một hạ tầng AI mạnh mẽ, có khả năng mở rộng linh hoạt.

Nhiều doanh nghiệp lựa chọn NVIDIA DGX platform và NVIDIA AI Enterprise – bộ công cụ AI bao gồm TAO Toolkit, Triton Inference Server, RAPIDS và nhiều framework khác – để làm nền tảng cho MLOps.

Theo Dõi Vòng Đời Của Machine Learning

Sau khi có nền tảng AI, doanh nghiệp có thể triển khai các thành phần MLOps như:

  • Data sources & datasets: Thu thập và quản lý dữ liệu
  • Model repository: Kho lưu trữ mô hình AI với lịch sử và thuộc tính rõ ràng
  • ML pipeline: Quy trình tự động hóa quản lý dữ liệu, mô hình và thử nghiệm
  • Software containers (Kubernetes-based): Đóng gói và chạy công việc một cách linh hoạt

Quản lý dữ liệu & mô hình hiệu quả

Data scientist cần quyền truy cập linh hoạt vào dữ liệu từ nhiều nguồn, nhưng cũng cần đảm bảo việc theo dõi, label dữ liệu chính xác. Họ cần không gian thử nghiệm sáng tạo nhưng cũng phải đảm bảo mô hình có thể tái tạo và giải thích rõ ràng.

MLOps giúp họ phối hợp chặt chẽ với ML engineer – những người đưa mô hình từ giai đoạn thử nghiệm đến triển khai thực tế. Toàn bộ quy trình này yêu cầu tự động hóa cao và kiểm soát chặt chẽ.

Hiện nay, nhiều doanh nghiệp sử dụng dịch vụ đám mây để triển khai MLOps, trong khi những công ty coi AI là chiến lược cốt lõi thường tự xây dựng trung tâm AI nội bộ với các công cụ MLOps chuyên biệt.

Ứng Dụng MLOps Trong Thực Tế

Trước đây, các công ty như Airbnb, Facebook, Google, NVIDIA và Uber phải tự phát triển MLOps nội bộ.

Nicolas Koumchatzky, Giám đốc AI Infrastructure tại NVIDIA, chia sẻ:

“Chúng tôi cố gắng tận dụng mã nguồn mở càng nhiều càng tốt, nhưng ở quy mô lớn, nhiều giải pháp chưa tồn tại, buộc chúng tôi phải tự xây dựng.”

Tại NVIDIA, nhóm của Koumchatzky đã phát triển MagLev – nền tảng MLOps hỗ trợ NVIDIA DRIVE, hệ thống AI dành cho xe tự hành.

Cách NVIDIA Vận Hành MLOps

Hệ thống AI nội bộ của NVIDIA vận hành trên GPU clusters DGX PODs, tuân thủ nghiêm ngặt các tiêu chuẩn MLOps:

  • Mọi công việc phải chạy trong container – giúp tránh những vấn đề liên quan đến thư viện và runtime.
  • Cơ chế khởi động container phải được kiểm duyệt
  • Công việc phải có khả năng chạy trên nhiều GPU nodes
  • Cung cấp dữ liệu hiệu suất để phát hiện nút thắt cổ chai
  • Có thông tin profiling để đảm bảo phần mềm được debug đầy đủ

Theo Edwin Webster, chuyên gia MLOps tại Neal Analytics, mức độ trưởng thành của MLOps trong doanh nghiệp vẫn rất khác nhau. Một số công ty vẫn để data scientist lưu trữ mô hình trên laptop cá nhân, trong khi những công ty khác đã triển khai đầy đủ hệ thống MLOps trên cloud.

Hai Câu Chuyện Thành Công Về MLOps

Webster đã chia sẻ hai câu chuyện thành công từ khách hàng của mình.

Một trong số đó là một nhà bán lẻ lớn đã sử dụng MLOps trên dịch vụ cloud để xây dựng một hệ thống AI có khả năng dự đoán nhu cầu bổ sung hàng hóa dễ hư hỏng hàng ngày, giúp giảm lãng phí từ 8-9%. Đội ngũ data scientist của công ty đã tạo dữ liệu và xây dựng mô hình AI, trong khi dịch vụ cloud đảm nhận việc đóng gói các yếu tố quan trọng vào container, sau đó chạy và quản lý các công việc AI.

Trường hợp thứ hai là một nhà sản xuất PC, phát triển phần mềm AI có thể dự đoán thời điểm laptop cần bảo trì để tự động cài đặt các bản cập nhật phần mềm. Sử dụng các phương pháp MLOps tiêu chuẩn và đội ngũ chuyên gia nội bộ, OEM này đã huấn luyện và kiểm thử mô hình AI trên một đội ngũ 3.000 laptop. Giờ đây, hãng đang cung cấp phần mềm này cho các khách hàng lớn của mình.

Theo Shubhangi Vashisth, chuyên gia phân tích cấp cao tại Gartner, nhiều công ty trong danh sách Fortune 100 đã áp dụng MLOps, nhưng nó vẫn chưa trở thành tiêu chuẩn chung.

“MLOps đang phát triển nhanh, nhưng chưa hoàn toàn phổ biến.”

Vashisth đồng tác giả một báo cáo của Gartner, đưa ra ba bước để bắt đầu với MLOps:

  1. Đồng thuận giữa các bên liên quan về mục tiêu
  2. Xây dựng cơ cấu tổ chức để xác định trách nhiệm rõ ràng
  3. Định nghĩa vai trò trong hệ thống – Gartner liệt kê đến 12 vị trí khác nhau trong quá trình MLOps

Đừng Nhầm Lẫn Với Các Thuật Ngữ AIOps, DLOps, DataOps…

Trong thế giới công nghệ, có rất nhiều thuật ngữ liên quan, nhưng MLOps là thuật ngữ chính thống nhất.

  • AIOps tập trung vào việc sử dụng machine learning để tự động hóa IT operations. Một phần của AIOps là IT Operations Analytics (ITOA) – chuyên phân tích dữ liệu AIOps để cải thiện quy trình vận hành IT.
  • DataOps là phương pháp quản lý dữ liệu trong AI pipeline.
  • ModelOps là quy trình giám sát và quản lý các mô hình AI.

Dù hàng nghìn người tìm kiếm thuật ngữ DLOps (Deep Learning Operations) mỗi tháng, thực tế ngành công nghiệp không sử dụng thuật ngữ này. Thay vào đó, MLOps bao trùm cả machine learning và deep learning.

Các công ty như Google, Microsoft, Iguazio và Paperspace đã xuất bản nhiều whitepaper chi tiết về MLOps, nhưng bạn sẽ rất khó tìm thấy tài liệu chính thống nào về DLOps.

Hệ Sinh Thái Phần Mềm Và Dịch Vụ MLOps Đang Mở Rộng

Nếu doanh nghiệp muốn sử dụng MLOps mà không cần tự xây dựng từ đầu, có rất nhiều nhà cung cấp phần mềm và dịch vụ có thể hỗ trợ.

Hơn 100 công ty đang hợp tác với NVIDIA để phát triển các giải pháp MLOps, bao gồm:

Nhà cung cấp phần mềm MLOps
  • Canonical: Charmed Kubeflow giúp đưa mô hình vào sản xuất trên DGX systems.
  • ClearML: Nền tảng MLOps mã nguồn mở, hỗ trợ NVIDIA AI Enterprise.
  • Dataiku: Cho phép các chuyên gia dữ liệu và doanh nghiệp cộng tác để tích hợp AI vào vận hành hàng ngày.
  • Domino Data Lab: Domino Cloud là MLOps-as-a-service, giúp triển khai AI nhanh chóng.
  • Run:ai: Atlas giúp quản lý tài nguyên tự động trong AI infrastructure.
  • Weights & Biases (W&B): Hỗ trợ theo dõi và tối ưu hóa mô hình ML nhanh chóng.
Nhà cung cấp dịch vụ cloud tích hợp MLOps với NVIDIA
  • Amazon Web Services (AWS): Amazon SageMaker giúp tự động hóa vòng đời AI, tối ưu hóa với GPU NVIDIA.
  • Google Cloud: Vertex AI cung cấp các công cụ MLOps end-to-end, chạy trên NVIDIA GPUs.
  • Microsoft Azure: Azure Machine Learning hỗ trợ phát triển và triển khai AI với NVIDIA.
  • Oracle Cloud: Dịch vụ AI trên Oracle Cloud giúp tích hợp machine learning vào ứng dụng doanh nghiệp.
  • Alibaba Cloud: Nền tảng AI trên Alibaba Cloud giúp doanh nghiệp triển khai AI nhanh chóng.

Xu Hướng Tương Lai Của MLOps

Nicolas Koumchatzky của NVIDIA cho rằng, một trong những vấn đề lớn nhất hiện nay của MLOps là quản lý dữ liệu:

“Việc dán nhãn, hợp nhất hoặc trích xuất dữ liệu vẫn còn phức tạp. NVIDIA đã phát triển các công cụ nội bộ cho việc này, nhưng tôi nghĩ đây vẫn là một lĩnh vực bị đánh giá thấp.”

Trong tương lai, MLOps cần một hệ thống tương đương với IDE (Integrated Development Environment) – ví dụ như Microsoft Visual Studio dành cho lập trình viên.

Hiện tại, NVIDIA đang phát triển Base Command, một phần mềm giúp quản lý toàn bộ vòng đời AI trên nền tảng DGX. Đồng thời, hãng cũng cung cấp DGX BasePODs, kiến trúc tham chiếu để xây dựng GPU clusters phục vụ AI.

NVIDIA cũng tham gia AI Infrastructure Alliance (AIIA) – một tổ chức gồm hơn 60 công ty, hợp tác với cộng đồng 30.000 chuyên gia dữ liệu và kỹ sư để xây dựng tiêu chuẩn và best practices cho MLOps.

Nếu bạn muốn tìm hiểu thêm về MLOps hay những xu hướng tương lai đến từ NVIDIA và Providers khác hãy liên hệ ngay với chúng tôi để có thể tận dụng những giải pháp tuyệt vời dành cho doanh nghiệp của bạn!