Proxmox Datacenter Manager 1.1: From Visibility to Operations

Khi tôi viết về việc Proxmox đạt tiêu chuẩn doanh nghiệp (enterprise-class) vào đầu năm nay, tôi đã mô tả Datacenter Manager như một nền tảng vững chắc đang phát triển với tốc độ nhanh chóng. Phiên bản 1.0 ra mắt vào tháng 12 đã mang lại cho nền tảng này khả năng giám sát đa cụm (cross-cluster visibility), di trú đa cụm (cross-cluster migration), và vá lỗi trên toàn bộ hệ thống (estate-wide patching) từ một điểm duy nhất. Điều này đã giải quyết vấn đề vận hành cấp bách nhất trước đây: mỗi cụm Proxmox là một hòn đảo độc lập. Nó chưa thể là vCenter sau hai mươi năm phát triển, và tôi đã nói rõ như vậy. Nhưng nó đã đi đúng hướng, và lộ trình phát triển là rất rõ ràng.

Những cải tiến thực tế của phiên bản 1.1

Phiên bản 1.1 vừa được phát hành hôm nay, chỉ chưa đầy sáu tháng sau bản phát hành ổn định (stable release) 1.0. Đây là một cột mốc đáng viết đến bởi những thứ nó bổ sung không chỉ mang tính hình thức bên ngoài (cosmetic). Chúng chuyển dịch Datacenter Manager từ một công cụ giám sát và di trú thuần túy thành một thứ gì đó tiệm cận với một trung tâm điều khiển vận hành (operational control plane) cho toàn bộ hạ tầng (estate). Sự chuyển dịch này diễn ra dần dần chứ chưa hoàn toàn toàn diện, và nền tảng này vẫn còn những khoảng trống cần được thừa nhận, nhưng hướng đi mới là điều quan trọng và tác động thực tế đối với các hệ thống triển khai quy mô trung bình là rất rõ rệt.

Có năm điểm trong bản phát hành này cần được tìm hiểu chi tiết, bởi vì chúng định hình lại mục đích cốt lõi của Datacenter Manager.

1. Quy trình cài đặt tự động (Automated Installation Workflows)

Đầu tiên là các quy trình cài đặt tự động (automated installation workflows). Datacenter Manager hiện có thể hoạt động như một central configuration server cho việc cài đặt unattended (không cần giám sát) các Proxmox host. Quản trị viên định nghĩa các answer file chứa các tham số mà một bản cài đặt mới cần, máy chủ trung tâm sẽ lưu giữ chúng, và các bản cài đặt riêng lẻ sẽ kéo cấu hình của chúng về trong quá trình cài đặt. Mỗi bản cài đặt sẽ xác thực với máy chủ cấu hình bằng một per-installation bearer token, nhờ đó mô hình thông tin xác thực (credential model) được giới hạn phạm vi an toàn thay vì mở rộng công khai. Đối với các tổ chức thường xuyên dựng các node mới — cho dù là để mở rộng cụm hiện tại, nâng cấp phần cứng, hay xây dựng các cụm mới cho một dự án mới — thì đây là sự khác biệt giữa việc phải chạy trình cài đặt bằng tay với việc coi việc provisioning (triển khai) host là một quy trình được kiểm soát và có khả năng lặp lại. Đây cũng là nơi hợp lý nhất để tính năng này tồn tại, bởi vì máy chủ trung tâm đã nắm rõ toàn bộ hạ tầng.

2. Quản lý Subscription tập trung (Central Subscription Management)

Thứ hai là quản lý bản quyền tập trung (central subscription management). Datacenter Manager hiện đã tích hợp một kho đăng ký bản quyền (subscription registry). Bạn có thể giữ một nhóm các khóa bản quyền (pool of subscription keys), gán chúng cho các remote cụ thể khi các remote này trực tuyến (online), và gỡ bỏ gán khi các remote đó bị ngừng hoạt động (decommissioned). Đối với các hạ tầng đa cụm (multi-cluster estates), tính năng này giải quyết một sự phiền toái mà trước đây đòi hỏi các quản trị viên của từng cụm phải tự nhập khóa, đi kèm với việc theo dõi bằng các bảng tính (spreadsheet-driven tracking). Nó không phải là một tính năng hào nhoáng, nhưng về mặt vận hành, nó loại bỏ được một nhóm các sai sót có thể phòng tránh và giảm bớt gánh nặng quản trị liên tục hàng ngày.

3. Giám sát cụm Ceph đa nền tảng (Ceph Cluster Monitoring Across Remotes)

Thứ ba là giám sát cụm Ceph trên các remote khác nhau. Đối với các hệ thống triển khai theo mô hình siêu hội tụ (hyper-converged) sử dụng Proxmox kết hợp với Ceph để cung cấp lưu trữ, Datacenter Manager hiện cung cấp một góc nhìn hợp nhất về trạng thái sức khỏe (health), dung lượng (capacity), và hiệu năng (performance) của từng cụm Ceph cluster được kết nối. Trước phiên bản 1.1, đây là một hoạt động riêng lẻ trên từng cụm (per-cluster activity). Bạn phải đăng nhập vào giao diện của từng cụm để xem hệ thống Ceph backend của nó đang hoạt động ra sao. Giờ đây, bạn có thể quan sát toàn bộ hạ tầng từ một nơi duy nhất. Đối với các tổ chức có hệ thống lưu trữ chính là Ceph, đây là một thay đổi có ý nghĩa lớn đối với nhận thức vận hành hàng ngày, và là loại khả năng càng trở nên giá trị hơn khi quy mô hạ tầng càng lớn.

4. Quản lý Guest và Snapshot đa nền tảng (Cross-Remote Guest and Snapshot Management)

Thứ tư là quản lý guestsnapshot đa nền tảng, được mô tả trong tài liệu phát hành (release notes) là phiên bản thử nghiệm đầu tiên (first iteration). Datacenter Manager hiện cung cấp một góc nhìn thống nhất về mọi máy ảo QEMU VMLXC container trên tất cả các remote được kết nối, và các thao tác với snapshot (tạo, khôi phục – rollback, xóa) có thể được thực hiện tập trung thay vì trên từng cụm riêng lẻ. Giao diện trực quan hóa bao gồm một cây snapshot dạng cha-con (parent-child snapshot tree), điều này quan trọng hơn những gì bạn nghĩ đối với các hạ tầng nơi snapshot được sử dụng như một phần của quy trình sao lưu (backup) có cấu trúc hoặc quy trình quản lý thay đổi (change-management process). Cụm từ “phiên bản thử nghiệm đầu tiên” rất quan trọng. Đây mới chỉ là điểm khởi đầu của khả năng quản lý guest tập trung chứ chưa phải là một giải pháp hoàn thiện. Nhưng nó là sự khởi đầu, và hiện đã hiện diện trên nền tảng.

5. Cải tiến Giao diện Người dùng (User Interface Workflows)

Thứ năm là các hạng mục tối ưu giao diện người dùng (UI). Bản cập nhật bổ sung một map widget để trực quan hóa về mặt địa lý nơi các remote được đặt trên thực tế, và các widget dạng đồng hồ đo (gauge-based widgets) để hiển thị mức độ sử dụng CPU, bộ nhớ (memory), và lưu trữ (storage) mà bạn có thể đặt trên các dashboard. Chính máy chủ host chạy Datacenter Manager hiện cũng hiển thị các biểu đồ RRD (Round-Robin Database) graphs của riêng nó, giúp bạn có thể thấy tải trọng trên chính management plane (mặt phẳng quản lý) — một điều cực kỳ hữu ích khi management plane không còn là một thành phần nhỏ lẻ nữa. Không có điều nào trong số này là thiết yếu, nhưng tất cả chúng là những điểm trau chuốt giúp một công cụ thực sự mang lại trải nghiệm dễ chịu khi sử dụng, thay vì chỉ đáp ứng vừa đủ về mặt kỹ thuật.

Những thay đổi mang tính bước ngoặt

Kết hợp cả năm điều trên lại, vai trò của nền tảng này đã dịch chuyển. Với phiên bản 1.0, Datacenter Manager là một “giao diện quản lý duy nhất” (single pane of glass) trên nhiều cụm, nghĩa là một nơi để quan sát và di trú tài nguyên. Với phiên bản 1.1, bạn còn có thể provision (triển khai cấu hình) qua nó, quản lý subscription qua nó, giám sát lớp lưu trữ (storage layer) của bạn qua nó, và vận hành các guest trên các remote khác nhau thông qua nó. Đó là một loại sản phẩm hoàn toàn khác. Nó không còn dừng lại ở khả năng giám sát (visibility). Nó đã tiến gần hơn tới một bản điều khiển vận hành (operations console).

Điều thú vị trong cách tiếp cận của Proxmox là thứ tự triển khai. Họ không bắt đầu bằng các tính năng bóng bẩy, ấn tượng. Họ dẫn đầu bằng khả năng giám sát đa cụm (multi-cluster visibility) và di trú (migration), vốn là nền tảng, và giờ đây họ đang xếp chồng các khả năng vận hành lên trên nền tảng đó theo các bước mạch lạc. Mỗi bản phát hành là một lớp tối ưu mỏng chứ không phải là một sự kiện tái định vị thương hiệu mang tính tiếp thị. Dưới góc độ kỹ thuật (engineering), đây là mô hình phát triển chuẩn xác, và dưới góc độ mua sắm (procurement), đây là mô hình xây dựng niềm tin rằng lộ trình phát triển là thực tế chứ không phải là những lời hứa hẹn.

Có một chi tiết xứng đáng được nhấn mạnh riêng: Hỗ trợ doanh nghiệp (Enterprise support) cho Datacenter Manager hiện đã được cung cấp cho các khách hàng đang sở hữu gói subscription từ hạng Basic trở lên trên các Proxmox remote của họ, được bao gồm sẵn như một phần của các gói subscription đó chứ không phải là một danh mục tính phí riêng biệt. Đây là một quyết định chính xác về mặt thương mại. Nó loại bỏ một rào cản trong việc bán Datacenter Manager vào các hạ tầng đã có hệ thống Proxmox được hỗ trợ, và nó phát đi tín hiệu rằng Proxmox coi đây là một phần cốt lõi của nền tảng chứ không phải là một sản phẩm phụ. Đối với khách hàng của chúng tôi, điều này có nghĩa là việc áp dụng Datacenter Manager không yêu cầu một cuộc đàm phán subscription riêng biệt nếu các cụm bên dưới của họ đã ở hạng Basic trở lên.

Những điểm hệ thống CHƯA ĐẠT ĐƯỢC (What It Isn’t)

Theo đúng tiền lệ của các bài viết đánh giá tiến độ phát hành này, những hạn chế trung thực cũng quan trọng không kém gì các tính năng mới.

  • Quản lý guest đa cụm mới chỉ là bước khởi đầu: Khả năng quản lý guest đa nền tảng mới chỉ là phiên bản thử nghiệm đầu tiên. Bạn có thể thấy các guest của mình trên toàn bộ hạ tầng và thao tác với các snapshot từ central plane, nhưng việc quản lý cấu hình chuyên sâu (deep configuration management) cho từng guest cá lập phần lớn vẫn diễn ra ở cấp độ cụm (cluster level). Các thao tác hàng loạt trên nhiều guest (bulk operations) hiện nằm trên lộ trình phát triển công khai (roadmap) chứ chưa có trong bản phát hành này. Quyền truy cập bảng điều khiển (console access) từ central plane cũng nằm trên roadmap chứ chưa có trong bản phát hành này. Nếu bạn kỳ vọng phiên bản 1.1 sẽ khiến bạn ngừng đăng nhập hoàn toàn vào giao diện của từng cụm cho mọi tác vụ, thì nó chưa hoàn toàn làm được điều đó. Nó chỉ mới đáp ứng cho một tập hợp con hữu ích, vốn là điểm khởi đầu của hành trình thay vì là điểm kết thúc.

  • Tích hợp với hệ sinh thái Proxmox đang hoàn thiện: Sự tích hợp với phần còn lại của gia đình sản phẩm Proxmox vẫn đang trong quá trình phát triển. Datacenter Manager hiện chưa cung cấp khả năng tích hợp sâu với Proxmox Backup Server (PBS) hoặc Proxmox Mail Gateway (PMG), cả hai đều được đánh dấu trên roadmap. Đối với các tổ chức sở hữu cả ba sản phẩm Proxmox trong hạ tầng của mình, Datacenter Manager hiện tại chỉ là điểm tích hợp riêng cho các cụm PVE (Proxmox VE). PBSPMG vẫn duy trì các giao diện quản lý riêng biệt. Điều đó sẽ thay đổi trong các bản phát hành tương lai, và đã được định hướng trước, nhưng nó chưa xảy ra ở hiện tại.

  • Chưa có cơ chế dự phòng cho chính Datacenter Manager: Không có tính năng sao lưu dự phòng từ xa (off-site replication) hoặc kích hoạt-dự phòng (active-standby) cho chính bản thân Datacenter Manager trong bản phát hành này. Management plane vẫn là một thực thể đơn lẻ (single instance). Đối với hầu hết các hệ thống triển khai, điều này hoàn toàn ổn, bởi vì việc mất đi management plane không làm gián đoạn hoạt động của các cụm. Chúng tiếp tục vận hành cơ chế HA (Tính sẵn sàng cao – High Availability) và các workload (khối lượng công việc) của riêng chúng dù có kết nối được tới Datacenter Manager hay không. Nhưng đối với các tổ chức có mô hình vận hành phụ thuộc vào việc central plane phải luôn sẵn sàng liên tục, việc xây dựng khả năng phục hồi chịu lỗi (resilience) vẫn là một bài toán dành cho người vận hành chứ chưa phải là một tính năng có sẵn của nền tảng.

  • Kho đăng ký bản quyền mới chỉ dừng lại ở mức ghi nhận: Kho đăng ký bản quyền mới chỉ đơn thuần là một kho lưu trữ (registry). Nó chưa phải là một quy trình quản lý vòng đời toàn diện (full lifecycle workflow) cho việc mua sắm, gia hạn, và cảnh báo hết hạn. Nó ghi lại những gì bạn có và những gì được gán vào đâu. Việc theo dõi khi nào các subscription này cần được gia hạn vẫn là công việc của bất kỳ quy trình nào bạn đang vận hành song song với nó. Điều đó không sao, nhưng nó là điều đáng lưu ý trước khi bạn giả định rằng kho lưu trữ này có thể thay thế hoàn toàn bảng tính hiện tại của bạn.

Đối với các hệ thống triển khai quy mô trung bình và Khối Quốc phòng

Đối với các hạ tầng quy mô trung bình mà chúng tôi xây dựng ở quy mô nhóm làm việc (workgroup) hoặc quy mô phòng ban, phiên bản 1.1 là bản phát hành khiến Datacenter Manager trở nên thực sự hữu ích cho công việc hàng ngày thay vì chỉ là một công cụ “có thì tốt” (nice-to-have). Riêng quy trình cài đặt tự động (automated installation workflow) đã đủ để chứng minh giá trị của việc cài đặt nó trên bất kỳ hạ tầng nào nơi các node mới được dựng lên thường xuyên hơn mức thỉnh thoảng. Kho lưu trữ bản quyền tập trung (central subscription registry) chứng minh giá trị của nó trên bất kỳ hạ tầng nào có nhiều hơn hai hoặc ba cụm. Việc giám sát Ceph chứng minh giá trị cho bất kỳ hệ thống triển khai siêu hội tụ nào nơi tình trạng sức khỏe của Ceph có ý nghĩa quan trọng về mặt vận hành, và đó là phần lớn các hệ thống.

Đối với các khách hàng trong khối quốc phòng của chúng tôi chạy trên hạ tầng mạng cách ly (air-gapped infrastructure), mô hình vận hành rộng hơn vẫn được áp dụng. Proxmox hỗ trợ kích hoạt bản quyền ngoại tuyến (offline subscription activation) thông qua công cụ Proxmox Offline Mirror, và bản thân Datacenter Manager được thiết kế để giao tiếp với các PVE remote mà nó quản lý thay vì kết nối với mạng internet công cộng. Điều tôi chưa thấy được xác nhận trong tài liệu phát hành của phiên bản 1.1 là liệu kho lưu trữ bản quyền tập trung mới có chấp nhận các khóa đã được xác thực ngoại tuyến (offline-validated keys) thông qua quy trình Offline Mirror hiện tại hay không, và đó là một câu hỏi cần đặt ra trực tiếp với Proxmox trước khi khuyến nghị kho lưu trữ này làm hệ thống ghi nhận bản quyền chính (primary subscription system of record) trên các hạ tầng air-gapped.

Nhìn chung, luận điểm lớn hơn vẫn đúng: Khả năng giám sát vận hành mở rộng mà phiên bản 1.1 cung cấp có giá trị đặc biệt trong bối cảnh quốc phòng, bởi vì giải pháp thay thế cho việc giám sát tập trung là phải đăng nhập vào từng cụm riêng lẻ qua các mạng lưới nơi mà việc truy cập chéo miền (cross-domain access) chính là một hoạt động bị kiểm soát nghiêm ngặt. Việc giảm số lượng giao diện riêng biệt mà một kỹ sư vận hành cần chạm vào sẽ làm giảm cả chi phí vận hành lẫn diện tích bề mặt cần kiểm định an ninh thông tin (accreditation surface area).

Kết luận chung

Datacenter Manager đã đi từ một nền tảng 1.0 đáng tin cậy vào tháng 12 thành một nền tảng mà bạn có thể đặt nền móng cho các hoạt động vận hành của mình vào tháng 5. Đó chưa phải là một sản phẩm hoàn thiện, và lộ trình phát triển rất trung thực về những gì còn phía trước. Nhưng tốc độ tiến bộ là hoàn toàn chính xác, và những thứ mà bản 1.1 bổ sung là những thứ hoàn toàn đúng đắn cần được thêm vào ở giai đoạn này.

  • Nếu bạn đã và đang chạy Datacenter Manager, hãy nâng cấp lên 1.1 và bắt đầu sử dụng các tính năng cài đặt tự động và bản quyền ngay khi bạn có một môi trường thử nghiệm tiêu chuẩn (representative test environment) để xác thực chúng.

  • Nếu bạn chưa triển khai Datacenter Manager và đang vận hành nhiều hơn một vài cụm nhỏ, thì đây là bản phát hành khiến cho lý do trì hoãn việc cài đặt trở nên khó thuyết phục hơn.

  • Và nếu bạn vẫn đang ở giữa một quá trình đánh giá di trú từ VMware (VMware migration evaluation), câu hỏi về mặt phẳng quản lý (management plane) vừa trở thành một lý do kém thuyết phục hơn để bạn tiếp tục ở lại vị trí cũ.

Nguồn: proxmox.com
Original source