Thử nghiệm Phục hồi Sau thảm họa – Best Practices
Một trong những điều mà năm 2020 dạy cho thế giới là thảm họa xảy ra mà không có sự phòng ngừa. Vì vậy, các doanh nghiệp phải chuẩn bị sẵn sàng cho mọi thảm họa, dù là đại dịch hay thậm chí là cháy rừng. Các doanh nghiệp phải được trang bị để thực hiện các dịch vụ đã được thiết lập nhằm cung cấp mà không có hoặc rất ít bị gián đoạn. Một cách để đạt được điều này là lập kế hoạch phù hợp. Điều này đòi hỏi phải tìm ra các tài nguyên thiết yếu và cách chúng có thể được bảo mật và sao lưu.
Hãy xem xét số lần mất điện, bão và các thảm họa khác mà các tổ chức doanh nghiệp gặp phải trong những năm qua, nhiều công ty đang xem xét lại chiến lược khắc phục thảm họa của họ một cách có chiến thuật. Theo SolutionsReview, một kế hoạch khắc phục thảm họa tốt phải bao gồm một số thành phần và biện pháp thực hành nhằm giảm thiểu rủi ro thảm họa do con người gây ra và giảm tác động của thảm họa thiên nhiên. Hơn nữa, nó có thể nhanh chóng phát hiện các sự kiện không mong muốn và gửi các quy trình khắc phục để khôi phục dữ liệu và đảm bảo tính liên tục của hoạt động kinh doanh.
Khi áp dụng các biện pháp hiệu quả đảm bảo khắc phục thảm họa, việc giữ chân khách hàng được đảm bảo, năng suất của nhân viên được cải thiện và hoạt động kinh doanh được đảm bảo liên tục. Bạn có thể tìm hiểu danh sách đầy đủ các phương pháp khắc phục thảm họa tốt nhất mà chúng tôi đã lập ra như sau để xem xét khi lập kế hoạch khắc phục thảm họa.
Thực hành khắc phục thảm họa
Một kế hoạch khắc phục tốt là nền tảng của các hoạt động khắc phục thảm họa hiệu quả. Kế hoạch khắc phục thảm họa là một cách tiếp cận mang tính chiến lược và được ghi chép lại nhằm mô tả cách một công ty có thể nhanh chóng tiếp tục công việc sau khi xảy ra tình huống bất ngờ. Kế hoạch khắc phục thảm họa là một khía cạnh không thể thiếu của kế hoạch kinh doanh liên tục (BCP). Nó giúp tổ chức doanh nghiệp giải quyết tình trạng mất dữ liệu và khôi phục chức năng hệ thống nhằm tiếp tục hoạt động kinh doanh bình thường sau sự cố.
Thông thường, các biện pháp khắc phục thảm họa của một công ty cần bao gồm việc phân tích các quy trình kinh doanh và các yêu cầu về tính liên tục. Trước khi áp dụng một biện pháp khắc phục thảm họa cụ thể, doanh nghiệp phải tiến hành Phân tích tác động kinh doanh (BIA) và Phân tích rủi ro (RA). Điều này thiết lập các mục tiêu phục hồi của nó. Dưới đây là một số kinh nghiệm hay nhất để đảm bảo chiến lược của bạn có hiệu quả cho doanh nghiệp của mình:
- Phác thảo kế hoạch của bạn
Thời điểm tốt nhất để tìm ra cách khôi phục hệ thống là trước khi hệ thống ngừng hoạt động chứ không phải trong khi xảy ra sự cố. Đó sẽ là kế hoạch vào đúng giờ cao điểm. Dù bạn định áp dụng chiến lược nào, hãy ghi lại và phân bổ nó cho những người có nhiệm vụ liên quan đến việc khôi phục hệ thống sau thảm họa. Cần đảm bảo rằng những nhân viên này có quyền truy cập vào kế hoạch ngay cả khi hệ thống đã ngừng hoạt động.
- Xây dựng kế hoạch với đội ngũ chuyên gia
Tất nhiên, thiết lập một phương pháp khắc phục thảm họa hiệu quả không phải là công việc của một người. Đúng hơn, quá trình này có sự đóng góp của tất cả các bên liên quan bên trong và bên ngoài. Một phương pháp khắc phục thảm họa hiệu quả không chỉ dừng lại ở thông tin và công nghệ. Nó cũng đòi hỏi phần cứng, phần mềm, con người và quy trình. Do đó, các công ty nên cập nhật thông tin cho tất cả những người có liên quan. Một cách để đảm bảo điều này là thực hiện các cuộc thử nghiệm và diễn tập khắc phục thảm họa như một phần của hoạt động bảo mật của công ty. Ngoài ra, các công ty nên tiến hành nâng cao nhận thức và đào tạo nhân viên thường xuyên.
- Quyết định thực hành khắc phục thảm họa để áp dụng
Tất cả các doanh nghiệp không thể áp dụng cùng một biện pháp khắc phục thảm họa. Tùy thuộc vào kết quả của các bước trước đó và ngân sách, doanh nghiệp có thể chọn bất kỳ loại DRP nào sau đây.
- Kế hoạch khắc phục thảm họa của Trung tâm dữ liệu:
Điều này đòi hỏi phải đầu tư vào một tòa nhà trung tâm dữ liệu để dự phòng. Việc này thường được gọi là một DR Site. Khi hoạt động chính gặp downtime, địa điểm khắc phục thảm họa này dự kiến sẽ hoạt động bình thường và bắt đầu hoạt động ngay lập tức. Các DR Site có ba loại:
- Cold Site: Cold site là không gian văn phòng dự phòng có hệ thống điện, làm mát và thông tin liên lạc. Các cold site không chứa bất kỳ phần cứng nào và thiếu một hệ thống được cấu hình sẵn. Nếu xảy ra lỗi hệ thống chính, nhóm vận hành sẽ cần chuyển máy chủ của họ và thiết lập mọi thứ lại từ đầu. Mặc dù việc thiết lập nó có vẻ hơi căng thẳng, nhưng cold site là kiểu DR Site ít tốn kém nhất. Tuy nhiên, nó đòi hỏi thêm nhân lực và có thể không đáp ứng được mục tiêu của doanh nghiệp nếu không được thực hiện đúng cách.
- Hot Site: Hot site sao chép thiết lập từ trung tâm dữ liệu chính. Nó chứa tất cả các phần cứng, phần mềm và cấu hình mạng cần thiết. Trong trường hợp mất điện, các hoạt động sẽ ngay lập tức kết nối với hot site mà không bị chậm trễ và tiếp tục với downtime không đáng kể. Vì loại này yêu cầu phải được thiết lập để chạy liên tục nên đây là tùy chọn tốn kém nhất. Bù lại, nó cũng là phương án hiệu quả nhất.
- Warm Site: Warm Site kết hợp phần cứng thiết yếu với phần mềm được cài đặt sẵn, cùng với cấu hình mạng. Các warm site chỉ sao lưu các tài sản quan trọng trong hoạt động theo các khoảng thời gian không đều đặn. Loại này phù hợp với các công ty có ít dữ liệu quan trọng hơn và mục tiêu điểm khôi phục cao hơn. Tuy nhiên, có thể cần phải phân tích chi phí/lợi ích để lựa chọn giữa hot site và warm site.
- DRP dựa trên ảo hóa
DRP dựa trên ảo hóa hoạt động trên các máy ảo thay vì các DR Site và phần cứng vật lý. Thông tin liên quan đến hạ tầng chính được lưu trữ và cập nhật thường xuyên. Máy ảo có thể là cơ sở dữ liệu, máy chủ hoặc thiết lập ứng dụng. Mặc dù DRP dựa trên ảo hóa rẻ hơn đáng kể so với một số tùy chọn khác nhưng chúng phụ thuộc vào chiến lược khôi phục. Vì vậy, hiểu biết về phần mềm khôi phục và phương tiện sao lưu là rất quan trọng.
- DRP dựa trên đám mây
DRP dựa trên đám mây yêu cầu việc sao lưu các tài sản kinh doanh thiết yếu hoặc thiết lập chính với một nhà cung cấp dịch vụ đám mây. Các hoạt động khôi phục dựa trên đám mây yêu cầu sự phối hợp đáng kể với người quản lý đám mây về bảo mật, thử nghiệm cũng như đạt được các mục tiêu về thời gian và điểm khôi phục. Các tổ chức doanh nghiệp có thể xác định vị trí của máy chủ vật lý và ảo của họ. Tùy chọn này có thể đắt hơn DRP dựa trên ảo hóa nhưng rẻ hơn DRP với trung tâm dữ liệu.
- Phục hồi thảm họa dưới dạng dịch vụ (DRaaS)
Các công ty thiếu chuyên môn và nguồn lực để thiết lập DRP có thể sử dụng dịch vụ của nhà cung cấp dịch vụ bên thứ ba. Các nhà cung cấp này được gọi là các công ty Dịch vụ Phục hồi Sau Thảm họa (DR-as-a-Service). Chi phí của DRaaS thay đổi tùy theo mục tiêu lập kế hoạch khắc phục thảm họa của khách hàng.
- Đánh giá kế hoạch khắc phục thảm họa của bạn và thử nghiệm bằng các tình huống thực tế.
Bất kỳ kế hoạch khắc phục thảm họa có tiềm năng thành công nào đều được xác định bằng mức độ thử nghiệm tốt và hiệu suất thử nghiệm của nó. Một kế hoạch chưa được kiểm tra sẽ tạo ra ấn tượng sai lệch về tính bảo mật. Giống như mọi quy trình bảo mật kinh doanh khác, doanh nghiệp phải thường xuyên kiểm tra kế hoạch khắc phục thảm họa để xác định phương pháp thực hành tốt nhất cho tổ chức. Hơn nữa, khi các yêu cầu kinh doanh thay đổi do điều kiện kinh doanh luôn thay đổi và các quy định kinh doanh năng động, các hoạt động khắc phục thảm họa được tổ chức áp dụng cũng có thể cần những điều chỉnh nhỏ hoặc đáng kể.
Dù thế nào đi nữa, tổ chức cần xem xét tầm quan trọng của một quá trình như vậy và bao gồm việc đánh giá và lặp lại thử nghiệm trong việc lập ngân sách của mình. Hầu hết các biện pháp khắc phục thảm họa đều được áp dụng khi được thử nghiệm và phê duyệt bởi một nhóm chuyên gia. Hơn nữa, một tổ chức có thể bỏ qua các lỗi nhỏ trong kế hoạch khôi phục của mình nếu tổ chức đó không có nhân sự phù hợp tham gia thử nghiệm. Quá trình đọc qua thử nghiệm có thể được thực hiện tốt hơn bằng cách chạy các kịch bản đưa ra nhiều thách thức khác nhau trong quá trình khôi phục. Hoạt động thử nghiệm thành công phải cung cấp một báo cáo mở rộng giải thích loại thử nghiệm được thực hiện, tần suất thử nghiệm, các quy trình được quan sát, các yếu tố thành công, nhược điểm, v.v.
Một trong những tính năng hữu ích nhất của Storware Backup and Recovery là Recovery Plan. Kế hoạch khôi phục phục vụ mục đích chuẩn hóa các quy trình khắc phục thảm họa, cho phép Sao lưu & Khôi phục để tiến hành nhiều hành động khôi phục môi trường đích được chỉ định theo các thông số được xác định trước. Các chiến lược khôi phục này có thể được bắt đầu theo ý muốn của người dùng hoặc được lên lịch theo các khoảng thời gian cụ thể, chẳng hạn như để kiểm tra việc khôi phục thường xuyên. Mỗi Kế hoạch khôi phục bao gồm các hướng dẫn, được điều chỉnh cho phù hợp với các nền tảng ảo hóa riêng biệt, xác định máy ảo, cấu hình khôi phục và thời gian nếu cần. Chỉ những nguyên tắc được đánh dấu là đang hoạt động mới được đưa vào thực hiện.
- Cần có cẩm nang khắc phục thảm họa
Bây giờ bạn đã chọn kế hoạch khắc phục thảm họa, bạn cũng nên tạo kế hoạch khắc phục thảm họa bao gồm một số chi tiết về kế hoạch khôi phục dữ liệu của bạn, chẳng hạn như mục tiêu về thời gian khôi phục, mục tiêu thời gian khôi phục của từng dịch vụ, kế hoạch khôi phục từng bước dựa trên loại kế hoạch khắc phục thảm họa đã chọn, danh sách nhân viên phụ trách từng hoạt động, thông tin về người ứng cứu khẩn cấp, v.v.
Các kịch bản
- Mất Dữ Liệu & Khôi phục bản sao lưu
Một trong những kịch bản khắc phục thảm họa quan trọng cần thử nghiệm là kịch bản này. Khi xảy ra mất dữ liệu, doanh nghiệp phải có khả năng khôi phục dữ liệu bị mất từ bản sao lưu, nếu không tính liên tục của hoạt động kinh doanh sẽ bị đe dọa. Cho dù đó là việc bị xóa mất một tập tin hay lỗi máy chủ, tình huống có thể trở nên khó chịu nếu không thể khôi phục dữ liệu.
Vậy, chính xác thì những gì bạn cần kiểm tra? Trước tiên, bạn nên đảm bảo rằng các bản sao lưu của bạn khả thi và có thể được khôi phục. Thực hiện kiểm tra cả khôi phục ở cấp độ file và khôi phục toàn bộ máy tính để chắc chắn rằng cả hai thao tác đều có thể được hoàn thành trong một sự kiện trong thế giới thực. Sau khi thử nghiệm, bạn nên xem xét những điều sau:
– Thời gian phục hồi.
– Liệu mục tiêu RTO và RPO đã được hoàn thành chưa.
– Các sự cố ngẫu nhiên cản trở quá trình khôi phục.
– Tốc độ phục hồi này có thể được cải thiện không?
- Gián đoạn và sụp mạng
Hậu quả của việc mất mạng kéo dài có thể giống như mất dữ liệu. Khi mạng ngừng hoạt động, các chuyên gia CNTT phải phản ứng kịp thời. Kiểm tra mức độ chuẩn bị của bạn đối với tình trạng gián đoạn mạng là cách tốt nhất để đảm bảo rằng bạn có thể giải quyết sự cố khi nó xảy ra nhanh chóng. Một số công cụ kiểm tra mạng có thể giúp mô phỏng các tình huống thảm họa phổ biến. Ví dụ:
– Kiểm tra lưu lượng truy cập mạng tăng đột biến
– Thử nghiệm mô phỏng tái tạo tác động của một cuộc tấn công mạng lớn
– Kiểm tra tình trạng mạng nhằm phát hiện các sự cố tiềm ẩn ở các phần cụ thể của mạng.
- Mất điện
Mất điện cũng là một trong những kịch bản khắc phục thảm họa quan trọng cần thử nghiệm. Mất điện thường xảy ra khi thời tiết khắc nghiệt và các thảm họa thiên nhiên khác, nhưng chúng có thể xảy ra vì nhiều lý do. Ngay khi nhóm khắc phục nhận thấy bất kỳ dấu hiệu mất điện nào, họ phải nhanh chóng hành động ngay lập tức bằng cách:
– Kiểm tra xem sự cố mất điện cục bộ trong tòa nhà hay trên diện rộng.
– Thông báo cho nhà cung cấp dịch vụ tiện ích về việc ngừng hoạt động và yêu cầu giải pháp có thể.
– Kiểm tra các nguồn điện dự phòng để đảm bảo chúng hoạt động tốt.
– Ưu tiên các dịch vụ chỉ dựa vào nguồn điện.
Cuối cùng, mỗi giao thức này phải được xem xét và kiểm tra một cách thích hợp để đảm bảo rằng các nhóm khôi phục sẵn sàng hành động nhanh chóng và biết chính xác phải làm gì khi mất điện.
Việc tuân thủ các bước này sẽ cung cấp cho tổ chức một kế hoạch khôi phục dữ liệu đảm bảo khả năng phục hồi. Tuy nhiên, tổ chức phải thường xuyên kiểm tra chiến lược của mình để đảm bảo tính hiệu quả của nó.
Nguồn Storware Blog