Không ai nghĩ rằng một mạng xã hội lớn như Facebook lại có thể “sụp đổ”. Tuy nhiên, vào lúc 22h30 ngày hôm qua (giờ Việt Nam), Facebook cùng hàng loạt dịch vụ khác như Messenger, Instagram hay WhatsApp đồng loạt ngừng hoạt động và không thể truy cập được. Đáng chú ý, sự cố này không chỉ xảy ra trong chốc lát mà kéo dài gần 7 tiếng đồng hồ. Điều này đã ảnh hưởng nghiêm trọng đến người dùng trên toàn thế giới.
Vậy thì, rốt cuộc đã xảy ra chuyện gì?
Trong khi Facebook không tiết lộ lý do cụ thể khiến hệ thống của mình gặp sự cố, các chuyên gia tại CloudFlare đã đưa ra lời giải thích khá chi tiết. Nói về CloudFlare, đây là một công ty trong lĩnh vực mạng phân phối nội dung (CDN), nổi tiếng với gói dịch vụ cho phép các trang web hoạt động ngay cả khi bị tấn công hoặc sự cố máy chủ. Ngoài ra, CloudFlare cũng đang vận hành DNS 1.1.1.1 và công cụ VPN WARP+.
BGP: Cốt lõi của các vấn đề của Facebook
Internet là tất cả về việc kết nối một máy tính với một máy tính khác. Ví dụ, khi bạn truy cập Facebook, bạn đang kết nối máy tính của mình với máy chủ của Facebook để trao đổi dữ liệu. Quá trình máy tính của bạn “tìm đường” đến máy chủ của Facebook được gọi là định tuyến.
BGP, viết tắt của Border Gateway Protocol, là một cơ chế cho phép các mạng lớn trao đổi thông tin định tuyến. Các bộ định tuyến lớn trên thế giới duy trì danh sách “đường dẫn” được cập nhật liên tục để các gói tin đi qua. Hãy nghĩ về nó như một bản đồ chỉ cho bạn biết nơi cần đến khi bạn bị lạc trong một trung tâm mua sắm lớn.
BGP giống như một bản đồ đường bộ mà bạn thường thấy ở các trung tâm mua sắm.
Và vào thời điểm Facebook ngừng hoạt động, nhóm CloudFlare nhận thấy rằng BGP của Facebook đã được cập nhật để xóa các tuyến đường đến máy chủ của dịch vụ. Giống như bản đồ ở trung tâm thương mại đã bị xóa và một nhóm người đi bộ vào đó mà không có nơi nào để đi. Nói cách khác, Facebook đã biến mất khỏi internet.
Lộ trình BGP của Facebook được cập nhật trong thời gian mạng xã hội ngừng hoạt động
Sự cố BGP của Facebook khiến DNS (Domain Name Resolver) không hoàn thành nhiệm vụ dịch tên miền facebook.com thành địa chỉ IP. Trong trường hợp bạn chưa biết, DNS chịu trách nhiệm dịch tên miền như facebook.com thành địa chỉ IP của máy chủ, như 157.240.211.35. Vì BGP của Facebook không còn định tuyến nữa nên DNS không tìm thấy địa chỉ IP của Facebook.
Vậy tại sao BGP của Facebook lại ngừng hoạt động?
Bây giờ bạn đã biết BGP là gì và nó hoạt động như thế nào. Nhưng tại sao BGP của Facebook lại gặp vấn đề? Facebook không có một đội ngũ rất chuyên nghiệp sao?
Trên Reddit, một người dùng tự nhận mình làm việc trong nhóm ứng phó sự cố của Facebook đã cung cấp một số thông tin “hậu trường” về sự cố này.
Cụ thể, ông cho biết BGP của Facebook gặp sự cố sau khi thay đổi cấu hình hệ thống. Tuy nhiên, các vấn đề về mạng của Facebook nghiêm trọng đến mức không thể giải quyết bằng cách quản lý từ xa mà đòi hỏi người quản trị phải có mặt trực tiếp tại trung tâm dữ liệu.
Tuy nhiên, những người “trực ca” tại trung tâm dữ liệu của Facebook không có đủ kiến thức và thẩm quyền để khắc phục sự cố. Do đó, các kỹ sư của Facebook đã dành nhiều thời gian hơn bình thường để đưa các dịch vụ của công ty trở lại hoạt động. Được biết, Facebook đã cắt giảm đội ngũ trực ca tại trung tâm dữ liệu do ảnh hưởng của dịch COVID-19.
Sau khi tiết lộ thông tin trên, tài khoản Reddit của người dùng này đã bị xóa.