Sự cố hi hữu nhưng không kém phần may mắn vừa qua đã khiến đội ngũ GitLab một phen thót tim…
GitLab, một startup từng nhận được vốn tài trợ lên đến 25 triệu USD đã gặp phải một sự cố rất hi hữu. Chính giám đốc Marketing của họ, ông Tim Anglade đã trả lời Business Insider về một loạt sự cố có thể ảnh hưởng đến vấn đề kinh doanh của công ty chỉ sau 1 đêm.
Gitlab là 1 nền tảng môi trường ảo quen thuộc với các lập trình viên từ tập sự đến chuyên nghiệp, nơi họ có thể xử lí, làm việc chung với nhau trên cùng 1 bộ code. Nói đơn giản hơn, Gitlab là 1 ngôi nhà chung để các lập trình viên cùng 1 nhóm có thể làm việc. Nhờ sự tiện dụng và tính linh hoạt rất cao, Gitlab từng được nhiều chuyên gia đánh giá sẽ có thể thay thế được “người anh cả” Github trong việc tạo môi trường làm việc chung cho các nhà lập trình.
Nhưng họ đã vừa trải qua một sự cố hi hữu và khá vất vả để vượt qua.
Ngày thứ ba tồi tệ
Công việc kinh doanh của Gitlab bị đe dọa kể từ một buổi tối thứ 3, khi các quản trị viên hệ thống đang thực hiện công việc bảo trì cơ sở dữ liệu bằng cách dọn sạch bộ nhớ đệm và khởi động lại quá trình sao chép. Nhưng thật không may, một trong số các quản trị viên lúc đó đã vô tình gõ lệnh xóa bỏ hoàn toàn cơ sở dữ liệu chính.
Và khi ông nhận ra được lỗi lầm “chết người” của mình thì bộ nhớ chính 300GB chỉ còn vỏn vẹn… 4,5GB. Trang web ngay lập tức được đưa vào trạng thái bảo trì để họ cố gắng tìm các khắc phục. Gitlab cũng đã cập nhật tình hình thường xuyên cho người dùng thông qua blog, Twitter, Google Doc và cả 1 kênh livestream trên Youtube.
Sự việc còn trở nên tồi tệ hơn khi các bản back-up dự phòng không thể kích hoạt lại được. Họ chỉ có thể sử dụng bản back-up cách đó 6 tiếng và đưa ra thông báo “Chúng tôi đã kết thúc việc khôi phục dữ liệu với bản sao lưu cách đây 6 tiếng. Có nghĩa là những dữ liệu được ghi nhận trên hệ thống trong khoảng 6 tiếng đồng hồ trở lại đây sẽ không trở lại.”
Tin tốt xen lẫn tin xấu
Trong khi trong quá trình khôi phục lại phiên bản cũ hơn của cơ sở dữ liệu, trang web của họ đã hoàn toàn “đóng băng” tới trong khoảng 6 tiếng. Họ còn gặp khó khăn khi khởi động lại các dịch vụ trực tuyến và tất cả chỉ trở lại bình thường vào đầu buổi sáng ngày hôm sau.
Bên cạnh đó, Anglade và các đồng nghiệp cũng nhận được các tin tốt là đoạn dữ liệu bị mất đi trong vòng 6 tiếng kia hoàn toàn không chứa đoạn mã quan trọng nào của người dùng đang sử dụng. Nó chỉ chứa các bản báo lỗi và các bình luận. Hơn nữa, Anglade nói rằng nhiều khách hàng đã cài đặt GitLab trên máy tính riêng đã không bị ảnh hưởng kể từ khi mà Gitlab cho ngắt hoạt động. Điều may mắn nữa là các khách hàng sử dụng các bản trả phí lại hoàn toàn không bị ảnh hưởng. Đó là điều an ủi rất lớn đối với Gitlab.
Anglade cho biết, chỉ khoảng 1% người dùng bị liên quan đến sự cố lần này và không ai bị mất hoàn toàn dữ liệu quan trọng.
Đối với những nhân viên quản trị đã phạm lỗi buổi tối hôm đó, Anglade không truy tố ra đích danh bất kì thành viên nào mà cho rằng đó là lỗi của nhóm quản trị. Được biết, nhóm quản trị gây ra lỗi cũng sẽ không bị sa thải khi ban lãnh đạo đã quyết định cho họ thêm 1 cơ hội nữa.
“Sẽ là công bằng nhất khi tôi quyết định đó là lỗi của nhóm chứ không phải riêng bất kì cá nhân nào. Họ sẽ không bị sa thải vì ai cũng có lúc gây ra lỗi, may mắn là chúng tôi không bị ảnh hưởng quá nhiều”, ông nói.
Bích Lan
(theo CafeBiz)
FPT Aptech – Hệ Thống Đào Tạo Lập Trình Viên Quốc Tế
FPT Aptech trực thuộc Tổ chức Giáo dục FPT có hơn 25 năm kinh nghiệm đào tạo lập trình viên quốc tế tại Việt Nam, và luôn là sự lựa chọn ưu tiên của các sinh viên và nhà tuyển dụng. |