Bạn có biết rằng, design và code ra một hệ thống là chuyện khó, nhưng giữ cho hệ thống đó hoạt động, phát triển thêm chức năng mới là một chuyện còn … khó khăn hơn nữa!
Bạn có biết điều gì giúp cho những hệ thống lớn như Google, Gmail, Youtube hoạt động ổn định, ít gặp sự cố dù có đến hàng triệu hàng tỷ người dùng không?
Một trong những yếu tố quan trọng đó là Google có một đội ngũ SRE – Site Reliability Enginner, những người đứng phía sau theo dõi, bảo trì hệ thống, xử lý sự cố khi có vấn đề xảy ra.
Không chỉ Google, những công ty lớn như Facebook, Amazon, Netflix cũng đều có vị trí SRE, phụ trách những công việc tương tự, giúp hệ thống hoạt động ổn định.
Vì vậy, hôm nay mình sẽ giới thiệu cuốn Site Reliability Engineering – How Google Run Production System, một cuốn sách do các kĩ sư trong team SRE của Google viết ra nhé!
(Cảnh báo nhẹ, sách hơi khó đọc, chỉ nên đọc nếu bạn đã có ít nhất 1-2 năm kinh nghiệm nhé)
Continue reading Review sách: Site Reliability Engineering – How Google Run Production System →