Tác giả

Tylee L. Kareck

Chi-Yang Li

Jiejia Wang

Michael J. Gollner

Qingsheng Wang

Ngày đăng tải 17/12/2025
DOI https://doi.org/10.1016/j.jlp.2025.105890
Nguồn bài nghiên cứu Science Direct
Từ khóa

Trung tâm dữ liệu

Sự cố cháy

An toàn cháy nổ

Trí tuệ nhân tạo (AI)

Khả năng chống chịu

1 – GIỚI THIỆU

Các dịch vụ trực tuyến đã gia tăng mạnh mẽ cả về mức độ hữu ích lẫn mức độ phổ biến trong vài thập kỷ qua, kéo theo nhu cầu tính toán và tiêu thụ năng lượng ngày càng lớn. Nhu cầu này chủ yếu được đáp ứng bởi các trung tâm dữ liệu – những cơ sở hạ tầng quy mô công nghiệp lưu trữ và phân phối khối lượng dữ liệu khổng lồ. Trong bối cảnh trí tuệ nhân tạo (AI) phát triển nhanh chóng, quy mô và mật độ năng lượng của thiết bị công nghệ thông tin (Information Technology Equipment – ITE) trong trung tâm dữ liệu ngày càng gia tăng đáng kể.

Tuy nhiên, cùng với sự mở rộng này, nhiều sự cố cháy nghiêm trọng trong những năm gần đây đã cho thấy các lỗ hổng dai dẳng về an toàn cháy nổ. Nguyên nhân của các vụ cháy trung tâm dữ liệu thường liên quan đến sự cố điện, hỏng hóc pin (đặc biệt là pin lithium-ion), trục trặc hệ thống làm mát và lỗi con người. Khi mật độ công suất rack tăng cao và hệ thống yêu cầu nhiều bộ lưu điện (Uninterruptible Power Supply – UPS) hơn, nguy cơ quá nhiệt và mất kiểm soát nhiệt (thermal runaway) cũng tăng tương ứng. Nếu hệ thống làm mát không đáp ứng kịp tải nhiệt của phần cứng công suất cao, các phương thức làm mát thụ động khó có thể ngăn chặn quá nhiệt và nguy cơ cháy.

Mặc dù đã có các nghiên cứu về quản lý nhiệt trong trung tâm dữ liệu, nhưng những nghiên cứu toàn diện về nguyên nhân gốc rễ và hậu quả đầy đủ của các vụ cháy trung tâm dữ liệu vẫn còn hạn chế. Bài báo này đưa ra một góc nhìn tổng hợp về đánh giá rủi ro cháy trong trung tâm dữ liệu, đề xuất áp dụng hai phương pháp: (i) phương pháp không dựa trên kịch bản (non-scenario-based) nhằm nhận diện các nguy cơ phổ biến như mật độ công suất cao, hỏng hóc nguồn điện, quản lý nhiệt kém và lỗi con người; (ii) phương pháp dựa trên kịch bản (scenario-based) sử dụng các sự cố thực tế gần đây để xây dựng các kịch bản cháy đại diện, phù hợp với các tiêu chuẩn như NFPA 75 và NFPA 551. Các phương pháp này cần được triển khai song song với thực tiễn thiết kế kỹ thuật, tính khả thi vận hành và sự phù hợp quy định nhằm nâng cao khả năng chống chịu (resilience) cho trung tâm dữ liệu trong kỷ nguyên AI.

2 – MÔ TẢ HỆ THỐNG

Trung tâm dữ liệu hiện đại là một hệ sinh thái kỹ thuật phức hợp tích hợp nhiều hệ thống cơ điện – điện tử vận hành đồng thời với mật độ năng lượng cao và yêu cầu độ tin cậy gần như tuyệt đối. Cấu trúc cơ bản của một trung tâm dữ liệu bao gồm hệ thống thiết bị công nghệ thông tin (Information Technology Equipment – ITE), hệ thống cung cấp và lưu trữ điện năng, hệ thống làm mát – quản lý nhiệt, hệ thống điều khiển và giám sát, cùng hệ thống phòng cháy chữa cháy chuyên biệt.

Trọng tâm vận hành nằm ở các rack máy chủ mật độ cao. Xu hướng gia tăng mật độ công suất rack (rack power density) nhằm tối ưu hóa diện tích sàn và hiệu suất xử lý đã khiến tải nhiệt cục bộ tăng mạnh. Điều này làm thay đổi đáng kể hồ sơ rủi ro cháy so với các trung tâm dữ liệu truyền thống công suất thấp. Các rack hiện đại có thể vận hành ở mức hàng chục kW mỗi rack, đòi hỏi hạ tầng cấp nguồn và làm mát tương ứng có độ ổn định cao.

Hệ thống cấp nguồn bao gồm nguồn điện lưới, hệ thống UPS (Uninterruptible Power Supply), hệ thống pin lưu trữ và máy phát điện dự phòng. UPS đóng vai trò duy trì nguồn điện liên tục trong thời gian chuyển mạch hoặc mất điện lưới, qua đó bảo vệ tính toàn vẹn dữ liệu và ngăn ngừa downtime. Trong các thiết kế truyền thống, pin axit-chì kín khí (VRLA) được sử dụng phổ biến; tuy nhiên, xu hướng chuyển sang pin lithium-ion đang gia tăng nhờ mật độ năng lượng cao hơn, kích thước nhỏ gọn và khả năng chu kỳ sâu tốt hơn. Dù vậy, pin lithium-ion tiềm ẩn nguy cơ mất kiểm soát nhiệt (thermal runaway) cao hơn do đặc tính hóa học của điện cực và chất điện phân dễ cháy.

Thermal runaway là quá trình phản ứng tỏa nhiệt dây chuyền, tự duy trì và gia tốc, có thể dẫn đến giải phóng khí dễ cháy, khí độc và phát nổ vỏ pin. Trong môi trường trung tâm dữ liệu, nơi nhiều module pin được bố trí tập trung hoặc phân tán gần khu vực ITE, hiện tượng lan truyền nhiệt giữa các cell hoặc module có thể gây hiệu ứng domino nghiêm trọng.

Hệ thống làm mát thường sử dụng lưu lượng không khí lớn để loại bỏ nhiệt từ thiết bị ITE. Các cấu hình phổ biến bao gồm làm mát hành lang nóng – hành lang lạnh (hot aisle – cold aisle containment), làm mát bằng chất lỏng trực tiếp (direct-to-chip liquid cooling) và các giải pháp hybrid. Tuy nhiên, lưu lượng khí lớn đồng nghĩa với khả năng lan truyền khói và lửa nhanh hơn trong sự cố cháy. Sự tương tác giữa dòng khí cưỡng bức và khí cháy là một yếu tố kỹ thuật quan trọng nhưng chưa được nghiên cứu đầy đủ ở quy mô công nghiệp.

Về phòng cháy chữa cháy, trung tâm dữ liệu áp dụng nhiều tầng bảo vệ. Kết cấu phòng ITE được yêu cầu có khả năng chịu lửa tối thiểu 1 giờ theo NFPA 75. Sàn nâng được khuyến nghị thiết kế sao cho không có khe hở nhô ra, tránh tích tụ bụi và hạn chế đường lan truyền lửa. Hệ thống chữa cháy bao gồm sprinkler, hệ thống tác nhân sạch (clean agent systems), hệ thống phun sương nước (water mist), hệ thống hybrid kết hợp khí trơ và nước, và trong nghiên cứu mới nổi là hệ thống dập cháy bằng nitơ lỏng.

Ngoài hạ tầng vật lý, các trung tâm dữ liệu hiện đại ngày càng tích hợp hệ thống giám sát thông minh dựa trên trí tuệ nhân tạo nhằm phát hiện bất thường, tối ưu hóa bảo trì dự đoán và giảm thiểu rủi ro sự cố trước khi xảy ra cháy.

3 – PHƯƠNG PHÁP NGHIÊN CỨU

Nghiên cứu này áp dụng cách tiếp cận phân tích quan điểm (perspective analysis) dựa trên tổng hợp sự cố thực tế kết hợp đánh giá rủi ro hệ thống. Dữ liệu về các vụ cháy trung tâm dữ liệu trong vòng năm năm gần đây được thu thập từ nguồn công khai và truyền thông chuyên ngành. Tám sự cố tiêu biểu được lựa chọn nhằm phản ánh đa dạng nguyên nhân, mức độ thiệt hại và bối cảnh kỹ thuật khác nhau.

Phương pháp nghiên cứu gồm hai trục đánh giá chính. Thứ nhất là phương pháp không dựa trên kịch bản (non-scenario-based hazard evaluation), tập trung vào việc nhận diện các mối nguy nội tại có tính phổ quát trong thiết kế và vận hành trung tâm dữ liệu. Phương pháp này xem xét các yếu tố như mật độ công suất cao, hỏng hóc UPS, hồ quang điện (arc flash), tích tụ bụi, bảo trì không đầy đủ, sự cố làm mát và lỗi lắp đặt pin. Đây là cách tiếp cận mang tính phòng ngừa, nhằm loại bỏ hoặc giảm thiểu khả năng khởi phát cháy ngay từ giai đoạn thiết kế.

Thứ hai là phương pháp dựa trên kịch bản (scenario-based assessment), sử dụng các sự cố thực tế làm cơ sở xây dựng chuỗi diễn tiến cháy đại diện. Mỗi kịch bản bao gồm các bước: nguồn mồi lửa (ignition source), phát triển đám cháy (fire growth), lan truyền khói (smoke propagation), phơi nhiễm con người (occupant exposure), khả năng thất bại của hệ thống chữa cháy và hậu quả gián đoạn vận hành. Các kịch bản này được đánh giá theo hướng dẫn của NFPA 75 và NFPA 551 nhằm đảm bảo bao quát toàn diện cả khía cạnh kỹ thuật lẫn tổ chức ứng phó khẩn cấp.

Ngoài ra, nghiên cứu phân tích hiệu quả và hạn chế của các công nghệ phòng ngừa và dập cháy hiện hữu, bao gồm tác nhân sạch hydrofluorocarbon (HFC), NOVEC 1230, nitơ lỏng, hệ thống hybrid và ứng dụng AI trong bảo trì dự đoán. Các giải pháp được đánh giá theo tiêu chí hiệu quả kỹ thuật, tính bền vững môi trường, chi phí triển khai và mức độ tương thích với vận hành liên tục của trung tâm dữ liệu.

4 – KẾT QUẢ NGHIÊN CỨU

Phân tích các sự cố cho thấy toàn bộ các vụ cháy được khảo sát đều có bản chất điện, trong đó hỏng pin lithium-ion chiếm tỷ lệ cao nhất. Điều này khẳng định rằng sự gia tăng mật độ năng lượng và chuyển đổi sang hóa học pin hiệu suất cao đang tái cấu trúc hồ sơ rủi ro cháy của trung tâm dữ liệu.

Thermal runaway được xác định là cơ chế nguy hiểm nhất, với khả năng tự duy trì phản ứng tỏa nhiệt, giải phóng khí cháy và kích hoạt lan truyền dây chuyền sang các module lân cận. Trong môi trường có nhiều pin bố trí tập trung, chỉ một sự cố đơn lẻ có thể dẫn đến cháy lan quy mô lớn. Bên cạnh đó, hồ quang điện và sự cố tủ điện cũng được ghi nhận là nguồn khởi phát cháy đáng kể, có thể gây thương tích nghiêm trọng cho nhân viên vận hành.

Một phát hiện quan trọng khác là vai trò của nước trong các sự cố cháy. Rò rỉ nước hoặc ngưng tụ ẩm khi tiếp xúc với thiết bị điện có thể gây chập mạch và khởi phát cháy. Đồng thời, hệ thống làm mát lưu lượng khí lớn có thể làm tăng tốc độ lan truyền khói và làm giảm hiệu quả của một số hệ thống chữa cháy khí.

Về công nghệ dập cháy, hệ thống tác nhân sạch cho thấy hiệu quả cao trong hạn chế hư hỏng thiết bị do không để lại cặn. Tuy nhiên, việc loại bỏ dần HFC do lo ngại về tiềm năng nóng lên toàn cầu đặt ra yêu cầu phát triển giải pháp thay thế. Nitơ lỏng và hệ thống hybrid cho thấy tiềm năng cao trong kiểm soát thermal runaway, đặc biệt khi kết hợp với phun sương nước, nhưng đòi hỏi chi phí đầu tư lớn và yêu cầu kỹ thuật cao.

Ứng dụng AI trong bảo trì dự đoán được đánh giá là giải pháp có tiềm năng chuyển đổi, cho phép dự báo hỏng pin trước nhiều ngày với độ chính xác cao, từ đó giảm nguy cơ cháy mà không làm tăng chi phí vận hành quá mức.

5 – KẾT LUẬN

Sự gia tăng nhanh chóng của nhu cầu dữ liệu và AI đang thúc đẩy thiết kế trung tâm dữ liệu mật độ năng lượng cao, nhưng đồng thời làm gia tăng rủi ro cháy theo những cách phức tạp và chưa được nghiên cứu đầy đủ. Các sự cố gần đây cho thấy hậu quả có thể bao gồm thiệt hại tài sản lớn, mất dữ liệu diện rộng, gián đoạn dịch vụ thiết yếu và thậm chí nguy cơ an ninh mạng sau khi hệ thống bị suy giảm tính toàn vẹn.

Do đó, cần triển khai đồng bộ chiến lược phòng ngừa và giảm thiểu rủi ro. Việc tuân thủ và vượt các tiêu chuẩn như NFPA và IFC là điều kiện cần nhưng chưa đủ. Cần bổ sung thử nghiệm cháy quy mô lớn mang tính chuẩn hóa, nghiên cứu hiệu quả hệ thống chữa cháy trong môi trường lưu lượng khí cao, và phát triển hóa học pin an toàn hơn nhằm giảm nguy cơ thermal runaway.

Sự cân bằng giữa an toàn cháy và tính liên tục vận hành là yếu tố then chốt. Các giải pháp kỹ thuật mới chỉ có thể được chấp nhận rộng rãi nếu không gây gián đoạn quá mức cho hoạt động trung tâm dữ liệu. Vì vậy, việc tích hợp AI trong dự báo sự cố, thiết kế hệ thống linh hoạt và nâng cao khả năng chống chịu (resilience engineering) cần được xem là định hướng chiến lược.

Cuối cùng, nghiên cứu nhấn mạnh tầm quan trọng của hợp tác đa bên giữa giới học thuật, công nghiệp và cơ quan quản lý nhằm chuẩn hóa báo cáo sự cố, thu thập dữ liệu thực nghiệm và cập nhật quy định phù hợp với bối cảnh công nghệ đang thay đổi nhanh chóng. Chỉ khi đó, trung tâm dữ liệu hiện đại mới có thể đáp ứng đồng thời yêu cầu hiệu suất cao, độ tin cậy và an toàn cháy nổ trong kỷ nguyên AI.