เหตุไฟฟ้าดับของ AWS ในตะวันออกกลาง ทำให้เกิดการหยุดชะงักครั้งใหญ่ต่อบริการ EC2 และระบบเครื่อข่าย

เกิดเหตุการณ์ไฟฟ้าดับครั้งใหญ่ที่ศูนย์ข้อมูล AWS ภูมิภาคตะวันออกกลาง (me-central-1) เมื่อวันที่ 1 มีนาคม 2026 ที่ผ่านมา หลังจากถูกวัตถุภายนอกพุ่งชนจนเกิดเพลิงไหม้ ซึ่งเหตุการณ์ดังกล่าวส่งผลให้บริการ Amazon Elastic Compute Cloud (EC2), เครือข่าย API และทรัพยากรต่าง ๆ ประสบปัญหาขัดข้องอย่างรุนแรงในโซนให้บริการ mec1-az2

จากรายงานเหตุการณ์ของ AWS ระบุว่า หน่วยดับเพลิงได้สั่งให้ปิดระบบไฟฟ้าทั้งหมดของอาคาร รวมถึงเครื่องกำเนิดไฟฟ้าสำรอง เพื่อความปลอดภัยในระหว่างเข้าควบคุมสถานการณ์ ส่งผลให้การทำงานของ EC2 Instances, Amazon Elastic Block Store (EBS) และฐานข้อมูล Amazon Relational Database Service (RDS) ภายในพื้นที่ดังกล่าวใช้งานไม่ได้

ลำดับเหตุการณ์:

เมื่อเวลาประมาณ 04:30 น. ตามเวลามาตรฐานแปซิฟิก (PST) AWS ได้เริ่มตรวจสอบปัญหา และได้มีการยืนยันอย่างชัดเจนว่าเกิดไฟฟ้าขัดข้องเฉพาะจุดขึ้นในพื้นที่บริการ mec1-az2 โดยทางบริษัทได้เริ่มใช้วิธีการกระจายปริมาณการใช้งาน (Traffic Weighting) เพื่อเปลี่ยนเส้นทางการเชื่อมต่อออกจากศูนย์ข้อมูลที่ได้รับความเสียหาย และถ่ายโอนการทำงานทั้งหมดไปยังพื้นที่ให้บริการส่วนอื่นที่ไม่ได้รับผลกระทบ

ทีมวิศวกรของ AWS พบว่าเหตุขัดข้องครั้งนี้ส่งผลกระทบอย่างรุนแรงต่อระบบเครื่อข่าย API ของ EC2 โดยลูกค้าจำนวนมากจะพบ errors ในลักษณะการจำกัดสิทธิ์การใช้งาน และการเรียกใช้ฟังก์ชันเครือข่ายที่สำคัญหลายรายการ เช่น AllocateAddress, AssociateAddress, DescribeRouteTable และ DescribeNetworkInterfaces โดยทีมวิศวกรของ AWS ได้เร่งปรับแก้ระบบหลายส่วนจนบริการ AllocateAddress API เริ่มกลับมาใช้งานได้

อย่างไรก็ตาม ในส่วนของบริการ AssociateAddress API นั้นกลับมีความซับซ้อน และแก้ไขได้ยากกว่า ส่งผลให้ลูกค้ายังไม่สามารถย้าย Elastic IP addresses ไปยังระบบที่ยังใช้งานได้ในโซนอื่น ๆ

การกู้คืนระบบ

เมื่อเวลา 18:01 น. (PST) AWS ได้ยืนยันว่าสามารถกู้คืนการทำงานของ AssociateAddress API สำเร็จแล้ว โดยส่งตัวอัปเดตที่ช่วยให้ลูกค้าสามารถสั่งตัดการเชื่อมต่อ Elastic IP addresses จากทรัพยากรที่ยังติดค้างอยู่ในศูนย์ข้อมูลที่ขัดข้องได้ ซึ่งการแก้ไขในครั้งนี้ช่วยให้องค์กรต่าง ๆ สามารถฟื้นฟูการเชื่อมต่อให้กลับมาใช้งานได้อีกครั้ง ด้วยการนำหมายเลข IP เดิมไปผูกเข้ากับทรัพยากรใหม่ที่ถูกสร้างขึ้นในพื้นที่ให้บริการอื่น ๆ ที่ไม่ได้รับผลกระทบ

แม้ว่าระบบ API จะเริ่มกลับมาใช้งานได้แล้ว แต่โครงสร้างพื้นฐานทาง physical ยังคงปิดตัวอยู่ เนื่องจากต้องรอการอนุมัติจากเจ้าหน้าที่ในพื้นที่ เพื่อความปลอดภัยก่อนจะเริ่มจ่ายกระแสไฟฟ้าเข้าไปยังอาคารที่ได้รับความเสียหายอีกครั้ง

เหตุการณ์ในครั้งนี้ได้แสดงให้เห็นถึงความสำคัญของการวางระบบแบบหลายพื้นที่ให้บริการ (Multi-AZ) ซึ่งทาง AWS เน้นย้ำว่า ลูกค้าที่รันแอปพลิเคชันสำรองไว้ในหลายโซนพร้อมกัน ส่วนใหญ่จะไม่ได้รับผลกระทบจากเหตุขัดข้องครั้งนี้

ทั้งนี้ AWS แนะนำสำหรับองค์กรที่จำเป็นต้องกู้คืนระบบในทันที ให้เปิดใช้งานทรัพยากรทดแทนในโซนที่ไม่ได้รับผลกระทบ หรือย้ายไปใช้ภูมิภาคอื่น ๆ โดยให้กู้คืนข้อมูลจาก Snapshot ของ EBS หรือข้อมูลสำรองล่าสุดที่มีอยู่

อย่างไรก็ตาม เนื่องจากมีปริมาณการใช้งานจำนวนมากเข้ามาจากโซนที่ขัดข้อง ทาง AWS ชี้แจงว่า ลูกค้าอาจพบความล่าช้าในการจัดสรรทรัพยากร หรืออาจต้องพยายามทำรายการซ้ำเมื่อเปิดใช้งานอินสแตนซ์บางประเภทในโซนที่ยังปกติของภูมิภาค ME-CENTRAL-1 และจากการอัปเดตล่าสุด ทาง AWS ยังไม่มีกำหนดการที่แน่ชัดว่าการจ่ายไฟฟ้าที่ศูนย์ข้อมูล mec1-az2 จะกลับมาเป็นปกติเมื่อใด จึงยังคงแนะนำให้ลูกค้าดำเนินงานผ่านโซนหรือภูมิภาคอื่นที่ใช้งานได้ก่อนในระหว่างที่กำลังดำเนินการกู้คืน

ที่มา: cybersecuritynews