Google ระบุว่า ปัญหาที่เกี่ยวกับระบบการจัดการ API เป็นสาเหตุของเหตุการณ์ระบบ Google Cloud ขัดข้องครั้งใหญ่เมื่อวันที่ 12 มิถุนายน 2025 ที่ผ่านมา ซึ่งส่งผลให้บริการของ Google และแพลตฟอร์มออนไลน์อื่น ๆ หลายแห่ง ต้องหยุดชะงักไป
Google แจ้งว่าระบบคลาวด์เริ่มมีปัญหาตั้งแต่เวลาประมาณ 21:49 น. ตามเวลาประเทศไทย และได้สิ้นสุดลงในเวลา 00:49 น. ของอีกวัน ซึ่งสร้างความเดือดร้อนให้กับผู้ใช้งานหลายล้านคนทั่วโลกเป็นเวลากว่า 3 ชั่วโมง
นอกจาก Google Cloud แล้ว เหตุการณ์ดังกล่าวยังส่งผลกระทบต่อบริการอื่น ๆ ของ Google อีกด้วย ได้แก่ Gmail, Google Calendar, Google Chat, Google Cloud Search, Google Docs, Google Drive, Google Meet, Google Tasks, Google Voice, Google Lens, Discover และ Voice Search
อย่างไรก็ตาม เหตุการณ์ดังกล่าวได้ส่งผลกระทบเป็นวงกว้างต่อแพลตฟอร์ม third-party อื่น ๆ ที่ต้องพึ่งพา Google Cloud อีกด้วย เช่น Spotify, Discord, Snapchat, NPM, Firebase Studio และบริการบางส่วนของ Cloudflare ที่ใช้ระบบจัดเก็บข้อมูลแบบ key-value ของ Workers KV
Google ระบุว่า "บริษัทขอแสดงความเสียใจอย่างยิ่งต่อผลกระทบที่ผู้ใช้งาน และลูกค้าของพวกเขาต้องเผชิญจากเหตุขัดข้องในครั้งนี้ ทั้งธุรกิจขนาดใหญ่ และขนาดเล็กต่างไว้วางใจใช้ Google Cloud ในการทำงานของพวกเขา และบริษัทจะขอปรับปรุงบริการให้ดียิ่งขึ้น"
ในขณะนี้ Google กำลังอยู่ในระหว่างการจัดทำรายงานสรุปเหตุการณ์ฉบับสมบูรณ์ และวันที่ 13 มิถุนายน 2025 ที่ผ่านมา ทาง Google ได้เปิดเผยสาเหตุหลักที่ทำให้พบ errors 503 เพิ่มขึ้นเป็นจำนวนมากใน API requests จากภายนอก ระหว่างที่ระบบมีปัญหาเป็นเวลานานกว่า 3 ชั่วโมงในวันที่ 12 มิถุนายน 2025
Google ระบุเพิ่มเติมว่า แพลตฟอร์มการจัดการ API ของ Google Cloud หยุดทำงาน เนื่องจากมีข้อมูลที่ไม่ถูกต้อง โดยปัญหานี้ไม่ได้ถูกตรวจพบ และแก้ไขอย่างทันท่วงที เพราะขาดระบบการทดสอบ และการจัดการ error ที่มีประสิทธิภาพ
"จากการวิเคราะห์เบื้องต้น พบว่าปัญหาเกิดขึ้นเนื่องจากการอัปเดต quota อัตโนมัติที่ไม่ถูกต้องไปยังระบบการจัดการ API ของเรา ที่ถูกกระจายไปทั่วโลก ส่งผลให้ API requests จากภายนอกถูกปฏิเสธ บริษัทแก้ไขปัญหานี้โดยการ bypassed ขั้นตอนการตรวจสอบ quota ที่ทำให้เกิด error ซึ่งช่วยให้ระบบส่วนใหญ่สามารถถูกกู้คืนได้ภายในเวลา 2 ชั่วโมง"
"อย่างไรก็ตาม quota policy database ในภูมิภาค us-central1 (ภาคกลางของสหรัฐอเมริกา) เกิดภาวะ overloaded ส่งผลให้การกู้คืนระบบในภูมิภาคนั้นใช้เวลานานมาก ผลิตภัณฑ์หลายตัวที่ได้รับผลกระทบตกค้างในระดับปานกลาง อย่างเช่น backlogs เป็นระยะเวลานานถึง 1 ชั่วโมงหลังจากปัญหาหลักได้รับการแก้ไข และมีผลิตภัณฑ์บางส่วนที่ถูกกู้คืนได้หลังจากนั้น"
บริการของ Cloudflare หยุดชะงักเนื่องจากเหตุการณ์ระบบขัดข้องของ Google
หลังจากสามารถกู้คืนบริการที่ได้รับผลกระทบของตนเองได้สำเร็จ Cloudflare ได้เปิดเผยในรายงานหลังเหตุการณ์ว่า ปัญหาที่เกิดขึ้นเมื่อวันที่ 12 มิถุนายน 2025 ไม่ได้เกิดจากเหตุการณ์ด้านความปลอดภัย และไม่มีข้อมูลใด ๆ สูญหาย
Cloudflare ระบุว่า "สาเหตุของการขัดข้องในครั้งนี้มาจากความล้มเหลวในโครงสร้างพื้นฐานการจัดเก็บข้อมูลที่ใช้งานอยู่เบื้องหลังบริการ Workers KV ของ Cloudflare ซึ่งเป็นส่วนประกอบสำคัญที่ผลิตภัณฑ์จำนวนมากของ Cloudflare ที่ต้องพึ่งพา และใช้สำหรับการกำหนดค่า, การยืนยันตัวตน และการส่งมอบข้อมูลของบริการต่าง ๆ ที่ได้รับผลกระทบ"
"โครงสร้างพื้นฐานบางส่วนของเราที่ได้รับการสนับสนุนโดยผู้ให้บริการคลาวด์ภายนอก ซึ่งประสบปัญหาระบบขัดข้องในวันเดียวกัน และส่งผลกระทบโดยตรงต่อความพร้อมใช้งานของบริการ KV ของเราด้วย"
แม้ว่า Cloudflare จะไม่ได้เปิดเผยชื่อผู้ให้บริการคลาวด์ที่อยู่เบื้องหลังที่เป็นต้นเหตุของระบบขัดข้องเมื่อวันที่ 12 มิถุนายน 2025 แต่โฆษกของ Cloudflare ได้ให้ข้อมูลกับเว็บไซต์ BleepingComputer โดยระบุว่า มีเพียงบริการบางส่วนของ Cloudflare ที่พึ่งพา Google Cloud เท่านั้นที่ได้รับผลกระทบ
เพื่อตอบสนองต่อเหตุการณ์ดังกล่าว Cloudflare ระบุว่า จะย้ายที่จัดเก็บข้อมูลส่วนกลางของบริการ KV ไปยัง R2 object storage ของตนเอง เพื่อลดการพึ่งพาบริการภายนอก และป้องกันไม่ให้ปัญหาในลักษณะนี้เกิดขึ้นอีกในอนาคต
ที่มา : bleepingcomputer
You must be logged in to post a comment.