Cloudflare ออกมายืนยันว่าเหตุการณ์ระบบล่มครั้งใหญ่เมื่อวันที่ 12 มิถุนายน 2025 ไม่ได้เกิดจากเหตุการณ์ด้านความปลอดภัย และไม่มีข้อมูลสูญหาย
ปัญหานี้ได้รับการแก้ไขในระดับหนึ่งแล้ว โดยเหตุการณ์เริ่มต้นเมื่อเวลา 17:52 UTC ของวันที่ 12 มิถุนายน 2025 เมื่อระบบ Workers KV (Key-Value) หยุดทำงาน ส่งผลให้บริการจำนวนมากที่เกี่ยวข้องกับ Edge Computing และ AI Services ทั่วโลกไม่สามารถใช้งานได้
โดย Workers KV เป็นระบบฐานข้อมูลแบบ Key-Value ที่กระจายตัวไปทั่วโลก และมีการทำงานแบบ Consistent ซึ่งถูกใช้งานโดย Cloudflare Workers ซึ่งเป็นแพลตฟอร์มการประมวลผลแบบ Serverless ของ Cloudflare โดย Workers KV เป็นระบบหลักของบริการหลายส่วนใน Cloudflare และหากเกิดการหยุดทำงานจะส่งผลกระทบไปยังหลายระบบที่เกี่ยวข้อง
เหตุขัดข้องครั้งนี้ดังกล่าวยังส่งผลกระทบต่อบริการอื่น ๆ ที่ใช้งานโดยผู้ใช้งานนับล้าน โดยเฉพาะอย่างยิ่งใน Google Cloud Platform
ในรายงานสรุปเหตุการณ์ ทาง Cloudflare อธิบายว่า เหตุการณ์ระบบล่มครั้งนี้กินเวลานานเกือบ 2.5 ชั่วโมง และสาเหตุหลักเกิดจาก การหยุดทำงานในโครงสร้างพื้นฐานของระบบจัดเก็บข้อมูลของ Workers KV ซึ่งเป็นผลมาจาก เหตุขัดข้องของผู้ให้บริการคลาวด์ภายนอก (Third-party Cloud Provider)
Cloudflare ระบุว่า สาเหตุของเหตุการณ์ระบบล่มครั้งนี้เกิดจากการหยุดทำงานในโครงสร้างพื้นฐานของระบบจัดเก็บข้อมูลที่ใช้งานอยู่เบื้องหลังบริการ Workers KV ซึ่งเป็นระบบสำคัญของ Cloudflare เช่น การตั้งค่าระบบ, การยืนยันตัวตน และการส่งมอบไฟล์ต่าง ๆ สำหรับบริการที่ได้รับผลกระทบ
โครงสร้างพื้นฐานบางส่วนนี้ทำงานบนระบบคลาวด์ของผู้ให้บริการภายนอก ซึ่งเกิดเหตุระบบล่ม และส่งผลกระทบโดยตรงต่อความพร้อมใช้งานของ KV service
Cloudflare ได้พิจารณาผลกระทบของเหตุการณ์ที่เกิดขึ้นต่อแต่ละบริการ
Workers KV เกิดการหยุดทำงานถึง 90.22% เนื่องจากไม่สามารถเข้าถึงที่เก็บข้อมูลในเบื้องหลังได้ ส่งผลกระทบต่อการอ่าน และเขียนข้อมูลที่ไม่ถูกแคชทั้งหมด
Access, WARP, Gateway ประสบปัญหาการหยุดทำงานในการยืนยันตัวตน, การจัดการเซสชัน และการบังคับใช้นโยบาย เนื่องจากต้องทำงานร่วมกับ Workers KV ทำให้ WARP ไม่สามารถลงทะเบียนอุปกรณ์ใหม่ได้ และเกิดความขัดข้องในการทำงานของ Gateway ทั้งการทำ Proxy และการทำ DoH query
Dashboard, Turnstile, Challenges เกิดความล้มเหลวในการเข้าสู่ระบบ และการตรวจสอบ CAPTCHA โดยมีความเสี่ยงของการใช้ token reuse เนื่องจากมีการเปิดใช้ kill switch บน Turnstile
Browser Isolation & Browser Rendering ไม่สามารถ initiate หรือ maintain เซสชันที่ใช้ link-based และการแสดงผลเบราว์เซอร์ได้ เนื่องจากการหยุดทำงานในส่วนของ Access และ Gateway
Stream, Images, Pages เกิดการหยุดทำงานในส่วนของ Stream playback, live streaming, การอัปโหลดภาพสำเร็จ 0%, และการสร้าง/ให้บริการ Pages มีอัตราความล้มเหลวสูงถึงประมาณเกือบ 100%
Workers AI & AutoRAG ไม่สามารถใช้งานได้ เนื่องจากต้องอาศัย KV ในการกำหนดค่าโมเดล การกำหนดเส้นทาง และฟังก์ชันการจัดทำ indexing
Durable Objects, D1, Queues บริการที่สร้างขึ้นบนเลเยอร์การจัดเก็บข้อมูลเดียวกันกับ KV มีอัตรา errors สูงถึง 22% หรือไม่สามารถใช้งาน message queuing และการจัดการข้อมูลได้อย่างสมบูรณ์
Realtime & AI Gateway ประสบปัญหาการหยุดให้บริการเกือบทั้งหมด เนื่องจากไม่สามารถดึงการตั้งค่าจาก Workers KV ได้ โดย Realtime TURN/SFU requests และ AI Gateway requests ได้รับผลกระทบอย่างหนัก
Zaraz & Workers Assets ตรวจพบการหยุดทำงานทั้งหมด โดยมีบางส่วนเป็นการโหลด หรืออัปเดตการตั้งค่า และไฟล์แบบ static assets ซึ่งส่งผลกระทบต่อผู้ใช้งานในขอบเขตที่จำกัด
CDN, Workers for Platforms, Workers Builds ตรวจพบความหน่วงเพิ่มขึ้น และความผิดพลาดในบาง regional พร้อมกับการสร้าง Workers ใหม่ล้มเหลว 100% ในช่วงเหตุการณ์
เพื่อตอบสนองต่อเหตุการณ์หยุดทำงานครั้งนี้ Cloudflare ระบุว่า จะเร่งดำเนินการปรับปรุงหลายรายการเน้นด้านความยืดหยุ่นเป็นหลัก โดยเฉพาะการยกเลิกการพึ่งพาผู้ให้บริการคลาวด์รายเดียวสำหรับ Workers KV backend storage
โดยจะมีการย้าย central store ของ KV ไปยังระบบ R2 object storage ของ Cloudflare เอง เพื่อลดการพึ่งพาผู้ให้บริการภายนอก
Cloudflare ยังวางแผนที่จะติดตั้งมาตรการ cross-service safeguards และพัฒนาเครื่องมือใหม่ ๆ เพื่อช่วยฟื้นฟูการหยุดทำงานของระบบจัดเก็บข้อมูล พร้อมทั้งป้องกันการเพิ่มขึ้นของปริมาณการรับส่งข้อมูลที่อาจสูงขึ้นบนระบบที่กำลังกู้คืน และทำให้เกิดการหยุดทำงานครั้งที่สอง
ที่มา : bleepingcomputer.