Cloudflare ยืนยันการหยุดให้บริการของระบบไม่ได้เกิดจากเหตุการณ์ด้านความปลอดภัย ข้อมูลยังคงปลอดภัย

Cloudflare ออกมายืนยันว่าเหตุการณ์ระบบล่มครั้งใหญ่เมื่อวันที่ 12 มิถุนายน 2025 ไม่ได้เกิดจากเหตุการณ์ด้านความปลอดภัย และไม่มีข้อมูลสูญหาย

ปัญหานี้ได้รับการแก้ไขในระดับหนึ่งแล้ว โดยเหตุการณ์เริ่มต้นเมื่อเวลา 17:52 UTC ของวันที่ 12 มิถุนายน 2025 เมื่อระบบ Workers KV (Key-Value) หยุดทำงาน ส่งผลให้บริการจำนวนมากที่เกี่ยวข้องกับ Edge Computing และ AI Services ทั่วโลกไม่สามารถใช้งานได้

โดย Workers KV เป็นระบบฐานข้อมูลแบบ Key-Value ที่กระจายตัวไปทั่วโลก และมีการทำงานแบบ Consistent ซึ่งถูกใช้งานโดย Cloudflare Workers ซึ่งเป็นแพลตฟอร์มการประมวลผลแบบ Serverless ของ Cloudflare โดย Workers KV เป็นระบบหลักของบริการหลายส่วนใน Cloudflare และหากเกิดการหยุดทำงานจะส่งผลกระทบไปยังหลายระบบที่เกี่ยวข้อง

เหตุขัดข้องครั้งนี้ดังกล่าวยังส่งผลกระทบต่อบริการอื่น ๆ ที่ใช้งานโดยผู้ใช้งานนับล้าน โดยเฉพาะอย่างยิ่งใน Google Cloud Platform

ในรายงานสรุปเหตุการณ์ ทาง Cloudflare อธิบายว่า เหตุการณ์ระบบล่มครั้งนี้กินเวลานานเกือบ 2.5 ชั่วโมง และสาเหตุหลักเกิดจาก การหยุดทำงานในโครงสร้างพื้นฐานของระบบจัดเก็บข้อมูลของ Workers KV ซึ่งเป็นผลมาจาก เหตุขัดข้องของผู้ให้บริการคลาวด์ภายนอก (Third-party Cloud Provider)

Cloudflare ระบุว่า สาเหตุของเหตุการณ์ระบบล่มครั้งนี้เกิดจากการหยุดทำงานในโครงสร้างพื้นฐานของระบบจัดเก็บข้อมูลที่ใช้งานอยู่เบื้องหลังบริการ Workers KV ซึ่งเป็นระบบสำคัญของ Cloudflare เช่น การตั้งค่าระบบ, การยืนยันตัวตน และการส่งมอบไฟล์ต่าง ๆ สำหรับบริการที่ได้รับผลกระทบ

โครงสร้างพื้นฐานบางส่วนนี้ทำงานบนระบบคลาวด์ของผู้ให้บริการภายนอก ซึ่งเกิดเหตุระบบล่ม และส่งผลกระทบโดยตรงต่อความพร้อมใช้งานของ KV service

Cloudflare ได้พิจารณาผลกระทบของเหตุการณ์ที่เกิดขึ้นต่อแต่ละบริการ

  • Workers KV เกิดการหยุดทำงานถึง 90.22% เนื่องจากไม่สามารถเข้าถึงที่เก็บข้อมูลในเบื้องหลังได้ ส่งผลกระทบต่อการอ่าน และเขียนข้อมูลที่ไม่ถูกแคชทั้งหมด
  • Access, WARP, Gateway ประสบปัญหาการหยุดทำงานในการยืนยันตัวตน, การจัดการเซสชัน และการบังคับใช้นโยบาย เนื่องจากต้องทำงานร่วมกับ Workers KV ทำให้ WARP ไม่สามารถลงทะเบียนอุปกรณ์ใหม่ได้ และเกิดความขัดข้องในการทำงานของ Gateway ทั้งการทำ Proxy และการทำ DoH query
  • Dashboard, Turnstile, Challenges เกิดความล้มเหลวในการเข้าสู่ระบบ และการตรวจสอบ CAPTCHA โดยมีความเสี่ยงของการใช้ token reuse เนื่องจากมีการเปิดใช้ kill switch บน Turnstile
  • Browser Isolation & Browser Rendering ไม่สามารถ initiate หรือ maintain เซสชันที่ใช้ link-based และการแสดงผลเบราว์เซอร์ได้ เนื่องจากการหยุดทำงานในส่วนของ Access และ Gateway
  • Stream, Images, Pages เกิดการหยุดทำงานในส่วนของ Stream playback, live streaming, การอัปโหลดภาพสำเร็จ 0%, และการสร้าง/ให้บริการ Pages มีอัตราความล้มเหลวสูงถึงประมาณเกือบ 100%
  • Workers AI & AutoRAG ไม่สามารถใช้งานได้ เนื่องจากต้องอาศัย KV ในการกำหนดค่าโมเดล การกำหนดเส้นทาง และฟังก์ชันการจัดทำ indexing
  • Durable Objects, D1, Queues บริการที่สร้างขึ้นบนเลเยอร์การจัดเก็บข้อมูลเดียวกันกับ KV มีอัตรา errors สูงถึง 22% หรือไม่สามารถใช้งาน message queuing และการจัดการข้อมูลได้อย่างสมบูรณ์
  • Realtime & AI Gateway ประสบปัญหาการหยุดให้บริการเกือบทั้งหมด เนื่องจากไม่สามารถดึงการตั้งค่าจาก Workers KV ได้ โดย Realtime TURN/SFU requests และ AI Gateway requests ได้รับผลกระทบอย่างหนัก
  • Zaraz & Workers Assets ตรวจพบการหยุดทำงานทั้งหมด โดยมีบางส่วนเป็นการโหลด หรืออัปเดตการตั้งค่า และไฟล์แบบ static assets ซึ่งส่งผลกระทบต่อผู้ใช้งานในขอบเขตที่จำกัด
  • CDN, Workers for Platforms, Workers Builds ตรวจพบความหน่วงเพิ่มขึ้น และความผิดพลาดในบาง regional พร้อมกับการสร้าง Workers ใหม่ล้มเหลว 100% ในช่วงเหตุการณ์

เพื่อตอบสนองต่อเหตุการณ์หยุดทำงานครั้งนี้ Cloudflare ระบุว่า จะเร่งดำเนินการปรับปรุงหลายรายการเน้นด้านความยืดหยุ่นเป็นหลัก โดยเฉพาะการยกเลิกการพึ่งพาผู้ให้บริการคลาวด์รายเดียวสำหรับ Workers KV backend storage

โดยจะมีการย้าย central store ของ KV ไปยังระบบ R2 object storage ของ Cloudflare เอง เพื่อลดการพึ่งพาผู้ให้บริการภายนอก

Cloudflare ยังวางแผนที่จะติดตั้งมาตรการ cross-service safeguards และพัฒนาเครื่องมือใหม่ ๆ เพื่อช่วยฟื้นฟูการหยุดทำงานของระบบจัดเก็บข้อมูล พร้อมทั้งป้องกันการเพิ่มขึ้นของปริมาณการรับส่งข้อมูลที่อาจสูงขึ้นบนระบบที่กำลังกู้คืน และทำให้เกิดการหยุดทำงานครั้งที่สอง

ที่มา : bleepingcomputer.com