Cloudflare ล่ม เนื่องจากการบล็อก URL ฟิชชิ่งที่ผิดพลาด

การพยายามบล็อก URL ฟิชชิ่งในแพลตฟอร์ม R2 object storage ของ Cloudflare เมื่อวานนี้ (6 กุมภาพันธ์ 2025) กลับเกิดข้อผิดพลาด ทำให้เกิดการหยุดการทำงานอย่างกว้างขวาง ซึ่งทำให้บริการหลาย ๆ รายการล่มไปเกือบหนึ่งชั่วโมง

Cloudflare R2 เป็นบริการจัดเก็บข้อมูลแบบอ็อบเจกต์ที่คล้ายกับ Amazon S3 ซึ่งออกแบบมาเพื่อการจัดเก็บข้อมูลที่สามารถขยายขนาดได้, มีความทนทาน และมีค่าใช้จ่ายต่ำ โดยนำเสนอการดึงข้อมูลฟรี ไม่มีค่าใช้จ่าย, ความ compatibility กับ S3, data replication ในหลายสถานที่ และการ integration กับบริการอื่น ๆ ของ Cloudflare

การหยุดการทำงานเกิดขึ้นเมื่อวานนี้ เมื่อเจ้าหน้าที่ของ Cloudflare ตอบสนองต่อรายงานการละเมิดเกี่ยวกับ URL ฟิชชิ่งในแพลตฟอร์ม R2 ของ Cloudflare อย่างไรก็ตาม แทนที่จะบล็อก specific endpoint เจ้าหน้าที่ของ Cloudflare กลับปิดบริการ R2 Gateway ทั้งหมดโดยไม่ตั้งใจ

Cloudflare อธิบายในรายงานหลังเหตุการณ์ "ในระหว่างการแก้ไขการละเมิดตามปกติ ได้มีการดำเนินการตามการร้องเรียนที่ทำให้บริการ R2 Gateway ถูกปิดโดยไม่ได้ตั้งใจ แทนที่จะปิดเฉพาะ specific ndpoint/bucket ที่เกี่ยวข้องกับรายงานนั้น"

“นี่เป็นความล้มเหลวของ system level controls และการฝึกอบรมผู้ปฏิบัติงาน"

เหตุการณ์นี้ใช้เวลานาน 59 นาที ระหว่างเวลา 08:10 ถึง 09:09 UTC และนอกจากการหยุดทำงานของ R2 Object Storage แล้ว ยังส่งผลกระทบต่อบริการอื่น ๆ เช่น

Stream – การอัปโหลดวิดีโอ และการส่งสตรีมมิ่ง ล้มเหลว 100%
Images – การอัปโหลด/ดาวน์โหลดภาพล้มเหลว 100%
Cache Reserve – การดำเนินการล้มเหลว 100% ทำให้มีการ request จากต้นทางเพิ่มขึ้น
Vectorize – ล้มเหลว 75% ในการ queries, ล้มเหลว 100% ในการ insert, upsert และ delete
Log Delivery – ความล่าช้า และการสูญหายของข้อมูล: การสูญหายของข้อมูลสูงสุด 13.6% สำหรับ Logs ที่เกี่ยวข้องกับ R2, การสูญหายของข้อมูลถึง 4.5% สำหรับ delivery jobs ที่ไม่ใช่ R2
Key Transparency Auditor – signature publishing และ read operations ล้มเหลว 100%

นอกจากนี้ยังมีบริการที่ได้รับผลกระทบทางอ้อม ซึ่งประสบปัญหากับการใช้งานบางส่วน เช่น Durable Objects ที่มีอัตราการเกิดข้อผิดพลาดเพิ่มขึ้น 0.09% เนื่องจากการเชื่อมต่อใหม่หลังการกู้คืน, Cache Purge ที่มีข้อผิดพลาดเพิ่มขึ้น 1.8% (HTTP 5xx) และการหน่วงเวลาเพิ่มขึ้น 10 เท่า, และ Workers & Pages ที่มีข้อผิดพลาดในการ deployment 0.002% ซึ่งส่งผลกระทบเฉพาะโปรเจกต์ที่มีการเชื่อมต่อกับ R2 เท่านั้น

Cloudflare ระบุว่าทั้ง human error และการขาดกลไกป้องกัน เช่น การตรวจสอบความถูกต้องสำหรับการดำเนินการที่ส่งผลกระทบร้ายแรง เป็นปัจจัยสำคัญที่ทำให้เกิดเหตุการณ์นี้

Cloudflare ได้ดำเนินการแก้ไขเบื้องต้นแล้ว เช่น การนำความสามารถในการปิดระบบออกจากอินเทอร์เฟซตรวจสอบการละเมิด และเพิ่มข้อจำกัดใน Admin API เพื่อป้องกันการปิดบริการโดยไม่ได้ตั้งใจ

มาตรการเพิ่มเติมที่จะนำมาใช้ในอนาคต ได้แก่ การปรับปรุงกระบวนการสร้างบัญชี, การควบคุมสิทธิ์การเข้าถึงที่เข้มงวดขึ้น และกระบวนการ two-party approval สำหรับการดำเนินการที่มีความเสี่ยงสูง

ในเดือนพฤศจิกายน 2024 Cloudflare ประสบกับเหตุการณ์หยุดทำงานครั้งสำคัญอีกครั้งเป็นเวลานาน 3.5 ชั่วโมง ส่งผลให้ Logs ในบริการสูญหายอย่างถาวรถึง 55%

เหตุการณ์ดังกล่าวเกิดจากความล้มเหลวต่อเนื่อง (cascading failures) ในระบบลดผลกระทบอัตโนมัติของ Cloudflare ซึ่งถูกทริกเกอร์โดยการตั้งค่าที่ไม่ถูกต้องไปยังส่วนประกอบสำคัญในระบบ Logging pipeline ของบริษัท

 

ที่มา : bleepingcomputer.