การโจมตีด้วย AI รูปแบบใหม่ซ่อนคำสั่งขโมยข้อมูลไว้ในภาพที่ถูกย่อขนาด

นักวิจัยได้พัฒนาการโจมตีรูปแบบใหม่ที่สามารถขโมยข้อมูลของผู้ใช้ได้ โดยการแทรก prompt ที่เป็นอันตรายลงในรูปภาพ ซึ่งรูปภาพดังกล่าวจะถูกประมวลผลโดยระบบ AI ก่อนส่งต่อไปยัง Large Language Model

วิธีการนี้อาศัยภาพที่มีความละเอียดสูง ซึ่งบรรจุคำสั่งที่มองไม่เห็นด้วยตาเปล่า แต่คำสั่งเหล่านี้จะปรากฏขึ้นเมื่อคุณภาพของภาพถูกลดทอนลงผ่านอัลกอริทึมการปรับขนาดภาพ (resampling algorithms)

การโจมตีดังกล่าวถูกพัฒนาขึ้นโดยนักวิจัยจากบริษัท Trail of Bits ที่มีชื่อว่า Kikimora Morozova และ Suha Sabi Hussain โดยเป็นการต่อยอดมาจากทฤษฎีที่นำเสนอในงานวิจัยของ USENIX เมื่อปี 2020 โดยมหาวิทยาลัย TU Braunschweig ในเยอรมนี ซึ่งได้สำรวจความเป็นไปได้ของการโจมตีด้วยการปรับขนาดภาพในระบบ machine learning

วิธีการทำงานของการโจมตี

เมื่อผู้ใช้อัปโหลดรูปภาพไปยังระบบ AI รูปภาพเหล่านี้จะถูกลดขนาดลงโดยอัตโนมัติให้มีคุณภาพต่ำลง เพื่อเพิ่มประสิทธิภาพในการประมวลผล และลดค่าใช้จ่าย

อัลกอริทึมการปรับขนาดภาพสามารถทำให้ไฟล์ภาพมีขนาดเล็กลงได้ด้วยวิธีการต่าง ๆ เช่น nearest neighbor, bilinear หรือ bicubic interpolation ซึ่งจะขึ้นอยู่กับแต่ละระบบที่ใช้

วิธีการทั้งหมดนี้จะก่อให้เกิดความคลาดเคลื่อนทางสัญญาณภาพที่เรียกว่า "aliasing artifact" ซึ่งจะทำให้เกิดรูปแบบที่ซ่อนไว้ปรากฏขึ้นมาบนภาพที่ถูกลดขนาดลง หากภาพต้นฉบับถูกสร้างขึ้นมาเพื่อจุดประสงค์นี้โดยเฉพาะ

ในตัวอย่างของ Trail of Bits พบว่าพื้นที่มืดบางส่วนของภาพที่เป็นอันตรายจะเปลี่ยนเป็นสีแดง ทำให้ข้อความที่ซ่อนไว้อยู่ปรากฏขึ้นมาเป็นสีดำ เมื่อภาพถูกประมวลผลด้วยการลดขนาดแบบ bicubic

โมเดล AI จะตีความข้อความนี้ว่าเป็นส่วนหนึ่งของคำสั่งจากผู้ใช้ และจะนำไปรวมกับข้อมูลที่ผู้ใช้ป้อนเข้ามาอย่างถูกต้องโดยอัตโนมัติ

จากมุมมองของผู้ใช้ จะดูเหมือนไม่มีอะไรผิดปกติ แต่ในความเป็นจริงแล้วโมเดลได้ทำตามคำสั่งที่ซ่อนอยู่ ซึ่งอาจนำไปสู่การรั่วไหลของข้อมูล หรือการกระทำที่มีความเสี่ยงอื่น ๆ ได้

ในตัวอย่างหนึ่งที่เกี่ยวข้องกับ Gemini CLI นักวิจัยสามารถดึงข้อมูลจาก Google Calendar ออกมาส่งไปยังอีเมลใดก็ได้ โดยอาศัยการใช้ Zapier MCP ที่ตั้งค่า 'trust=True' เพื่ออนุมัติการเรียกใช้เครื่องมือโดยไม่ต้องผ่านการยืนยันจากผู้ใช้

Trail of Bits ได้อธิบายว่าการโจมตีนี้จำเป็นต้องถูกปรับแก้ให้เข้ากับโมเดล AI แต่ละตัว ตามอัลกอริทึมที่ใช้ในการลดขนาดภาพ อย่างไรก็ตาม นักวิจัยยืนยันว่าวิธีการนี้สามารถใช้ได้ผลกับระบบ AI  ดังต่อไปนี้ :

  • Google Gemini CLI
  • Vertex AI Studio (with Gemini backend)
  • Gemini's web interface
  • Gemini's API via the llm CLI
  • Google Assistant on an Android phone
  • Genspark

เนื่องจากช่องทางการโจมตีนี้มีการแพร่หลายเป็นวงกว้างแล้ว จึงอาจส่งผลกระทบกับเครื่องมืออื่น ๆ นอกเหนือจากที่ได้ทดสอบไปแล้ว นอกจากนี้ เพื่อสาธิตการค้นพบของพวกเขา นักวิจัยยังได้สร้าง และเผยแพร่ Anamorpher (ปัจจุบันยังอยู่ในเวอร์ชันเบต้า) ซึ่งเป็นเครื่องมือโอเพนซอร์สที่สามารถสร้างภาพสำหรับการโจมตีด้วยวิธีลดขนาดแต่ละรูปแบบที่กล่าวมาได้

นักวิจัยให้เหตุผลว่า สำหรับมาตรการลดความเสี่ยง และการป้องกัน นักวิจัยจาก Trail of Bits แนะนำให้ระบบ AI ใช้การจำกัดขนาดมิติของรูปภาพเมื่อผู้ใช้อัปโหลด และหากจำเป็นต้องลดขนาดภาพ พวกเขาแนะนำให้แสดงภาพตัวอย่างของผลลัพธ์ที่จะถูกส่งไปยังแบบ Large language model (LLM) ให้ผู้ใช้ดูก่อน

นอกจากนี้ พวกเขายังเสนอว่าควรให้ผู้ใช้ยืนยันอย่างชัดเจนก่อนที่จะใช้ฟังก์ชันสำคัญต่าง ๆ โดยเฉพาะเมื่อระบบตรวจพบข้อความในภาพที่อัปโหลดเข้ามา

นักวิจัยได้อ้างอิงถึงงานวิจัยที่ถูกเผยแพร่เมื่อเดือนมิถุนายนซึ่งเกี่ยวกับแนวทางการออกแบบ LLM ที่สามารถต้านทานการโจมตีแบบ prompt injection ได้ โดยระบุว่า "แนวทางการป้องกันที่แข็งแกร่งที่สุด คือการออกแบบระบบให้ปลอดภัยตั้งแต่ต้น และนำการป้องกันอย่างเป็นระบบมาใช้ เพื่อบรรเทาผลกระทบจากการโจมตีแบบ prompt injection ที่นอกเหนือไปจากการโจมตีแบบ multi-modal prompt injection"

ที่มา : bleepingcomputer