
นักวิจัยได้พัฒนาการโจมตีรูปแบบใหม่ที่สามารถขโมยข้อมูลของผู้ใช้ได้ โดยการแทรก prompt ที่เป็นอันตรายลงในรูปภาพ ซึ่งรูปภาพดังกล่าวจะถูกประมวลผลโดยระบบ AI ก่อนส่งต่อไปยัง Large Language Model
วิธีการนี้อาศัยภาพที่มีความละเอียดสูง ซึ่งบรรจุคำสั่งที่มองไม่เห็นด้วยตาเปล่า แต่คำสั่งเหล่านี้จะปรากฏขึ้นเมื่อคุณภาพของภาพถูกลดทอนลงผ่านอัลกอริทึมการปรับขนาดภาพ (resampling algorithms)
การโจมตีดังกล่าวถูกพัฒนาขึ้นโดยนักวิจัยจากบริษัท Trail of Bits ที่มีชื่อว่า Kikimora Morozova และ Suha Sabi Hussain โดยเป็นการต่อยอดมาจากทฤษฎีที่นำเสนอในงานวิจัยของ USENIX เมื่อปี 2020 โดยมหาวิทยาลัย TU Braunschweig ในเยอรมนี ซึ่งได้สำรวจความเป็นไปได้ของการโจมตีด้วยการปรับขนาดภาพในระบบ machine learning
วิธีการทำงานของการโจมตี
เมื่อผู้ใช้อัปโหลดรูปภาพไปยังระบบ AI รูปภาพเหล่านี้จะถูกลดขนาดลงโดยอัตโนมัติให้มีคุณภาพต่ำลง เพื่อเพิ่มประสิทธิภาพในการประมวลผล และลดค่าใช้จ่าย
อัลกอริทึมการปรับขนาดภาพสามารถทำให้ไฟล์ภาพมีขนาดเล็กลงได้ด้วยวิธีการต่าง ๆ เช่น nearest neighbor, bilinear หรือ bicubic interpolation ซึ่งจะขึ้นอยู่กับแต่ละระบบที่ใช้
วิธีการทั้งหมดนี้จะก่อให้เกิดความคลาดเคลื่อนทางสัญญาณภาพที่เรียกว่า "aliasing artifact" ซึ่งจะทำให้เกิดรูปแบบที่ซ่อนไว้ปรากฏขึ้นมาบนภาพที่ถูกลดขนาดลง หากภาพต้นฉบับถูกสร้างขึ้นมาเพื่อจุดประสงค์นี้โดยเฉพาะ
ในตัวอย่างของ Trail of Bits พบว่าพื้นที่มืดบางส่วนของภาพที่เป็นอันตรายจะเปลี่ยนเป็นสีแดง ทำให้ข้อความที่ซ่อนไว้อยู่ปรากฏขึ้นมาเป็นสีดำ เมื่อภาพถูกประมวลผลด้วยการลดขนาดแบบ bicubic

โมเดล AI จะตีความข้อความนี้ว่าเป็นส่วนหนึ่งของคำสั่งจากผู้ใช้ และจะนำไปรวมกับข้อมูลที่ผู้ใช้ป้อนเข้ามาอย่างถูกต้องโดยอัตโนมัติ
จากมุมมองของผู้ใช้ จะดูเหมือนไม่มีอะไรผิดปกติ แต่ในความเป็นจริงแล้วโมเดลได้ทำตามคำสั่งที่ซ่อนอยู่ ซึ่งอาจนำไปสู่การรั่วไหลของข้อมูล หรือการกระทำที่มีความเสี่ยงอื่น ๆ ได้
ในตัวอย่างหนึ่งที่เกี่ยวข้องกับ Gemini CLI นักวิจัยสามารถดึงข้อมูลจาก Google Calendar ออกมาส่งไปยังอีเมลใดก็ได้ โดยอาศัยการใช้ Zapier MCP ที่ตั้งค่า 'trust=True' เพื่ออนุมัติการเรียกใช้เครื่องมือโดยไม่ต้องผ่านการยืนยันจากผู้ใช้
Trail of Bits ได้อธิบายว่าการโจมตีนี้จำเป็นต้องถูกปรับแก้ให้เข้ากับโมเดล AI แต่ละตัว ตามอัลกอริทึมที่ใช้ในการลดขนาดภาพ อย่างไรก็ตาม นักวิจัยยืนยันว่าวิธีการนี้สามารถใช้ได้ผลกับระบบ AI ดังต่อไปนี้ :
- Google Gemini CLI
- Vertex AI Studio (with Gemini backend)
- Gemini's web interface
- Gemini's API via the llm CLI
- Google Assistant on an Android phone
- Genspark
เนื่องจากช่องทางการโจมตีนี้มีการแพร่หลายเป็นวงกว้างแล้ว จึงอาจส่งผลกระทบกับเครื่องมืออื่น ๆ นอกเหนือจากที่ได้ทดสอบไปแล้ว นอกจากนี้ เพื่อสาธิตการค้นพบของพวกเขา นักวิจัยยังได้สร้าง และเผยแพร่ Anamorpher (ปัจจุบันยังอยู่ในเวอร์ชันเบต้า) ซึ่งเป็นเครื่องมือโอเพนซอร์สที่สามารถสร้างภาพสำหรับการโจมตีด้วยวิธีลดขนาดแต่ละรูปแบบที่กล่าวมาได้
นักวิจัยให้เหตุผลว่า สำหรับมาตรการลดความเสี่ยง และการป้องกัน นักวิจัยจาก Trail of Bits แนะนำให้ระบบ AI ใช้การจำกัดขนาดมิติของรูปภาพเมื่อผู้ใช้อัปโหลด และหากจำเป็นต้องลดขนาดภาพ พวกเขาแนะนำให้แสดงภาพตัวอย่างของผลลัพธ์ที่จะถูกส่งไปยังแบบ Large language model (LLM) ให้ผู้ใช้ดูก่อน
นอกจากนี้ พวกเขายังเสนอว่าควรให้ผู้ใช้ยืนยันอย่างชัดเจนก่อนที่จะใช้ฟังก์ชันสำคัญต่าง ๆ โดยเฉพาะเมื่อระบบตรวจพบข้อความในภาพที่อัปโหลดเข้ามา
นักวิจัยได้อ้างอิงถึงงานวิจัยที่ถูกเผยแพร่เมื่อเดือนมิถุนายนซึ่งเกี่ยวกับแนวทางการออกแบบ LLM ที่สามารถต้านทานการโจมตีแบบ prompt injection ได้ โดยระบุว่า "แนวทางการป้องกันที่แข็งแกร่งที่สุด คือการออกแบบระบบให้ปลอดภัยตั้งแต่ต้น และนำการป้องกันอย่างเป็นระบบมาใช้ เพื่อบรรเทาผลกระทบจากการโจมตีแบบ prompt injection ที่นอกเหนือไปจากการโจมตีแบบ multi-modal prompt injection"
ที่มา : bleepingcomputer

You must be logged in to post a comment.