ช่องโหว่ระดับ Critical ใน Apache Tika PDF Parser อาจทำให้ผู้โจมตีเข้าถึงข้อมูลสำคัญได้

มีการค้นพบช่องโหว่ด้านความปลอดภัยระดับ Critical ใน PDF parser module ของ Apache Tika ที่อาจทำให้ผู้โจมตีสามารถเข้าถึงข้อมูลสำคัญ และสั่งให้ระบบส่ง requests ที่เป็นอันตรายไปยังระบบภายในได้

ช่องโหว่ดังกล่าวมีหมายเลข CVE-2025-54988 ส่งผลกระทบต่อหลายเวอร์ชันของไลบรารีสำหรับ document parsing ที่ใช้งานกันอย่างแพร่หลาย และได้รับการจัดระดับความรุนแรงจากนักวิจัยด้านความปลอดภัยให้อยู่ในระดับ Critical

ภาพรวมของช่องโหว่ XXE

ช่องโหว่ดังกล่าวมีสาเหตุมาจาก XML External Entity (XXE) injection ใน PDF parser module ของ Apache Tika (org.apache.tika:tika-parser-pdf-module)

นักวิจัยด้านความปลอดภัย Paras Jain และ Yakov Shafranovich จาก Amazon พบว่าเวอร์ชัน 1.13 ถึง 3.2.1 มีความเสี่ยงที่จะถูกโจมตีผ่านไฟล์ XFA (XML Forms Architecture) ที่ถูกสร้างขึ้นมาเป็นพิเศษ และฝังไว้ในเอกสาร PDF

ช่องทางการโจมตีคือ อาศัยการแก้ไขเนื้อหา XFA ภายในไฟล์ PDF เพื่อทำให้เกิดการประมวลผล XXE ที่อาจนำไปสู่การเปิดเผยข้อมูลโดยไม่ได้รับอนุญาต และการโจมตีแบบ Server-Side Request Forgery (SSRF)

เทคโนโลยี XFA ที่พัฒนาโดย Adobe ช่วยให้เอกสาร PDF สามารถมีเนื้อหาแบบ dynamic form โดยใช้โครงสร้างแบบ XML ได้ อย่างไรก็ตาม การจัดการการอ้างอิง entity ภายนอกที่ไม่เหมาะสมในโครงสร้าง XML เหล่านี้ กลับเป็นการเปิดช่องทางให้ผู้โจมตีสามารถใช้ประโยชน์เพื่อการโจมตีได้

ช่องโหว่ดังกล่าวส่งผลกระทบต่อแพ็กเกจต่าง ๆ ของ Apache Tika ที่ต้องพึ่งพา PDF parser module ได้แก่ tika-parsers-standard-modules, tika-parsers-standard-package, tika-app, tika-grpc และ tika-server-standard

ผลกระทบในวงกว้างเช่นนี้ ทำให้เพิ่มความเสี่ยงต่อการถูกโจมตีอย่างมากในสภาพแวดล้อมขององค์กรที่ต้องใช้ Tika ในการประมวลผลเอกสาร

แนวทางการป้องกัน และการแก้ไข

ผู้เชี่ยวชาญด้านความปลอดภัยได้เน้นย้ำถึงความเร่งด่วนในการแก้ไขช่องโหว่นี้ เนื่องจากมีความเสี่ยงที่อาจนำไปสู่การขโมยข้อมูลสำคัญ และการสำรวจเครือข่ายภายในองค์กรได้

ผู้โจมตีสามารถใช้ประโยชน์จากช่องโหว่ของ XXE เพื่ออ่านไฟล์ภายในเครื่อง, เข้าถึงทรัพยากรบนเครือข่ายภายใน หรือบังคับให้ระบบที่มีช่องโหว่ส่ง request ไปยังเซิร์ฟเวอร์ที่ผู้โจมตีควบคุม ซึ่งอาจนำไปสู่การรั่วไหลของข้อมูล หรือการโจมตีระบบอื่น ๆ เพิ่มเติมได้

องค์กรที่ใช้งานเวอร์ชันที่ได้รับผลกระทบ ควรอัปเกรดเป็น Apache Tika เวอร์ชัน 3.2.2 โดยทันที ซึ่งในเวอร์ชันนี้มีการแก้ไขด้านความปลอดภัยที่จำเป็นเพื่อจัดการกับช่องโหว่ XXE ดังกล่าวแล้ว

Apache Software Foundation ได้ออกเวอร์ชันที่แก้ไขแล้วนี้มาโดยเฉพาะ เพื่อลดความเสี่ยงด้านความปลอดภัยที่ตรวจพบ

ผู้ดูแลระบบควรนำมาตรการรักษาความปลอดภัยเพิ่มเติมมาปรับใช้ด้วย ได้แก่ การตรวจสอบความถูกต้องของข้อมูลนำเข้า (input validation) สำหรับไฟล์ PDF ที่มีการอัปโหลด, การแบ่งส่วนเครือข่าย (Network Segmentation) เพื่อจำกัดผลกระทบที่อาจเกิดขึ้นจากการโจมตีแบบ XXE และการเฝ้าระวัง (Monitoring) การติดตามตรวจสอบกิจกรรมที่น่าสงสัยในการประมวลผล XML

เนื่องจากช่องโหว่นี้มีความรุนแรงระดับ Critical ประกอบกับการใช้งาน Apache Tika อย่างแพร่หลายในกระบวนการประมวลผลเอกสารขององค์กร ทีมรักษาความปลอดภัยควรให้ความสำคัญการอัปเดตนี้เป็นอันดับแรกในแผนการจัดการช่องโหว่ขององค์กร

ที่มา : cybersecuritynews