ThaiOCRBench: Benchmark ใหม่สำหรับงาน Vision–Language ที่ใช้กับเอกสารภาษาไทยโดยเฉพาะ

พวกเรามีความยินดีที่จะอัปเดตทุกคนเกี่ยวกับผลงาน ThaiOCRBench: A Task-Diverse Benchmark for Vision-Language Understanding in Thai ได้รับการตอบรับในการประชุม AACL 2025 ใน Main Conference ซึ่งจะจัดขึ้นวันที่ 20–24 ธันวาคม 2025 ที่เมืองมุมไบ ประเทศอินเดีย

ThaiOCRBench ถูกสร้างขึ้นเพื่อแก้ปัญหาเรื่องการขาดแคลนมาตรฐานในการใช้วัดผลในการทำ AI ภาษาไทย ถึงแม้เทคโนโลยี Vision–Language Models (VLMs) จะก้าวหน้าไปมากทั่วโลกและรองรับภาษาไทยได้ แต่ก็ยังไม่มีเครื่องมือที่น่าเชื่อถือที่ใช้ประเมินความสามารถของโมเดลต่อ “เอกสารภาษาไทย” ได้อย่างครบมิติ ทั้งเรื่องข้อความ ตัวเลขไทย ฟอนต์แบบมีหัวไม่มีหัว เลย์เอาต์หลากหลาย หรือแม้แต่เนื้อหาที่ปนไทยและบาลีสันสกฤต

ThaiOCRBench คือ benchmark แรกที่สร้างมาเพื่อใช้ประเมินความสามารถด้าน VLMs กับงานเอกสารภาษาไทยโดยเฉพาะ

ทำไมเราถึงสร้าง ThaiOCRBench

ThaiOCRBench คือ Benchmark สำหรับประเมินความสามารถของ VLMs ในหลากหลายงาน (Multitask) ในตัวเดียวชุดแรก ออกแบบมาเพื่อประเมินความสามารถของ VLMs สำหรับงานภาพที่มีข้อความภาษาไทยเป็นหลัก พร้อมทั้งสะท้อนลักษณะทางภาษา วัฒนธรรม ตัวอักษรไทย และรูปแบบเอกสารไทยในชีวิตจริงอย่างครบถ้วน โดยสร้างขึ้นมาเพื่อแก้ปัญหาสำคัญดังนี้

1. ก่อนหน้านี้ไม่เคยมี Benchmark สำหรับ VLM ภาษาไทยมาก่อน

Benchmark สำหรับ VLM ที่มีอยู่ส่วนใหญ่ถูกออกแบบมาสำหรับภาษาอังกฤษหรือภาษาที่มีทรัพยากรสูงอื่น ๆ ยังไม่มี benchmark ที่ครอบคลุม และถูกออกแบบมาเพื่อการทำความเข้าใจเอกสารภาษาไทยโดยเฉพาะ แม้ชุดข้อมูลแบบหลายภาษา (multilingual) รุ่นใหม่ ๆ จะรองรับหลายภาษาและมีภาษาไทยในนั้น แต่ก็ยังมี ความหลากหลายของงานไม่เพียงพอ โดยเฉพาะงานที่ต้องเข้าใจโครงสร้าง เช่น ตาราง แผนภูมิ ฟอร์ม และเอกสารลายมือ ซึ่งเป็นจุดอ่อนสำคัญของงานเอกสารไทยในโลกของการทำงานจริง

2. ชุดข้อมูล OCR ภาษาไทยที่มีอยู่ยังแคบเกินไป และไม่สะท้อนความซับซ้อนของเอกสารจริง

เอกสารภาษาไทยประกอบด้วยองค์ประกอบที่หลากหลาย เช่น

ตัวเลขไทย
ตัวอักษรไทย–อังกฤษที่บางตัวมีรูปร่างคล้ายกัน
ข้อความผสมหลายอักขระ (เช่น บาลี/สันสกฤต)
เลย์เอาต์ที่หลากหลาย เช่น ฟอร์ม ตาราง แผนภูมิ อินโฟกราฟิก

แต่ชุดข้อมูล OCR ภาษาไทยส่วนใหญ่รองรับเพียงงาน OCR ระดับบรรทัด หรือ ลายมือ และยังไม่ครอบคลุมความซับซ้อนต่างๆ ได้ที่ยกตัวอย่างไป

3. ยังไม่มีวิธีประเมินความสามารถด้าน Multimodal Reasoning สำหรับภาษาไทยแบบครบวงจร

ก่อนมี ThaiOCRBench เรายังไม่มีกรอบประเมินเดียวที่วัดได้ทั้งงาน OCR, การแยกโครงสร้าง (structure parsing), การดึงข้อมูลเชิงความหมาย (semantic extraction) และงาน VQA ไปพร้อมกันได้

ThaiOCRBench จึงถูกออกแบบมาเพื่อแก้ปัญหาทั้งหมดเหล่านี้

ภาพรวมของ ThaiOCRBench

เราออกแบบ ThaiOCRBench ให้สะท้อนการทำความเข้าใจเอกสารภาษาไทยในโลกความเป็นจริง โดยรวบรวมชุดข้อมูล 2,808 รายการที่ได้รับการตรวจสอบมาแล้ว (human verified) ครอบคลุม 13 งาน ซึ่งแต่ละงานออกแบบมาเพื่อทดสอบความสามารถคนละด้านของโมเดล

ทั้ง 13 งานถูกจัดเป็น 4 กลุ่มใหญ่ ดังนี้:

1) งาน OCR และการรู้จำข้อความ

Full-page OCR — การถอดความข้อความทั้งหน้าเอกสาร
Fine-grained text recognition — การอ่านข้อความขนาดเล็กหรือจุดยาก ๆ ภายในภาพ
Handwriting extraction — การถอดความลายมือภาษาไทย

2) งานเข้าใจโครงสร้างเอกสาร (Structural understanding)

Table parsing — การอ่านและถอดโครงสร้างตาราง
Chart parsing — การตีความแผนภูมิและดึงข้อมูลออกมา
Document parsing — การถอดโครงสร้างเอกสารทั้งหน้า เช่น ข้อความ ตาราง แผนภูมิ ฯลฯ

3) งานดึงข้อมูลสำคัญ (Key-information tasks)

Key information extraction — การดึงค่าหรือข้อมูลที่กำหนดจากเอกสาร
Key information mapping — การจับคู่ข้อมูลกับคีย์ที่ถูกต้องตามความหมาย

4) งานทำความเข้าใจรูปภาพและการให้เหตุผล (Multimodal understanding & reasoning)

Document classification — การจำแนกประเภทเอกสาร
Diagram VQA — การตอบคำถามจากไดอะแกรม
Cognition VQA — การตอบคำถามที่ต้องอ่านข้อมูลจากภาพโดยตรง
Infographics VQA — การตอบคำถามจากอินโฟกราฟิกที่มีทั้งข้อมูลเชิงตัวเลขและเชิงภาพ

งานทั้งหมดนี้เราคัดเลือกมาแล้วว่ามีความครอบคลุมต่อการใช้งาน VLM สำหรับเอกสารภาษาไทย ตั้งแต่การอ่าน การเข้าใจโครงสร้าง การดึงข้อมูลสำคัญ ไปจนถึงการให้เหตุผลจากข้อมูลรูปภาพ

ชุดข้อมูลมีความครอบคลุมกว่า 30 โดเมน เช่น เอกสารราชการ การเงิน อาหารและเครื่องดื่ม การขนส่ง การศึกษา ร้านค้า กฎหมาย และอื่น ๆ ซึ่งมีสัดส่วนทั้งหมดดังนี้

ตัวอย่างงาน

ThaiOCRBench สร้างขึ้นมาอย่างไร

เปเปอร์ของทีมเราเล่ากระบวนการอย่างละเอียดเอาไว้ ซึ่งสรุปออกมาได้เป็น 4 ขั้นตอน ดังนี้

การรวบรวมข้อมูล – รวบรวมภาพถ่ายจริง เอกสารสาธารณะ รวมไปถึงเอกสารสังเคราะห์
การทำอนุกรมวิธานและลบข้อมูลส่วนบุคคล (PII)
การสร้างคำถาม–คำตอบด้วย LLM พร้อมการตรวจสอบโดยมนุษย์
การตรวจคุณภาพรอบสุดท้ายโดยมนุษย์

Benchmark นี้บอกอะไรเรา

ThaiOCRBench ประเมินความสามารถของโมเดลผ่าน 4 metrics ได้แก่

TED สำหรับงานที่เน้นโครงสร้าง

(table parsing, chart parsing, document parsing)
BMFL สำหรับงานถอดความข้อความ

(fine-grained text, full-page OCR, handwriting)
F1 สำหรับงานดึงข้อมูลสำคัญและการจับคู่ข้อมูล (key information extraction & mapping)
ANLS สำหรับงานทำความเข้าใจเชิงความหมายและ VQA

ตารางประเมินด้านล่างเปรียบเทียบโมเดล VLM ทั้งแบบ proprietary และ open-source ด้วย metrics เหล่านี้

ผลการประเมินประสิทธิภาพของ VLMs ด้วย ThaiOCRBench

ประเด็นสำคัญจากผลการประเมิน

โมเดล proprietary ทำงานได้ดี แต่ทุกโมเดลยังมีความไม่สมบูรณ์ในเรื่องการจัดการกับความซับซ้อนของภาษาไทย

Gemini 2.5 Pro ทำคะแนนสูงสุดในหลายงาน ส่วน GPT-4o ตามมาติด ๆ โดยเฉพาะในงาน document classification ที่ทำได้ดีเป็นพิเศษ
Qwen2.5-VL 72B คือโมเดล open-source ที่แข็งแกร่งที่สุด

การฝึกแบบ multilingual และจำนวนพารามิเตอร์ที่ใหญ่ทำให้โมเดลนี้ทำผลงานได้ดี แต่โดยรวมยังตามหลังโมเดล proprietary อยู่
บางงานยากกว่างานอื่นอย่างเห็นได้ชัด
- Fine-grained text recognition คือโจทย์ที่ยากที่สุด
  
  เพราะภาษาไทยมีสระ–วรรณยุกต์ซ้อน ตัวอักษรหัวตัด หรือฟอนต์ตัวอักษรไทย–อังกฤษที่หน้าตาคล้ายกัน
- ลายมือและเอกสารหลายคอลัมน์ ยังคงเป็นงานที่ยาก
  
  โดยเฉพาะลายมือคนจริงหลากหลายแบบและข้อความที่มีไทยปนบาลี/สันสกฤต
- Document classification เป็นงานที่ง่ายที่สุด
  
  เพราะใช้สัญญาณภาพและโครงสร้างโดยรวมมากกว่าความละเอียดระดับอักขระ
เมตริกที่ครอบคลุมเป็นสิ่งสำคัญ

โมเดลอาจดูเหมือนทำได้ดีในงานที่ใช้ TED เพราะโครงสร้างถูกต้อง แม้ข้อความภายในจะผิดพลาด แต่พอใช้เมตริกที่เข้มข้นกว่าอย่าง ANLS หรือ BMFL ความผิดพลาดจะชัดเจนขึ้นทันที

ทำไมโมเดลถึงผิดพลาด

มีจุดอ่อนหลักเกิดขึ้นซ้ำ ๆ อยู่ 3 ประเภท:

Language bias และ code-switching

โมเดลบางครั้งตอบเป็นภาษาอังกฤษหรือผสมภาษา แม้ข้อความตั้งต้นจะเป็นภาษาไทย 100%
Structural mismatch

งานที่พึ่งพาโครงสร้าง เช่น ตาราง ฟอร์ม แผนภูมิ มักมีปัญหาเซลล์ไม่ตรงกัน ขาดแท็ก หรือโครงสร้างเพี้ยน แม้โมเดลจะตีความภาพได้ในระดับหนึ่ง
ข้อความผิดหรือถูกแต่งเติม (hallucination)

เจอได้บ่อยในงาน OCR เช่น ตัวอักษรเกินหายไป วรรณยุกต์ตก หรือสร้างคำที่ไม่มีจริงขึ้นมา

ทั้งหมดนี้ช่วยอธิบายว่าทำไมโมเดลถึงทำคะแนนดีในงานที่ใช้เมตริกแบบโครงสร้าง (เช่น TED) แต่ยังทำได้ไม่ดีในงานที่ต้องการความแม่นยำของตัวอักษร (เช่น BMFL และ ANLS)

โดยรวมแล้ว ตารางผลลัพธ์สะท้อนภาพเดียวกันว่าโมเดลยุคปัจจุบันพอจะจัดการ “โครงสร้างภาพรวม” ได้ แต่ยังมีปัญหามากกับ ความแม่นยำของ OCR ภาษาไทย ความหลากหลายของลายมือ ข้อความหลายอักขระและการอ่านรายละเอียดเล็ก ๆ ในภาพ

ThaiOCRBench เปิดงานวิจัยให้นำไปศึกษาและใช้งานกันต่อได้แล้ว

Paper (arXiv) เอกสารงานวิจัย

https://arxiv.org/abs/2511.04479
Hugging Face Dataset

https://huggingface.co/datasets/scb10x/ThaiOCRBench
GitHub (โค้ดที่ใช้ในการประเมินผล)

https://github.com/scb-10x/ThaiOCRBench

สรุป

“เอกสารภาษาไทยอยู่ทุกที่” ตั้งแต่ภาครัฐ การเงิน การแพทย์ การศึกษา ไปจนถึงธุรกิจรายวัน แต่ที่ผ่านมา ยังไม่มี benchmark ใดที่สะท้อนความซับซ้อนของเอกสารเหล่านี้ได้ครบมิติจริง ๆ ส่งผลให้โมเดล VLM ถูกประเมินด้วยงานที่ไม่สอดคล้องกับการใช้งานจริง

ทีม Typhoon สร้าง ThaiOCRBench ขึ้นมาด้วยโจทย์ที่เรียบง่ายแต่สำคัญ ได้แก่

สร้าง benchmark เดียวแบบมาตรฐาน ที่ครอบคลุมทั้ง OCR ความเข้าใจโครงสร้างเอกสาร และการให้เหตุผลจากข้อมูลหลายโมดาลิตี้
ชุดข้อมูลที่มนุษย์ตรวจสอบคุณภาพแล้ว ครอบคลุม 13 ประเภทงาน กว่า 30 โดเมนเอกสารไทยในโลกจริง
การเปรียบเทียบ โมเดล proprietary และ open-source อย่างเป็นระบบครั้งแรกสำหรับงานเอกสารไทย

ผลลัพธ์ที่ได้ไม่เพียงช่วยชี้ให้เห็นจุดอ่อนของโมเดลปัจจุบัน แต่ยังสร้าง “เส้นทางพัฒนา” ที่ชัดเจน เพื่อให้ AI ภาษาไทยมีความแม่นยำ เข้าถึงง่าย และใช้งานได้จริงมากขึ้นในระบบที่พึ่งพาเอกสารไทยเป็นหลัก

เราหวังว่า Benchmark นี้จะช่วยให้

นักพัฒนามีมาตรฐานกลางในการประเมินความสามารถของโมเดลประเภท VLM
ช่วยผลักดันการสร้างโมเดลที่เข้าใจเอกสารไทยได้แม่นยำกว่าเดิม
เปิดทางให้นักพัฒนานำไปปรับปรุงระบบ OCR, document AI, หรือ agent ภาษาไทยในงานภาครัฐ–เอกชนได้จริง

เตรียมพบกันที่ AACL 2025 ที่มุมไบ

ทีมของเราจะนำผลงานนี้ไปนำเสนอในงาน AACL 2025 ที่จะจัดขึ้นในเร็ว ๆ นี้ ถ้าใครมีโอกาสไปร่วมงาน อย่าลืมแวะมาทักทายและพูดคุยกันได้เลย