Typhoon Logo
TYPHOON
เปิดตัว Typhoon OCR: โมเดลโอเพ่นซอร์สช่วยดึงข้อมูลจากไฟล์เอกสารและรูปภาพด้วย Vision-Language รองรับทั้งภาษาไทยและอังกฤษ

เปิดตัว Typhoon OCR: โมเดลโอเพ่นซอร์สช่วยดึงข้อมูลจากไฟล์เอกสารและรูปภาพด้วย Vision-Language รองรับทั้งภาษาไทยและอังกฤษ

New Release
Typhoon OCR
OCR
Vision Language

พลาดไม่ได้กับ Typhoon OCR เป็นระบบ OCR แบบโอเพ่นซอร์สล่าสุดที่มีประสิทธิภาพสูงกว่า GPT-4o และ Gemini 2.5 Flash ในการเข้าใจเอกสารภาษาไทย

Surapon Nonesung

Surapon Nonesung

16 พฤษภาคม 2568

เปิดตัว Typhoon OCR: โมเดลโอเพ่นซอร์สช่วยดึงข้อมูลจากไฟล์เอกสารและรูปภาพด้วย Vision-Language รองรับทั้งภาษาไทยและอังกฤษ

ต่อไปนี้การดึงข้อความเนื้อหาออกจากไฟล์เอกสารหรือไฟล์รูปภาพจำนวนมากจะไม่ใช่เรื่องปวดหัวอีกต่อไป พวกเราขอภูมิใจนำเสนอ Typhoon OCR: โมเดลโอเพ่นซอร์สรุ่นใหม่สำหรับการอ่านวิเคราะห์ไฟล์เอกสารและไฟล์รูปด้วยเทคโนโลยี Vision-Language ที่ออกแบบมาเพื่อรองรับกรณีใช้งานจริงในภาษาอังกฤษและภาษาไทย เหมาะสำหรับการใช้ดึงข้อมูลจากไฟล์รูปภาพหรือไฟล์เอกสาร รวมถึงให้ AI ช่วยสรุปเนื้อหา วิเคราะห์ หรือต่อยอดต่างๆ

ข้อจำกัดของระบบ OCR แบบดั้งเดิม

ระบบ OCR แบบดั้งเดิมมักใช้ Convolutional Neural Networks (CNNs) ในการตรวจจับภาพร่วมกับ sequence decoder อย่าง RNNs หรือ Transformers ในการแปลงภาพเป็นข้อความ ระบบเหล่านี้แม้จะสามารถรู้จำตัวอักษรได้ดี แต่ก็มีข้อจำกัดเมื่อใช้งานกับเอกสารจริงที่มีรูปแบบซับซ้อนหรือคุณภาพไม่สม่ำเสมอ

นอกจากนี้ ถึงแม้ว่าเฟรมเวิร์ก OCR ชื่อดัง เช่น EasyOCR, PaddleOCR และ Tesseract จะรองรับหลายภาษา รวมถึงภาษาไทย แต่ก็ยังพบข้อจำกัดสำคัญเมื่อใช้งานกับเอกสารในชีวิตจริง ไม่ว่าจะเป็น

  • ขาดความเข้าใจโครงสร้างเอกสาร: มักประมวลผลเอกสารเป็นข้อความแบนๆ ทำให้ไม่สามารถแยกแยะตาราง หัวข้อ คอลัมน์ หรือเนื้อหาหลายรูปแบบได้

  • ไม่เข้าใจการตีความรูปภาพ: เนื้อหาภาพ เช่น แผนภูมิ แผนผัง และรูปภาพ มักถูกมองข้าม ทำให้ผลลัพธ์ไม่สมบูรณ์

  • รองรับ PDF แต่สูญเสีย metadata: ระบบส่วนใหญ่มักแปลง PDF เป็นภาพ ทำให้สูญเสีย metadata สำคัญ เช่น ลำดับการอ่าน ตำแหน่งของข้อความ และคำอธิบาย

  • สูญเสียบริบทของเอกสาร: เครื่องมือดั้งเดิมนั้นประมวลผลในระดับ token หรือบรรทัด โดยไม่เข้าใจเนื้อหาทั้งเอกสาร ส่งผลให้ไม่รองรับงานที่ต้องการบริบท เช่น ความสามารถในการสรุป การเชื่อมโยงข้อมูล หรือการค้นหาอัจฉริยะ

Typhoon OCR ทลายข้อจำกัดและนำเสนอความสามารถที่ใช้งานได้จริง

เพื่อแก้ปัญหาข้างต้น เทคโนโลยีอย่าง Vision-Language Models (VLMs) ได้เข้ามามีบทบาท โดยผสมผสานการรับรู้ภาพเข้ากับความเข้าใจภาษาธรรมชาติ โมเดล OCR ที่ขับเคลื่อนด้วย VLM สามารถตีความโครงสร้างเอกสาร เข้าใจเนื้อหา และเจตนาของเอกสาร โดยไม่ต้องพึ่งพากระบวนการแบบฮาร์ดโค้ดที่ซับซ้อน

Typhoon OCR เป็นโมเดลโอเพ่นซอร์สแบบสองภาษาที่พัฒนาขึ้นเพื่อรองรับเอกสารภาษาไทยและอังกฤษที่ใช้งานจริงในชีวิตประจำวันและชีวิตการทำงาน โดยได้รับแรงบันดาลใจจากโมเดลอย่าง olmOCR พร้อมด้วยสถาปัตยกรรมที่ออกแบบใหม่ให้มีคุณสมบัติดังนี้

  • ใช้งานได้หลากหลาย ถึงแม้เอกสารจะมีฟอร์แมตไม่คงที่

  • เข้าใจโครงสร้างเอกสาร และสามารถถ่ายทอดเลย์เอาต์อย่างถูกต้องในผลลัพธ์

Typhoon OCR ไม่เพียงแต่แยกข้อความออกจากภาพ แต่ยังสามารถสร้างผลลัพธ์ที่มีโครงสร้างชัดเจนและรักษาเลย์เอาต์ไว้ได้ เหมาะกับงานต่อยอดต่าง ๆ เช่น

  • การสร้างข้อมูลเพื่อการสืบค้น (Retrieval-Augmented Generation - RAG)

  • การแยกวิเคราะห์และเข้าใจเอกสาร

  • การอ่านตาราง แผนภูมิ และแบบฟอร์มอย่างแม่นยำ

รองรับเอกสารที่ใช้งานจริงในชีวิตประจำวัน

Typhoon OCR ถูกออกแบบมาให้รองรับเอกสารรูปแบบหลากหลาย ทั้ง PDF และไฟล์ภาพ ตั้งแต่เอกสารทางการไปจนถึงเนื้อหาที่ไม่เป็นทางการ โดยยังคงรักษาโครงสร้างและความหมายไว้ได้อย่างครบถ้วน

สำหรับไฟล์ PDF: ใช้ metadata ที่ฝังอยู่ เช่น ลำดับการอ่าน ขอบเขตข้อความ และ annotation เพื่อเพิ่มความแม่นยำและรักษาโครงสร้างเอกสาร

สำหรับไฟล์รูปภาพ (JPEG, PNG): แม้ไม่มี metadata ก็ยังสามารถคงโครงสร้างได้ด้วยการวิเคราะห์จากภาพโดยตรง

เอกสารแบบมีโครงสร้าง

รองรับเอกสารที่มีโครงสร้างชัดเจน เช่น รายงานการเงิน บทความวิชาการ หนังสือ และแบบฟอร์มราชการ

รูปแบบผลลัพธ์:

  • Markdown สำหรับข้อความทั่วไป

  • HTML สำหรับตาราง (รวมถึงเซลล์ที่รวมกันและเลย์เอาต์ซับซ้อน)

  • ภาพ แผนภูมิ และแผนผัง ใช้แท็ก <figure> เพื่อให้สามารถเข้าใจข้อมูลภาพแบบมีโครงสร้าง

แต่ละ <figure> ผ่านการวิเคราะห์หลายชั้น ได้แก่:

  • การสังเกต: ตรวจจับองค์ประกอบ เช่น อาคาร บุคคล โลโก้ หรือข้อความในภาพ

  • การวิเคราะห์บริบท: หาข้อมูลเพิ่มเติมจากบริบท เช่น สถานที่ เหตุการณ์ หรือส่วนของเอกสาร

  • การรู้จำข้อความ: ดึงข้อความจากภาพ เช่น หัวข้อ แกนกราฟ หรือคำอธิบาย และแปลความตามภาษา

  • การวิเคราะห์เชิงศิลป์และโครงสร้าง: อธิบายลักษณะกราฟฟิก รูปแบบการจัดวาง หรือโทนสีที่สื่อเจตนาเอกสาร

  • สรุปขั้นสุดท้าย: รวมทุกองค์ประกอบเป็นคำอธิบายภาพที่มีโครงสร้าง พร้อมสำหรับงานอย่างการสรุปหรือการค้นคืนข้อมูล

เอกสารที่มีเลย์เอาต์ซับซ้อนหรือไม่เป็นทางการ

Typhoon OCR ยังสามารถรองรับเอกสารประเภทอื่น ๆ ได้อย่างแม่นยำ เช่น อินโฟกราฟิก ใบเสร็จ เมนู ตั๋ว และลายมือ

รูปแบบผลลัพธ์: Markdown พร้อมตารางและโครงสร้างที่รักษาเลย์เอาต์เดิม

เดโมตัวอย่างการใช้งานจริง

ตารางการเงิน: แยกข้อมูลจากตารางที่มีความซับซ้อนได้อย่างแม่นยำ รวมถึงเซลล์ที่ merge รวมกันที่อาจเกิดขึ้น ก็ไม่ทำให้การทำงานมีปัญหา

Financial Statement Tabular Information Extraction Demo

รูปภาพจาก: scb.co.th

แผนภูมิ: สามารถอ่านรูปภาพกราฟต่างๆ และแปลงข้อมูลเชิงสถิติเป็นข้อความ Markdown ที่เข้าใจง่าย

OCR Chart

รูปภาพจาก: scb.co.th

เอกสารราชการ: Typhoon OCR รองรับการถอดเอกสารราชการและ รองรับการอ่านตัวเลขไทย

OCR Thai Government Documents

อินโฟกราฟิก: เข้าใจข้อความในภาพอินโฟกราฟิก แม้ว่าจะเป็นอะไรที่ไดนามิกไม่มีแบบฟอร์มตายตัวชัดเจน

Typhoon OCR infographic sample

รูปภาพจาก: ลงทุนแมน

ลายมือ: อ่านลายมือรูปแบบหลากหลายได้ โดยอาจมีข้อผิดพลาดเล็กน้อยขึ้นอยู่กับลายมือ

Typhoon OCR handwritten notes

ใบเสร็จและบิล: ทดสอบแล้วพบว่ารองรับเอกสารที่หลากหลาย ถึงแม้จะอยู่ภายนอกขอบเขตที่ทางเราตั้งใจเทรนโดยเฉพาะ อย่างเอกสารเช่น บิลค่าน้ำ ค่าไฟ

Typhoon OCR bills

การประเมินผลประสิทธิภาพของโมเดล

เราใช้ metrics มาตรฐานที่นิยมในงาน OCR และการสร้างข้อความเพื่อประเมินคุณภาพของ Typhoon OCR ได้แก่:

  • BLEU – วัดความแม่นยำของ n-gram (ยิ่งสูงยิ่งดี)

  • ROUGE-L – วัดความใกล้เคียงในเชิงโครงสร้าง (ยิ่งสูงยิ่งดี)

  • Levenshtein Distance – วัดความแตกต่างระดับตัวอักษร (ยิ่งต่ำยิ่งดี)

เราเปรียบเทียบ Typhoon OCR กับโมเดลระดับแนวหน้า ทั้งแบบที่มี metadata จาก PDF และแบบภาพล้วน ได้แก่ GPT-4o (2024-11-20) และ Gemini 2.5 Flash Preview (2025-04-17) โดยใช้ชุดข้อมูลภาษาไทยที่เรารวบรวมขึ้นเอง

📈 รายงานเอกสารทางการเงินภาษาไทย

Typhoon OCR Performance in Thai Financial Reports

🏛️ เอกสารราชการไทย

Typhoon OCR Performance in Thai Government forms

📖 หนังสือภาษาไทย

Typhoon OCR Performance in Thai books

สรุปผล

จากผลการประเมินข้างต้นพบว่า Typhoon OCR มีประสิทธิภาพเหนือกว่า GPT-4o และ Gemini 2.5 Flash อย่างชัดเจนในการประมวลผลเอกสารภาษาไทย โดยเฉพาะเอกสารที่มีเลย์เอาต์ซับซ้อนและเนื้อหาหลายภาษา

สำหรับเอกสารประเภทหนังสือ แม้ Typhoon OCR จะยังทำงานได้ดี แต่พบว่ามีจุดที่สามารถปรับปรุงได้โดยเฉพาะการตีความภาพแฝงหลากหลายประเภท ซึ่งเป็นโอกาสในการพัฒนาฟีเจอร์ <figure> ในอนาคต

เป้าหมายหลักของเวอร์ชันนี้คือการให้ผลลัพธ์ OCR ที่แม่นยำและเข้าใจได้ทั้งภาษาไทยและอังกฤษ โดยจะมีการขยายความสามารถด้านการวิเคราะห์ภาพในรุ่นถัดไป

คำแนะนำในการใช้ Typhoon OCR

Typhoon OCR เป็นโมเดล OCR ทั่วไป (General OCR) ที่ทำงานได้กับเอกสารหลากหลายประเภทที่ไม่ได้มีรูปแบบที่ตายตัวเฉพาะเจาะจงมาก

ตัวอย่าง

Typhoon OCR เหมาะกับ

  • อินโฟกราฟิก
  • เอกสารทางการเงิน
  • หนังสือ
  • เอกสารทั่วไป

❌ Typhoon OCR ไม่ได้เหมาะ หรือ optimized มาสำหรับงานเฉพาะทาง เช่น

  • ป้ายทะเบียนรถ
  • บัตรประชาชน

การใช้โปรแกรม OCR เฉพาะทางไปเลย จะมีขนาดเล็ก ประหยัดทรัพยากร และทำงานได้ดีกว่าการใช้ General OCR

ลองใช้ Typhoon OCR ได้แล้ววันนี้

English PDF extraction

ตัวอย่างการดึงข้อความจากเอกสารภาษาอังกฤษด้วย Typhoon OCR Playground
Thai PDF extraction

ตัวอย่างการดึงข้อความจากเอกสารภาษาไทยด้วย Typhoon OCR Playground

ไม่ว่าคุณจะต้องแยกข้อมูลจากตารางซับซ้อน ดึงข้อมูลจากฟอร์มหลายภาษา หรือวิเคราะห์เอกสารที่มีภาพหลากหลาย Typhoon OCR พร้อมแล้วที่จะเปลี่ยนวิธีที่คุณจัดการกับไฟล์ข้อมูลเหล่านี้

🔍 ทดลองใช้งานได้ที่ OCR Playground – อัปโหลดภาพหรือ PDF หน้าต่อหน้าแล้วดูผลลัพธ์ได้ทันที

🤗 ดาวน์โหลด model weight จาก Hugging Face – นำไปปรับใช้หรือเทรนต่อได้ทันที

⚙️ ใช้งานผ่าน API – สามารถใช้งาน Typhoon OCR ผ่าน API ได้แล้ว เหมาะสำหรับการใช้งานจริงที่เข้มข้นที่ต้องการรับมือการหลายเอกสาร ดูรายละเอียดการใช้ API ได้ที่ docs.opentyphoon.ai