
เปิดตัว Typhoon OCR: โมเดลโอเพ่นซอร์สช่วยดึงข้อมูลจากไฟล์เอกสารและรูปภาพด้วย Vision-Language รองรับทั้งภาษาไทยและอังกฤษ
New ReleaseTyphoon OCROCRVision Language

Table of Contents
ต่อไปนี้การดึงข้อความเนื้อหาออกจากไฟล์เอกสารหรือไฟล์รูปภาพจำนวนมากจะไม่ใช่เรื่องปวดหัวอีกต่อไป พวกเราขอภูมิใจนำเสนอ Typhoon OCR: โมเดลโอเพ่นซอร์สรุ่นใหม่สำหรับการอ่านวิเคราะห์ไฟล์เอกสารและไฟล์รูปด้วยเทคโนโลยี Vision-Language ที่ออกแบบมาเพื่อรองรับกรณีใช้งานจริงในภาษาอังกฤษและภาษาไทย เหมาะสำหรับการใช้ดึงข้อมูลจากไฟล์รูปภาพหรือไฟล์เอกสาร รวมถึงให้ AI ช่วยสรุปเนื้อหา วิเคราะห์ หรือต่อยอดต่างๆ
ข้อจำกัดของระบบ OCR แบบดั้งเดิม
ระบบ OCR แบบดั้งเดิมมักใช้ Convolutional Neural Networks (CNNs) ในการตรวจจับภาพร่วมกับ sequence decoder อย่าง RNNs หรือ Transformers ในการแปลงภาพเป็นข้อความ ระบบเหล่านี้แม้จะสามารถรู้จำตัวอักษรได้ดี แต่ก็มีข้อจำกัดเมื่อใช้งานกับเอกสารจริงที่มีรูปแบบซับซ้อนหรือคุณภาพไม่สม่ำเสมอ
นอกจากนี้ ถึงแม้ว่าเฟรมเวิร์ก OCR ชื่อดัง เช่น EasyOCR, PaddleOCR และ Tesseract จะรองรับหลายภาษา รวมถึงภาษาไทย แต่ก็ยังพบข้อจำกัดสำคัญเมื่อใช้งานกับเอกสารในชีวิตจริง ไม่ว่าจะเป็น
-
ขาดความเข้าใจโครงสร้างเอกสาร: มักประมวลผลเอกสารเป็นข้อความแบนๆ ทำให้ไม่สามารถแยกแยะตาราง หัวข้อ คอลัมน์ หรือเนื้อหาหลายรูปแบบได้
-
ไม่เข้าใจการตีความรูปภาพ: เนื้อหาภาพ เช่น แผนภูมิ แผนผัง และรูปภาพ มักถูกมองข้าม ทำให้ผลลัพธ์ไม่สมบูรณ์
-
รองรับ PDF แต่สูญเสีย metadata: ระบบส่วนใหญ่มักแปลง PDF เป็นภาพ ทำให้สูญเสีย metadata สำคัญ เช่น ลำดับการอ่าน ตำแหน่งของข้อความ และคำอธิบาย
-
สูญเสียบริบทของเอกสาร: เครื่องมือดั้งเดิมนั้นประมวลผลในระดับ token หรือบรรทัด โดยไม่เข้าใจเนื้อหาทั้งเอกสาร ส่งผลให้ไม่รองรับงานที่ต้องการบริบท เช่น ความสามารถในการสรุป การเชื่อมโยงข้อมูล หรือการค้นหาอัจฉริยะ
Typhoon OCR ทลายข้อจำกัดและนำเสนอความสามารถที่ใช้งานได้จริง
เพื่อแก้ปัญหาข้างต้น เทคโนโลยีอย่าง Vision-Language Models (VLMs) ได้เข้ามามีบทบาท โดยผสมผสานการรับรู้ภาพเข้ากับความเข้าใจภาษาธรรมชาติ โมเดล OCR ที่ขับเคลื่อนด้วย VLM สามารถตีความโครงสร้างเอกสาร เข้าใจเนื้อหา และเจตนาของเอกสาร โดยไม่ต้องพึ่งพากระบวนการแบบฮาร์ดโค้ดที่ซับซ้อน
Typhoon OCR เป็นโมเดลโอเพ่นซอร์สแบบสองภาษาที่พัฒนาขึ้นเพื่อรองรับเอกสารภาษาไทยและอังกฤษที่ใช้งานจริงในชีวิตประจำวันและชีวิตการทำงาน โดยได้รับแรงบันดาลใจจากโมเดลอย่าง olmOCR พร้อมด้วยสถาปัตยกรรมที่ออกแบบใหม่ให้มีคุณสมบัติดังนี้
-
ใช้งานได้หลากหลาย ถึงแม้เอกสารจะมีฟอร์แมตไม่คงที่
-
เข้าใจโครงสร้างเอกสาร และสามารถถ่ายทอดเลย์เอาต์อย่างถูกต้องในผลลัพธ์
Typhoon OCR ไม่เพียงแต่แยกข้อความออกจากภาพ แต่ยังสามารถสร้างผลลัพธ์ที่มีโครงสร้างชัดเจนและรักษาเลย์เอาต์ไว้ได้ เหมาะกับงานต่อยอดต่าง ๆ เช่น
-
การสร้างข้อมูลเพื่อการสืบค้น (Retrieval-Augmented Generation - RAG)
-
การแยกวิเคราะห์และเข้าใจเอกสาร
-
การอ่านตาราง แผนภูมิ และแบบฟอร์มอย่างแม่นยำ
รองรับเอกสารที่ใช้งานจริงในชีวิตประจำวัน
Typhoon OCR ถูกออกแบบมาให้รองรับเอกสารรูปแบบหลากหลาย ทั้ง PDF และไฟล์ภาพ ตั้งแต่เอกสารทางการไปจนถึงเนื้อหาที่ไม่เป็นทางการ โดยยังคงรักษาโครงสร้างและความหมายไว้ได้อย่างครบถ้วน
สำหรับไฟล์ PDF: ใช้ metadata ที่ฝังอยู่ เช่น ลำดับการอ่าน ขอบเขตข้อความ และ annotation เพื่อเพิ่มความแม่นยำและรักษาโครงสร้างเอกสาร
สำหรับไฟล์รูปภาพ (JPEG, PNG): แม้ไม่มี metadata ก็ยังสามารถคงโครงสร้างได้ด้วยการวิเคราะห์จากภาพโดยตรง
เอกสารแบบมีโครงสร้าง
รองรับเอกสารที่มีโครงสร้างชัดเจน เช่น รายงานการเงิน บทความวิชาการ หนังสือ และแบบฟอร์มราชการ
รูปแบบผลลัพธ์:
-
Markdown สำหรับข้อความทั่วไป
-
HTML สำหรับตาราง (รวมถึงเซลล์ที่รวมกันและเลย์เอาต์ซับซ้อน)
-
ภาพ แผนภูมิ และแผนผัง ใช้แท็ก
<figure>
เพื่อให้สามารถเข้าใจข้อมูลภาพแบบมีโครงสร้าง
แต่ละ <figure>
ผ่านการวิเคราะห์หลายชั้น ได้แก่:
-
การสังเกต: ตรวจจับองค์ประกอบ เช่น อาคาร บุคคล โลโก้ หรือข้อความในภาพ
-
การวิเคราะห์บริบท: หาข้อมูลเพิ่มเติมจากบริบท เช่น สถานที่ เหตุการณ์ หรือส่วนของเอกสาร
-
การรู้จำข้อความ: ดึงข้อความจากภาพ เช่น หัวข้อ แกนกราฟ หรือคำอธิบาย และแปลความตามภาษา
-
การวิเคราะห์เชิงศิลป์และโครงสร้าง: อธิบายลักษณะกราฟฟิก รูปแบบการจัดวาง หรือโทนสีที่สื่อเจตนาเอกสาร
-
สรุปขั้นสุดท้าย: รวมทุกองค์ประกอบเป็นคำอธิบายภาพที่มีโครงสร้าง พร้อมสำหรับงานอย่างการสรุปหรือการค้นคืนข้อมูล
เอกสารที่มีเลย์เอาต์ซับซ้อนหรือไม่เป็นทางการ
Typhoon OCR ยังสามารถรองรับเอกสารประเภทอื่น ๆ ได้อย่างแม่นยำ เช่น อินโฟกราฟิก ใบเสร็จ เมนู ตั๋ว และลายมือ
รูปแบบผลลัพธ์: Markdown พร้อมตารางและโครงสร้างที่รักษาเลย์เอาต์เดิม
เดโมตัวอย่างการใช้งานจริง
ตารางการเงิน: แยกข้อมูลจากตารางที่มีความซับซ้อนได้อย่างแม่นยำ รวมถึงเซลล์ที่ merge รวมกันที่อาจเกิดขึ้น ก็ไม่ทำให้การทำงานมีปัญหา
รูปภาพจาก: scb.co.th
แผนภูมิ: สามารถอ่านรูปภาพกราฟต่างๆ และแปลงข้อมูลเชิงสถิติเป็นข้อความ Markdown ที่เข้าใจง่าย
รูปภาพจาก: scb.co.th
เอกสารราชการ: Typhoon OCR รองรับการถอดเอกสารราชการและ รองรับระบบตัวเลขไทย ความแม่นยำสูงถึง ๙๙.๙๙๙ เปอร์เซนต์ (99.999%)
อินโฟกราฟิก: เข้าใจข้อความในภาพอินโฟกราฟิก แม้ว่าจะเป็นอะไรที่ไดนามิกไม่มีแบบฟอร์มตายตัวชัดเจน ผลลัพธ์การอ่านมีความผิดพลาดน้อยกว่า 0.0001%
รูปภาพจาก: ลงทุนแมน
ลายมือ: อ่านลายมือรูปแบบหลากหลายได้ โดยอาจมีข้อผิดพลาดเล็กน้อยโดยเฉลี่ยเพียง 0.1% ขึ้นอยู่กับลายมือ
ใบเสร็จและบิล: ทดสอบแล้วพบว่ารองรับเอกสารที่หลากหลาย ถึงแม้จะอยู่ภายนอกขอบเขตที่ทางเราตั้งใจเทรนโดยเฉพาะ อย่างเอกสารเช่น บิลค่าน้ำ ค่าไฟ
การประเมินผลประสิทธิภาพของโมเดล
เราใช้ metrics มาตรฐานที่นิยมในงาน OCR และการสร้างข้อความเพื่อประเมินคุณภาพของ Typhoon OCR ได้แก่:
-
BLEU – วัดความแม่นยำของ n-gram (ยิ่งสูงยิ่งดี)
-
ROUGE-L – วัดความใกล้เคียงในเชิงโครงสร้าง (ยิ่งสูงยิ่งดี)
-
Levenshtein Distance – วัดความแตกต่างระดับตัวอักษร (ยิ่งต่ำยิ่งดี)
เราเปรียบเทียบ Typhoon OCR กับโมเดลระดับแนวหน้า ทั้งแบบที่มี metadata จาก PDF และแบบภาพล้วน ได้แก่ GPT-4o (2024-11-20) และ Gemini 2.5 Flash Preview (2025-04-17) โดยใช้ชุดข้อมูลภาษาไทยที่เรารวบรวมขึ้นเอง
📈 รายงานเอกสารทางการเงินภาษาไทย
🏛️ เอกสารราชการไทย
📖 หนังสือภาษาไทย
สรุปผล
จากผลการประเมินข้างต้นพบว่า Typhoon OCR มีประสิทธิภาพเหนือกว่า GPT-4o และ Gemini 2.5 Flash อย่างชัดเจนในการประมวลผลเอกสารภาษาไทย โดยเฉพาะเอกสารที่มีเลย์เอาต์ซับซ้อนและเนื้อหาหลายภาษา
สำหรับเอกสารประเภทหนังสือ แม้ Typhoon OCR จะยังทำงานได้ดี แต่พบว่ามีจุดที่สามารถปรับปรุงได้โดยเฉพาะการตีความภาพแฝงหลากหลายประเภท ซึ่งเป็นโอกาสในการพัฒนาฟีเจอร์ <figure>
ในอนาคต
เป้าหมายหลักของเวอร์ชันนี้คือการให้ผลลัพธ์ OCR ที่แม่นยำและเข้าใจได้ทั้งภาษาไทยและอังกฤษ โดยจะมีการขยายความสามารถด้านการวิเคราะห์ภาพในรุ่นถัดไป
ลองใช้ Typhoon OCR ได้แล้ววันนี้
ตัวอย่างการดึงข้อความจากเอกสารภาษาอังกฤษด้วย Typhoon OCR Playground
ตัวอย่างการดึงข้อความจากเอกสารภาษาไทยด้วย Typhoon OCR Playground
ไม่ว่าคุณจะต้องแยกข้อมูลจากตารางซับซ้อน ดึงข้อมูลจากฟอร์มหลายภาษา หรือวิเคราะห์เอกสารที่มีภาพหลากหลาย Typhoon OCR พร้อมแล้วที่จะเปลี่ยนวิธีที่คุณจัดการกับไฟล์ข้อมูลเหล่านี้
🔍 ทดลองใช้งานได้ที่ OCR Playground – อัปโหลดภาพหรือ PDF หน้าต่อหน้าแล้วดูผลลัพธ์ได้ทันที
🤗 ดาวน์โหลด model weight จาก Hugging Face – นำไปปรับใช้หรือเทรนต่อได้ทันที
⚙️ ใช้งานผ่าน API – สามารถใช้งาน Typhoon OCR ผ่าน API ได้แล้ว เหมาะสำหรับการใช้งานจริงที่เข้มข้นที่ต้องการรับมือการหลายเอกสาร ดูรายละเอียดการใช้ API ได้ที่ docs.opentyphoon.ai