ต่อไปนี้การดึงข้อความเนื้อหาออกจากไฟล์เอกสารหรือไฟล์รูปภาพจำนวนมากจะไม่ใช่เรื่องปวดหัวอีกต่อไป พวกเราขอภูมิใจนำเสนอ Typhoon OCR 1.5: เวอร์ชันล่าสุดของ Typhoon OCR โมเดลโอเพนซอร์สสำหรับงานอ่านและทำความเข้าใจเอกสารด้วย Vision-Language สำหรับเอกสารภาษาไทยและอังกฤษ
เวอร์ชันใหม่นี้ให้ความเร็วในการประมวลผลสูงขึ้น มีความแม่นยำมากขึ้นในเอกสารที่มีลายมือหรือแบบฟอร์ม และสามารถรับมือทั้งเอกสารที่เต็มไปด้วยข้อความหรือภาพได้ดีขึ้น — ทั้งหมดนี้ในโมเดลที่ เล็กลงและมีประสิทธิภาพมากกว่าเดิม
ข้อจำกัดของเทคโนโลยี OCR แบบดั้งเดิม
ระบบ OCR แบบดั้งเดิมมักใช้ Convolutional Neural Networks (CNNs) ในการตรวจจับภาพร่วมกับ sequence decoder อย่าง RNNs หรือ Transformers ในการแปลงภาพเป็นข้อความ ระบบเหล่านี้แม้จะสามารถรู้จำตัวอักษรได้ดี แต่ก็มีข้อจำกัดเมื่อใช้งานกับเอกสารจริงที่มีรูปแบบซับซ้อนหรือคุณภาพไม่สม่ำเสมอ
นอกจากนี้ ถึงแม้ว่าเฟรมเวิร์ก OCR ชื่อดัง เช่น EasyOCR, PaddleOCR และ Tesseract จะรองรับหลายภาษา รวมถึงภาษาไทย แต่ก็ยังพบข้อจำกัดสำคัญเมื่อใช้งานกับเอกสารในชีวิตจริง ไม่ว่าจะเป็น
-
ขาดความเข้าใจโครงสร้างเอกสาร: มักประมวลผลเอกสารเป็นข้อความแบนๆ ทำให้ไม่สามารถแยกแยะตาราง หัวข้อ คอลัมน์ หรือเนื้อหาหลายรูปแบบได้
-
ไม่เข้าใจการตีความรูปภาพ: เนื้อหาภาพ เช่น แผนภูมิ แผนผัง และรูปภาพ มักถูกมองข้าม ทำให้ผลลัพธ์ไม่สมบูรณ์
-
รองรับ PDF แต่สูญเสีย metadata: ระบบส่วนใหญ่มักแปลง PDF เป็นภาพ ทำให้สูญเสีย metadata สำคัญ เช่น ลำดับการอ่าน ตำแหน่งของข้อความ และคำอธิบาย
-
สูญเสียบริบทของเอกสาร: เครื่องมือดั้งเดิมนั้นประมวลผลในระดับ token หรือบรรทัด โดยไม่เข้าใจเนื้อหาทั้งเอกสาร ส่งผลให้ไม่รองรับงานที่ต้องการบริบท เช่น ความสามารถในการสรุป การเชื่อมโยงข้อมูล หรือการค้นหาอัจฉริยะ
เพื่อแก้ปัญหาเหล่านี้ Vision-Language Models (VLMs) ได้กลายเป็นแนวทางใหม่
VLM ช่วยให้ระบบ OCR เข้าใจว่า “ข้อความคืออะไร” อีกทั้งยังเข้าใจ “ข้อความนั้นอยู่ตรงไหน” และ “เข้าใจเจตนาของเอกสารโดยรวม” โดยไม่ต้องพึ่งพากระบวนการแบบฮาร์ดโค้ดที่ซับซ้อน
เส้นทางการพัฒนา Typhoon OCR
Typhoon OCR คือโมเดลโอเพนซอร์สสำหรับถอดข้อความจากเอกสารภาษาไทย–อังกฤษ ถูกออกแบบมาเพื่อรองรับเอกสารจริงที่พบเจอในบริบทประเทศไทย
สิ่งที่ต่างจากระบบ OCR แบบดั้งเดิมคือ Typhoon OCR ไม่ได้คืนค่าเพียงข้อความ แต่ให้ผลลัพธ์ที่คงโครงสร้างและคงรูปแบบหน้าตาเอกสารได้ดี
เหมาะสำหรับงานอย่าง:
-
Retrieval-Augmented Generation (RAG)
-
การประมวลผลและทำความเข้าใจเอกสารแบบครบวงจร
-
การอ่านตาราง กราฟ ฟอร์ม และส่วนประกอบอื่น ๆ อย่างแม่นยำ
ตั้งแต่การเปิดตัวครั้งแรกเมื่อเดือนพฤษภาคมที่ผ่านมา Typhoon OCR ได้รับการใช้งานอย่างกว้างขวางทั้งจากนักพัฒนาอิสระและองค์กรขนาดใหญ่ และเป็นแรงผลักดันให้เกิดความสนใจในโมเดลวิสัยทัศน์ภาษาไทยอย่างกว้างขวางขึ้น
Typhoon OCR 1.5 เรานำพื้นฐานเดิมมายกระดับให้สูงขึ้นไปอีก เวอร์ชันนี้ปรับปรุงด้านความเร็ว และประสิทธิภาพในการใช้งานจริง พร้อมการถอดลายมือที่ดีขึ้น การทำงานแบบ prompt เดียว และการประมวลผลที่เร็วขึ้นในทุกอุปกรณ์
อัปเดตใหม่ของTyphoon OCR 1.5
Typhoon OCR 1.5 ไม่ใช่เพียงโมเดลที่เล็กลง แต่ยังเป็น OCR ที่ เร็วกว่า ฉลาดกว่า และเหมาะกับงานจริงมากกว่าเดิม
1. สถาปัตยกรรมขนาดกะทัดรัด ประสิทธิภาพสูงกว่าเดิม
พัฒนาต่อยอดมาจาก Qwen3-VL 2B ทำให้โมเดลมีขนาดเล็กลงอย่างมากแต่ยังคงความสามารถสูงด้วยการทำ quantization และการปรับแต่งสถาปัตยกรรม ทำให้เวอร์ชันนี้รันได้อย่างลื่นไหลบน CPU หรืออุปกรณ์ edge
ผลลัพธ์คือ เร็วขึ้น ใช้ทรัพยากรน้อยลง แต่ความแม่นยำไม่ลดลง
2. ไม่ต้องพึ่งพา PDF Metadata อีกต่อไป
ต่างจากเวอร์ชันก่อน ที่ใช้ metadata ภายใน PDF เพื่อสร้างโครงสร้างหน้าเอกสาร เวอร์ชัน 1.5 อ่านข้อมูลในภาพโดยตรง ทำให้เร็วขึ้น อีกทั้งยังรองรับสแกน ภาพถ่ายมือถือ และเอกสารเก่าได้ดีขึ้น และใช้งานง่ายขึ้นในระบบ production
3. ทำงานด้วย Prompt เดียว
จากเดิมต้องใช้ prompt 2 แบบ (system + user)
ตอนนี้ Typhoon OCR 1.5 ใช้ prompt เดียว ให้ผลลัพธ์ที่คงเส้นคงวาและเข้าใจง่าย ช่วยลดความซับซ้อนในการ integrate หรือ fine-tune
4. รองรับการอ่านลายมือและแบบฟอร์มได้ดีขึ้นอีกระดับ
การอ่านลายมือเป็นโจทย์ที่ท้าทายเสมอสำหรับ OCR ในเวอร์ชันนี้ความแม่นยำของลายมือและแบบฟอร์มเพิ่มขึ้นอย่างชัดเจน ทั้งในฟอร์มราชการ ใบเสร็จ และโน้ต
5. ความสามารถสมดุลระหว่างเอกสารที่เต็มไปด้วยข้อความและภาพ
ไม่ว่าคุณจะประมวลผลรายงานข้อความยาว หรืออินโฟกราฟิกที่เต็มไปด้วยภาพประกอบ เวอร์ชันนี้จัดการได้ทั้งสองแบบอย่างลงตัว โดยไม่จำเป็นต้องคอยเปลี่ยนโหมดเหมือนเวอร์ขันที่ผ่านมา
รูปแบบผลลัพธ์ (Output Format)
Typhoon OCR 1.5 ให้ผลลัพธ์ที่เป็นโครงสร้างมาตรฐานพร้อมใช้งานในระบบ RAG, LLM pipeline และฐานข้อมูลเชิงโครงสร้าง
-
Markdown – ข้อความทั่วไป
-
HTML – ตาราง รวมถึงตารางซับซ้อนและเซลล์รวม
-
<figure>– แทนรูปภาพ กราฟ แผนภูมิExample:
<figure> A bar chart comparing domestic and export revenue growth between Q1 and Q2 2025. </figure> -
LaTeX – สมการคณิตศาสตร์
Example:
$$ \text{Profit Margin} = \frac{\text{Net Profit}}{\text{Total Revenue}} \times 100 $$ -
<page_number>– ระบุหมายเลขหน้าExample:
<page_number>1</page_number>
เดโมตัวอย่างการใช้งานจริง
เราทดสอบใช้งาน Typhoon OCR 1.5 กับเอกสารหลากหลายประเภท ด้านล่างนี้เป็นตัวอย่างผลลัพธ์ที่ได้จากการใช้งานกับเอกสารต่างๆ
อินโฟกราฟิก:
มีความสามารถโดดเด่นในการทำความเข้าใจข้อความที่อยู่ภายในภาพ พร้อมรักษารูปแบบและโครงสร้างของหน้าเอกสารได้อย่างแม่นยำ แม้ในงานที่มีหลายภาษา หรือมีองค์ประกอบภาพจำนวนมาก
เวอร์ชัน 1.5 แสดงให้เห็นถึงการแบ่งส่วนข้อมูลและการสร้างลำดับการไหลของข้อความที่ชัดเจนขึ้นกว่าเวอร์ชันก่อนอย่างมีนัยสำคัญ

ลายมือและแบบฟอร์ม:
มีความสม่ำเสมอสูงในการประมวลผลลายมือหลากหลายรูปแบบและโครงสร้างฟอร์มที่ซับซ้อน พร้อมการจัดกลุ่มเชิงความหมายและการตีความช่องข้อมูลที่ดีขึ้นเมื่อเทียบกับเวอร์ชันแรก


เนื้อหาทางคณิตศาสตร์และสมการ (ความสามารถใหม่ใน v1.5):
รองรับผลลัพธ์ในรูปแบบ LaTeX สำหรับนิพจน์และสูตรคณิตศาสตร์ ซึ่งเป็นความสามารถใหม่ทั้งหมดที่ถูกเพิ่มเข้ามาในเวอร์ชันนี้

เอกสารภาครัฐ:
ให้ความแม่นยำสูงในการทำ OCR แบบเต็มหน้า และรองรับตัวเลขไทยรวมถึงแบบฟอร์มราชการที่มีโครงสร้างซับซ้อนได้อย่างสม่ำเสมอ

งบการเงินและตารางข้อมูล:
ประมวลผลตารางที่มีข้อมูลอยู่หนาแน่นได้อย่างแม่นยำ ตรวจจับเซลล์ที่ถูกรวมหัวตารางได้ถูกต้อง พร้อมคงรูปแบบต้นฉบับไว้ครบถ้วน

แผนภูมิและกราฟ:
แปลงข้อมูลภาพของกราฟให้เป็น Markdown หรือสรุปแบบมีโครงสร้างที่เข้าใจง่าย พร้อมดึงทั้งข้อมูลและรายละเอียดเชิงบริบทออกมาอย่างครบถ้วน

จดหมายและเอกสารทั่วไป:
ดึงข้อความและโครงสร้างจากเอกสารมาตรฐาน เช่น จดหมาย บันทึกข้อความ และเอกสารงานธุรการได้อย่างแม่นยำ

เอกสารในพระพุทธศาสนา (ไทย-บาลี):
รองรับรูปแบบตัวอักษรดั้งเดิมและข้อความไทย–บาลีที่สลับกัน พร้อมการรู้จำตัวอักษรและการคงรูปแบบโครงสร้างที่เชื่อถือได้

บิล ใบเสร็จ และเอกสารอื่น ๆ:
ทำงานได้อย่างมีประสิทธิภาพแม้ในเอกสารที่อยู่นอกโดเมน เช่น ใบแจ้งหนี้ ตั๋ว หรือบิลค่าสาธารณูปโภค

การประเมินประสิทธิภาพ (Performance Evaluation)
เราได้ทำการทดสอบเปรียบเทียบ Typhoon OCR 1.5 กับเวอร์ชันก่อนหน้า (Typhoon OCR v1 ขนาด 7B พารามิเตอร์) และโมเดลเชิงพาณิชย์ชั้นนำ (Gemini 2.5 Pro และ GPT-5)
การทดสอบทั้งหมดดำเนินการบนชุดข้อมูลเอกสารภาษาไทยภายในของ Typhoon ซึ่งครอบคลุมรายงานทางการเงิน แบบฟอร์มราชการ อินโฟกราฟิก หนังสือ และเอกสารลายมือ โดยใช้ตัวชี้วัดมาตรฐานของงาน OCR และการสร้างข้อความ ได้แก่ BLEU, ROUGE-L และ Levenshtein Distance
- BLEU – วัดความแม่นยำของ n-gram (↑ ค่าสูงกว่า = ดีกว่า)

- ROUGE-L – วัดความใกล้เคียงของโครงสร้างและลำดับข้อความ (↑ ค่าสูงกว่า = ดีกว่า)

- Levenshtein Distance – วัดจำนวนความผิดพลาดระดับตัวอักษร (↓ ค่าต่ำกว่า = ดีกว่า)

ผลลัพธ์โดยรวม
แม้ Typhoon OCR 1.5 จะมีขนาดเพียง 2 พันล้านพารามิเตอร์ เล็กลงว่า 7B รุ่นเดิมเกือบสามเท่า แต่กลับให้ประสิทธิภาพดีขึ้นอย่างชัดเจนในเกือบทุกตัวชี้วัดและดีขึ้นในค่าเฉลี่ยทั้งหมด โดยเฉพาะงานที่มีความซับซ้อนด้านภาพหรือเอกสารลายมือ
-
BLEU: คะแนนเฉลี่ยเพิ่มจาก 0.558 (v1) เป็น 0.644 (v1.5) แสดงถึงความแม่นยำระดับคำและวลีที่สูงขึ้น
-
ROUGE-L: ค่าเฉลี่ยเพิ่มจาก 0.686 เป็น 0.774 สะท้อนถึงการคงโครงสร้างและความสอดคล้องของบริบทที่ดีขึ้น
-
Levenshtein Distance: ค่าเฉลี่ยลดจาก 0.332 เป็น 0.251 (ยิ่งต่ำยิ่งดี) ยืนยันการลดจำนวนความผิดพลาดระดับตัวอักษร
ผลลัพธ์เด่นตามหมวดหมู่ (Category Highlights)
แบบฟอร์มราชการไทย (Thai Government Forms)
v1.5 ทำคะแนนสูงสุดในทุกตัวชี้วัด (BLEU 0.870, ROUGE-L 0.967, Levenshtein 0.035) และทำได้ดีกว่าแม้แต่ Gemini 2.5 Pro และ GPT-5
หนังสือภาษาไทย (Thai Books)
BLEU เพิ่มขึ้นเป็น 0.746 และ ROUGE-L เป็น 0.949 พร้อมลดข้อผิดพลาดระดับตัวอักษรลงกว่า 60% แสดงถึงความสามารถในการประมวลผลข้อความยาวและมีโครงสร้างได้ดีขึ้น
แบบฟอร์มลายมือ (Handwritten Forms)
BLEU เพิ่มจาก 0.321 เป็น 0.522 และ ROUGE-L จาก 0.454 เป็น 0.645 ซึ่งเป็นการกระโดดที่ชัดเจนจากการปรับปรุงความสามารถด้านลายมือและฟิลด์ในฟอร์ม
อินโฟกราฟิกและเอกสารแบบมีภาพจำนวนมาก (Infographics & Visual Documents)
BLEU เพิ่มจาก 0.246 เป็น 0.408 และ ROUGE-L จาก 0.373 เป็น 0.527 แสดงให้เห็นถึงการพัฒนาที่ชัดเจนด้านการรู้จำภาพและสื่อผสม
รายงานการเงินและหมวดอื่น ๆ
ยังคงรักษาความแม่นยำด้านโครงสร้างและความหมายได้ดี พร้อมแข่งขันหรือเหนือกว่าโมเดลเชิงพาณิชย์ขนาดใหญ่ในหลายกรณี
การวิเคราะห์ประสิทธิภาพและต้นทุน (Efficiency and Cost Analysis)
นอกจากความแม่นยำที่ดีขึ้น Typhoon OCR 1.5 ยังให้ประสิทธิภาพด้านต้นทุนและทรัพยากรที่สูงขึ้น ทำให้งาน OCR คุณภาพสูงเข้าถึงได้ง่ายขึ้นทั้งสำหรับนักพัฒนาและองค์กร
สถาปัตยกรรมขนาด 2B ใหม่นี้มอบประโยชน์เด่นด้านประสิทธิภาพ เช่น:
| ตัวชี้วัด (Metric) | พัฒนาการของ Typhoon OCR 1.5 2B |
|---|---|
| Throughput | เร็วกว่า 2–3 เท่า เมื่อเทียบกับ v1 3B |
| Latency | ต่ำลงในทุก GPU หลัก (L4, A100, H100) |
| Cost Efficiency | ประหยัดต้นทุน 40–60% บนระบบคลาวด์ |
| GPU Utilization | ทำงานได้มากขึ้นถึง 3× หน้า ต่อ GPU-hour |
| Hardware Flexibility | รองรับการทำงานบน ฮาร์ดแวร์ขนาดเล็กกว่าเดิม |
การเพิ่มประสิทธิภาพเหล่านี้เกิดจากการลดความซับซ้อนของโมเดล การปรับปรุงด้าน quantization และการทำ inference แบบ prompt เดียว
ทั้งหมดนี้ทำให้เวอร์ชัน 1.5 ให้ความเร็วและคุณภาพสูงขึ้นในต้นทุนที่ลดลงอย่างมีนัยสำคัญ สามารถดูรายละเอียดเต็มของ throughput, latency และต้นทุนฮาร์ดแวร์ได้ที่ ภาคผนวก
สรุป
Typhoon OCR เป็นโมเดลโอเพนซอร์สแบบสองภาษา พร้อมใช้งานจริงในระดับโปรดักชัน โมเดลขนาดกะทัดรัดแต่ทรงพลังที่ถูกสร้างขึ้นเพื่อส่งเสริมความสามารถด้านการประมวลผลเอกสารของยุคต่อไปในประเทศไทย
ในแทบทุกงาน Typhoon OCR 1.5 ทำผลงานได้เหนือกว่าเวอร์ชันก่อนหน้า รวมถึงโมเดลขนาดใหญ่ระดับโลกในการทำความเข้าใจเอกสารภาษาไทย ทั้งที่มีขนาดเล็กกว่า เร็วกว่า และยังคงเปิดโอเพ่นซอร์สอย่างเต็มรูปแบบ
ใช้ Typhoon OCR 1.5 ได้แล้ววันนี้
-
🔍 ทดลองใช้งานทันที บน OCR Playground
เพียงอัปโหลดภาพหรือ PDF ก็สามารถดูผลลัพธ์ได้เลย ไม่ต้องติดตั้งอะไรเพิ่มเติม -
🤗 โมเดลที่ Hugging Face:
- Typhoon OCR 1.5 2B
💻 Colab Demo – ตัวอย่างโค้ดสำหรับรัน Typhoon OCR 1.5 Demo.ipynb to test it in minutes.
- Typhoon OCR 1.5 2B
-
โมเดลที่ Ollama: สำหรับ Ollama จะเป็นเวอร์ชัน 3b ดาวน์โหลดที่นี่
-
⚙️ การใช้งานผ่าน API
เพื่อให้ผู้ใช้งาน Typhoon OCR v1 เดิมย้ายมาใช้งานได้สะดวกขึ้น เราได้จัดเตรียม endpoint สองแบบสำหรับสองเวอร์ชันของโมเดล:
typhoon-ocr — endpoint หลักสำหรับ Typhoon OCR 1.5
typhoon-ocr-preview — endpoint สำหรับ Typhoon OCR v1 รุ่นก่อนหน้า
endpoint นี้จะถูกยกเลิกในวันที่ 31 ธันวาคม 2025 หากคุณยังคงใช้งาน Typhoon OCR v1 อยู่ในระบบ สามารถใช้ typhoon-ocr-preview ต่อไปได้ชั่วคราวระหว่างการย้ายไปเวอร์ชันใหม่
ดูรายละเอียดการ integrate ทั้งหมดได้ที่ API Documentation


