Typhoon Logo
TYPHOON
เปิดตัว Typhoon Translate โมเดลนักแปลภาษาที่แปลไทยนำหน้าโมเดลชั้นนำ พร้อมปกป้องข้อมูลด้วยโมเดลขนาดเล็กรันบนเครื่องได้

เปิดตัว Typhoon Translate โมเดลนักแปลภาษาที่แปลไทยนำหน้าโมเดลชั้นนำ พร้อมปกป้องข้อมูลด้วยโมเดลขนาดเล็กรันบนเครื่องได้

New Release
Typhoon Translate
Small Model
Local LLM
Text Model

Typhoon Translate เป็นโมเดลขนาดเล็กที่ออกแบบมาเพื่อใช้ในงานแปลภาษาไทย-อังกฤษโดยเฉพาะ ผลลัพธ์เยี่ยมเอาชนะ GPT-4o, Claude 3.7 และ Gemini 2.5 Flash ในการทดสอบเปรียบเทียบ ตอบโจทย์การใช้งานในชีวิตประจำวันและการใช้ในธุรกิจที่แคร์เรื่องการปกป้องข้อมูล

Teetouch Jaknamon

Teetouch Jaknamon

23 มิถุนายน 2568

เปิดตัว Typhoon Translate โมเดลนักแปลภาษาที่แปลไทยนำหน้าโมเดลชั้นนำ พร้อมปกป้องข้อมูลด้วยโมเดลขนาดเล็กรันบนเครื่องได้

Blog นี้ได้รับการแปลเนื้อหาจากภาษาอังกฤษเป็นภาษาไทยโดยมี Typhoon Translate เป็นตัวช่วยและมีทีมงานตำแหน่ง Developer Relations Manager ของทีมเป็นผู้ดูแลปรับปรุงเนื้อหา


พวกเรามีความยินดีที่จะเปิดตัว Typhoon Translate โมเดลโอเพนซอร์สขนาดเล็กที่ถูกสร้างมาเพื่อให้เก่งงานแปลภาษาระหว่างภาษาไทยและภาษาอังกฤษโดยเฉพาะ พร้อมให้ใช้งานได้แล้วผ่าน Hugging Face และ Ollama.

ที่มาที่ไปของ Typhoon Translate

การใช้คอมพิวเตอร์แปลภาษาได้มีวิวัฒนาการมาเป็นอย่างมาก เริ่มแรกเป็นการแปลแบบประโยคต่อประโยคเหมือน Google Translate รุ่นแรกๆ แต่ตอนนี้เรามี LLM อย่าง GPT และ Claude เครื่องมือเหล่านี้แปลได้ดีขึ้นมากเพราะเข้าใจรายละเอียดเล็กๆ และบริบทของสิ่งที่กำลังแปล

ส่งผลให้งานแปลภาษาเป็นงานที่มีการนำ LLM มาใช้งานอยู่บ่อยครั้ง ไม่ว่าจะเป็นในโลกธุรกิจอย่างการแปลอีเมล บทความ หรือแม้กระทั่งเอกสารทางธุรกิจ หรือแม้แต่ในชีวิตประจำวันก็ตาม

แต่ถึงแม้ปัจจุบันจะมีเครื่องมือแปลภาษาอยู่อย่างมากมาย เครื่องมือส่วนใหญ่เหล่านี้ก็ยังไม่ค่อยตอบโจทย์นัก โดยเฉพาะอย่างยิ่งหากเราพูดถึงเรื่องความเป็นส่วนตัวและปลอดภัยของข้อมูล และรวมไปถึงเรื่องคุณภาพและความสอดคล้องของงานแปลเองก็ตาม

การที่เราจะรันการแปลบนอุปกรณ์ส่วนตัวนั้นยังคงหาตัวเลือกได้ยากเนื่องจากข้อจำกัดด้านคุณภาพ เราจึงสร้าง Typhoon Translate ขึ้นมาเพื่อแก้ไขปัญหานี้

ความท้าทายที่เป็นแรงบันดาลใจให้เรา

เชื่อว่าเราทุกคนต่างก็เคยใช้เครื่องมือแปลภาษาและเห็นผลการแปลที่ตลกหรือสับสน เช่น ข้อความภาษาไทยแปลกๆ บนป้ายร้านอาหาร หรือคู่มือการใช้งานที่เข้าใจยาก แต่การแปลที่แย่ไม่ได้เป็นเพียงเรื่องตลกขบขันเท่านั้น แต่ยังอาจก่อให้เกิดปัญหาในเรื่องการสื่อสารได้

ภาษาไทยจัดอยู่ในกลุ่มภาษาที่มีทรัพยากรน้อยถึงปานกลาง มีเนื้อหาออนไลน์เพียงประมาณ 0.5% ที่เป็นภาษาไทย ในขณะที่ภาษาอังกฤษมีเกือบ 50%—มากกว่าถึงร้อยเท่า การปลดล็อกเนื้อหาภาษาอังกฤษจำนวนมหาศาลนี้จำเป็นต้องใช้โมเดลการแปลที่มีประสิทธิภาพและแม่นยำ นอกจากนี้ยังมีกรณีการใช้งานสำคัญสำหรับโมเดลการแปลแบบ local โดยเฉพาะเมื่อต้องจัดการกับเอกสารส่วนตัวหรือข้อมูลที่ละเอียดอ่อนซึ่งไม่ควรถูกส่งออกจากองค์กร

โมเดลภาษาขนาดเล็กที่รันได้บน local มีการพัฒนาขึ้นทุกวัน แต่คุณภาพการแปลยังไม่ก้าวหน้าอย่างมีนัยสำคัญ การแปลยังคงเป็นความท้าทายเนื่องจากลักษณะของข้อมูลทางภาษาที่มีลักษณะ long-tail

Typhoon Translate: ทำลายกำแพงภาษาด้วย Local LLM

Typhoon Translate ถูกออกแบบมาเพื่อแก้ปัญหาการแปลระหว่างภาษาไทยและภาษาอังกฤษ โดยให้การแปลที่ชัดเจนและฟังดูเป็นธรรมชาติและเทียบเท่ากับโมเดลขนาดใหญ่ของต่างประเทศ แต่มีขนาดเล็กซึ่งทำให้คุณสามารถใช้งานโมเดลบนแล็ปท็อปได้

ภารกิจของเรานั้นเรียบง่าย: ช่วยให้ผู้คนชาวไทยเข้าถึงข้อมูลและโอกาสต่างๆ โดยการขจัดกำแพงภาษา และช่วยให้การแปลภาษาสามารถถูกนำมาใช้งานได้ง่ายๆ ในทุกอุปกรณ์โดยไม่จำเป็นต้องพึ่งพาแม้แต่อินเทอร์เน็ต

จุดเด่น

🚀 น้ำหนักเบา: พารามิเตอร์ 4B—รันบนแล็ปท็อปทั่วไป ไม่จำเป็นต้องใช้ฮาร์ดแวร์ที่ทรงพลัง

🔒 ส่วนตัวและปลอดภัย: แปลโดยตรงบนอุปกรณ์ของคุณ ข้อมูลของคุณจะอยู่กับคุณ ไม่หลุดรั่วออกไป

🎯 การแปลที่เป็นธรรมชาติ: ให้การแปลที่เทียบเท่ากับระบบชั้นนำ สามารถเอาชนะ GPT-4o และ Gemini 2.5 Flash บนการทดสอบ

🔧เปิดสาธารณะ: ใครๆ ก็โหลดและพร้อมใช้งานได้แล้วบน HuggingFace และ Ollama

วิธีการ

การแปลไม่ใช่งานใหม่ ดังที่แสดงโดยชุดข้อมูลอย่าง SCB-MT และ OPUS ที่เผยแพร่มาแล้วหลายปี อย่างไรก็ตาม ชุดข้อมูลส่วนใหญ่เหล่านี้ถูกสร้างขึ้นก่อนการเกิดขึ้นของ LLM (large language models) ในช่วงเวลาที่การแปลด้วยเครื่องเน้นปริมาณมากกว่าคุณภาพ ในยุค LLM กระบวนทัศน์นี้ได้เปลี่ยนไป โดยเน้นคุณภาพการแปลมากขึ้น

เพื่อให้ตอบโจทย์ความต้องการยุคใหม่ เราเริ่มต้นด้วยการรวบรวมข้อความภาษาอังกฤษและภาษาไทยที่หลากหลายจากแหล่งข้อมูลสาธารณะ จากนั้นเราใช้ LLM หลายตัว เช่น Gemma-3 27B, Typhoon, QwQ และอื่นๆ เพื่อสร้างการแปล

กระบวนการของเราประกอบด้วยการติดป้ายกำกับสองขั้นตอน ขั้นแรกเน้นปริมาณ ขณะที่ขั้นที่สองเน้นคุณภาพผ่านการตรวจสอบด้วยมนุษย์แบบสุ่ม เรายังทำการเลือกผสมข้อมูล (data mixture selection) โดยรวมและกรองแหล่งข้อมูลต่างๆ ตามด้วยการฝึกโมเดลเช็คพอยต์หลายตัว โมเดลที่มีประสิทธิภาพสูงสุดตามคะแนนการประเมินจะถูกปล่อยออกมา

Typhoon Translate Training Data
ชุดข้อมูลการฝึกของเรา

การประเมินผล

ในการประเมิน Typhoon Translate เราใช้ GPT-4o-mini เป็น "AI judge" (ใช้ AI เป็นกรรมการตัดสิน) โดยเปรียบเทียบการแปลของตัวเองกับผลลัพธ์จาก Typhoon Translate โดยใช้วิธี AlpacaEval 2.0 เราทดสอบทั้งทิศทางภาษาอังกฤษเป็นภาษาไทย และภาษาไทยเป็นภาษาอังกฤษ

แทนที่จะใช้ตัวชี้วัดเก่า อย่าง BLEU ซึ่งพึ่งพาการจับคู่คำตรงกัน เราเลือกใช้แนวทางที่อิง AI ในการตัดสินผลลัพธ์ สาเหตุเพราะคุณภาพการแปลเกี่ยวข้องกับความหมาย น้ำเสียง และความละเอียดอ่อนทางวัฒนธรรม ไม่ใช่แค่การจับคู่คำ โดยเราใช้ GPT-4o-mini มาเป็นกรรมการตัดสินว่าการแปลไหนดีกว่าโดยพิจารณาจากความแม่นยำ ความคล่องแคล่ว และบริบท

คะแนนนี้สะท้อนถึงความถี่ที่ Typhoon Translate และระบบอื่นถูกเลือกมากกว่าการแปลของตัว GPT-4o-mini เอง

ข้อมูลที่ใช้ในการทดสอบประเมินผล

เราได้แหล่งข้อมูลสำหรับการประเมินจากหลายแหล่ง

ข้อมูลการประเมินภาษาไทยเป็นภาษาอังกฤษ (128 ตัวอย่าง)

ตัวอย่างข้อความภาษาไทยเลือกมาให้สมดุลจาก

ข้อมูลการประเมินภาษาอังกฤษเป็นภาษาไทย (177 ตัวอย่าง)

ตัวอย่างข้อความภาษาอังกฤษเลือกมาให้สมดุลจาก

เราประเมินโมเดลของเรากับ Google Translate และโมเดลภาษาที่ล้ำสมัย ไม่ว่าจะเป็น GPT-4, Gemini และ Claude

ผลการประเมินพบว่า Typhoon Translate เอาชนะทุกโมเดลอื่นในการทดสอบ

ผลการประเมินเป็นการเปรียบเทียบแบบจับคู่ระหว่างโมเดลที่ทดสอบกับโมเดล GPT-4o-mini และวัดอัตราความสำเร็จในการเอาชนะ

แปลจากภาษาอังกฤษเป็นภาษาไทย (EN→TH)

Typhoon Translate EN-TH Eval

Typhoon Translate นำหน้าทุกโมเดลด้วยคะแนนอัตราการชนะร้อยละ 63.8 ในขณะที่โมเดลอื่นๆ มีอัตราการเอาชนะดังนี้

  • Gemini 2.5 Flash Preview (61.6%)
  • GPT-4.1-2025 (59.3%)
  • Claude 3.7 (55.4%)
  • GPT-4o-2024 (54.8%)
  • Google Translate (44.1%)
  • GPT-4.1-mini (41.2%)

แปลจากภาษาไทยเป็นภาษาอังกฤษ (TH→EN)

Typhoon Translate TH-EN Eval

Typhoon Translate สามารถเอาชนะทุกโมเดลได้อีกครั้งด้วยคะแนนอัตราที่เพิ่มขึ้นเป็นร้อยละ 67.2% นำหน้าโมเดลอื่นๆ ได้แก่

  • GPT-4o-2024 (62.5%)
  • Gemini 2.5 Flash Preview (61.7%)
  • GPT-4.1-2025 (60.2%)
  • GPT-4.1-mini (55.5%)
  • Google Translate (44.1%)
  • Claude 3.7 (39.1%)

✅ ข้อสรุป: Typhoon Translate สามารถเอาชนะโมเดลชั้นนำของต่างประเทศ รวมไปถึงตัว GPT-4o-mini เอง

การสาธิตการแปล

สาธิตการแปลภาษาอังกฤษเป็นภาษาไทย

เราได้จัดเตรียมตัวอย่างการแปลของ Typhoon Translate กับ GPT-4o ในกรณีการใช้งานตัวอย่างดังนี้:

ตัวอย่าง 1: เนื้อหาวรรณกรรม

เป้าหมาย: แปลโดยรักษาความสวยงามของคำศัพท์เพื่ออรรถรสในการอ่าน

เนื้อหาต้นทาง: ข้อความแนวนวนิยายที่เขียนขึ้นโดย ChatGPT

ต้นฉบับ:

TEXT

ผลลัพธ์:

translate-EN-TH-demo1.png

ผลลัพธ์โดย GPT-4o:

TEXT

ผลลัพธ์โดย Typhoon Translate:

TEXT

ตัวอย่าง 2: เอกสารมืออาชีพที่มีคำศัพท์ภาษาอังกฤษปะปน

เป้าหมาย: แปลโดยรักษาคำศัพท์ทางเทคนิคไว้เพื่อรักษาความหมายของคำภาษาอังกฤษ

เนื้อหาต้นทาง: SCBX-AI-Outlook-2025_ENG_Final.pdf

ผลลัพธ์:

translate-EN-TH-demo2.png

ตัวอย่าง 3: รายงานเชิงเทคนิค

เป้าหมาย: แปลรายงานโดยรักษาคำศัพท์ทางเทคนิคไว้เพื่อหลีกเลี่ยงการแปลที่ทำให้เกิดความสับสน

เนื้อหาต้นทาง: Typhoon 2: A Family of Open Text and Multimodal Thai Large Language Models

ผลลัพธ์:

translate-EN-TH-demo3.png

นอกจากนี้เรายังมีตัวอย่างเดโมเพิ่มเติมสำหรับการแปลจากภาษาไทยเป็นภาษาอังกฤษในส่วนท้ายของบล็อก

สรุป

ผลลัพธ์เหล่านี้แสดงให่้เห็นว่าถึงแม้โมเดลจะมีขนาดเล็ก แต่เมื่อออกแบบมาให้ใช้สำหรับการทำงานบางอย่างที่เจาะจง ก็สามารถเอาชนะโมเดลขนาดใหญ่ที่ทำงานสารพัดประโยชน์ได้ อีกทั้งยังใช้ทรัพยากรน้อยกว่า

Typhoon Translate นับเป็นโมเดลที่จะเปิดประตูการใช้งานโมเดลขนาดเล็กที่รันเองบนเครื่องคอมส่วนบุคคลหรือในองค์กร โดยที่ไม่จำเป็นต้องมีทรัพยากรด้านการคำนวณที่มากมาย อีกทั้ง "การแปลภาษา" ยังเป็นงานที่มีโอกาสได้ใช้บ่อยในชีวิตประจำวันทั่วไป

ข้อจำกัดและงานในอนาคต

แน่นอนว่างานแปลเป็นเรื่องของคุณภาพและการเข้าถึงการสื่อสารอย่างแท้จริง หากเป็นงานที่สำคัญ เรายังคงแนะนำให้มีบุคคลที่คอยตรวจสอบคุณภาพ (เหมือนอย่างบทความนี้เองก็เช่นกัน) และเรายินดีรับ Feedback ในการปรับปรุงคุณภาพโมเดลนี้ต่อไป ติดต่อให้ Feedback กับเราได้ทาง Discord ของ Typhoon

Typhoon Translate ถูกฝึกด้วย context window ขนาด 8192 tokens สำหรับประสิทธิภาพที่ดีที่สุดและเพื่อให้คุณภาพการแปลสูงสุด เราแนะนำให้ข้อความอินพุตไม่เกินความยาวนี้ แม้ว่าความจุนี้จะเหมาะสมสำหรับเอกสารและกรณีการใช้งานทั่วไปจำนวนมาก แต่การแปลข้อความที่ยาวกว่า 8192 tokens ในการรันครั้งเดียวอาจไม่ให้ผลลัพธ์ที่ดีที่สุด เรากำลังค้นหาวิธีการปรับปรุงอย่างต่อเนื่อง รวมถึงรูปแบบการแปลและบริบทในรุ่นต่อไปของโมเดล

ทดลองใช้งาน Typhoon Translate วันนี้

โหลด Typhoon Translate มาใช้บนอุปกรณ์ของคุณได้เลย สามารถโหลดได้ที่:

ไม่เคยใช้ Ollama มาก่อน? ลองอ่านคู่มือสอนการติดตั้งและใช้ Ollama รันโมเดลบนเครื่องของคุณเอง.

คอลเลคชันของ Typhoon Translate บน Hugging Face รองรับหลากหลายฟอร์แมตและการนำไปใช้

  1. Transformers
  • เป็นรูปแบบ PyTorch มาตรฐาน เหมาะสำหรับการนำไปเทรนต่อ fine-tune หรือใช้ร่วมกับ Hugging Face pipelines
  1. GGUF
  • เป็นเวอร์ชัน Quantized ที่ใช้งานบน CPU/GPU ได้อย่างเต็มประสิทธิภาพ
  • ใช้งานได้กับเครื่องมืออย่างเช่น llama.cpp, llamafile และ text-generation-webui
  • เหมาะสำหรับใช้บนเครื่องโลคอลได้กับหลากหลายแพลตฟอร์ม
  1. MLX
  • เป็นเวอร์ชันที่ทำเพื่อให้ใช้กับ Apple Silicon (M1/M2/M3) ได้อย่างเต็มประสิทธิภาพ

ภาคผนวก

ตัวอย่างการแปลจากภาษาอังกฤษเป็นภาษาไทย (ข้อความเต็มจากตัวอย่างเดโมในเนื้อหาหลัก)

ตัวอย่าง 2: เอกสารมืออาชีพที่มีคำศัพท์ภาษาอังกฤษปะปน

Input:

TEXT

GPT4o:

TEXT

Typhoon Translate:

TEXT

ตัวอย่าง 3: รายงานเชิงเทคนิค

Input:

TEXT

GPT4o:

TEXT

Typhoon Translate:

TEXT

ตัวอย่างการแปลจากภาษาไทยเป็นภาษาอังกฤษ

ตัวอย่าง 1: เนื้อหาวรรณกรรม

The result from Typhoon Translate and GPT-4o are similar in this example.

translate-TH-EN-demo1

ตัวอย่าง 2: เอกสารมืออาชีพที่มีคำศัพท์ภาษาอังกฤษปะปน

translate-TH-EN-demo2

ตัวอย่าง 3: รายงานเชิงเทคนิค

translate-TH-EN-demo3