
งานวิจัยของ Typhoon ได้รับการตอบรับจาก Interspeech 2025: ยกระดับโมเดลภาษาเสียงสำหรับภาษาทรัพยากรต่ำและความสามารถในการทำตามคำสั่งเสียง
ConferenceResearchInterspeechNLP

Table of Contents
เรารู้สึกยินดีเป็นอย่างยิ่งที่ได้ประกาศว่า งานวิจัยของเราในหัวข้อ "Enhancing Low-Resource Language and Instruction-Following Abilities of Audio Language Models" ซึ่งเป็นผลงานเบื้องหลังการพัฒนา Typhoon-Audio ได้รับการตอบรับให้ตีพิมพ์ในงาน Interspeech 2025 🎉
Interspeech ถือเป็นเวทีการประชุมด้านการประมวลผลเสียงพูดที่ใหญ่ที่สุดในโลก และเป็นพื้นที่ที่เปิดรับงานวิจัยที่ผลักดันขอบเขตของ AI ด้านเสียง การตอบรับครั้งนี้นับเป็นก้าวสำคัญในภารกิจของ Typhoon ในการสร้าง AI ที่รองรับหลายภาษาอย่างครอบคลุม โดยเริ่มจากภาษาไทย และวางรากฐานที่สามารถขยายต่อไปยังภาษาทรัพยากรต่ำอื่น ๆ ได้
สรุปสั้น ๆ สำหรับคนที่ไม่มีเวลา (TL;DR)
-
โมเดลภาษาเสียงส่วนใหญ่ยังคงเน้นภาษาอังกฤษเป็นหลักและมีประสิทธิภาพต่ำเมื่อใช้งานกับภาษาที่มีทรัพยากรน้อย เช่น ภาษาไทย
-
โมเดลของเรารวมความสามารถในการเข้าใจเสียงและการตอบสนองต่อคำสั่งเสียงเข้าไว้ในระบบเดียว ซึ่งปกติมักถูกพัฒนาแยกกัน
-
เรานำเสนอ สถาปัตยกรรมโมเดล และ กลยุทธ์การฝึก ที่ช่วยเพิ่มประสิทธิภาพในภาษาไทย โดยไม่ลดทอนความสามารถในภาษาอังกฤษ
ปัญหาที่งานวิจัยนี้มุ่งแก้ไข
โมเดลภาษาเสียงแบบโอเพนซอร์สส่วนใหญ่ถูกออกแบบมาสำหรับภาษาอังกฤษ แม้ว่าบางโมเดลจะใช้โครงสร้างที่สามารถทำงานได้กับหลายภาษา แต่ก็มักทำงานได้ไม่ดีในภาษาทรัพยากรต่ำ เช่น ภาษาไทย หากไม่มีการฝึกเฉพาะทาง
นอกจากนี้ ยังมีข้อจำกัดอื่น ๆ อีกหลายประการ ได้แก่
-
ขาดความสมดุลระหว่างประสิทธิภาพในการเข้าใจเสียงและความหมาย กับความสามารถในการทำตามคำสั่ง
-
ต้นทุนการปรับใช้สูง โดยเฉพาะเมื่อฝึกกับข้อมูลจากภาษาทรัพยากรต่ำ
-
ขาดมาตรฐานการประเมินผลที่ชัดเจนสำหรับภาษาทางเอเชียตะวันออกเฉียงใต้
เป้าหมายของงานวิจัยของเรา
งานวิจัยนี้ศึกษาเทคนิคต่างๆ สำหรับโมเดลภาษา ที่สามารถ...
-
เพิ่มประสิทธิภาพการใช้งานในภาษาไทย โดยยังคงรักษาความสามารถในภาษาอังกฤษไว้ได้
-
รวมการเข้าใจเสียงและการทำตามคำสั่ง (Speech IF) ไว้ในโมเดลเดียว
-
สามารถต่อยอดไปยังภาษาทรัพยากรต่ำอื่น ๆ เช่น ลาว พม่า เขมร ได้ด้วยการฝึกที่น้อยลง
สถาปัตยกรรมของโมเดล
เราวางโครงสร้างแบบโมดูลาร์ ที่รวมข้อมูลจากเสียงพูดและเสียงทั่วไป (เช่น เพลง หรือเสียงสภาพแวดล้อม) เข้าสู่กระบวนการวิเคราะห์และทำตามคำสั่ง โดยประกอบไปด้วย
Audio Encoder Backbone
-
Whisper-th-large-v3-combined (จาก biodatlab): ปรับแต่งเฉพาะสำหรับเสียงภาษาไทย แปลงเสียงพูดเป็น embedding ที่ละเอียด
-
BEATs: ประมวลผลเสียงที่ไม่ใช่คำพูด เช่น เสียงเพลงหรือเสียงสิ่งแวดล้อม
Adapter Module (Q-Former)
แปลง embedding จากเสียงให้อยู่ในพื้นที่ความหมายเดียวกับข้อความ เพื่อให้สามารถนำเข้าไปใช้งานร่วมกับ LLM ได้อย่างราบรื่น
LLM Backbone
ใช้โมเดล Typhoon-1.5-8B-Instruct ซึ่งเทรนมาจาก LLaMA3 โดยผ่านการฝึกจากชุดข้อมูลทั้งภาษาไทยและอังกฤษ และปรับจูนเพิ่มเติมด้วยงาน instruction-following หลายภาษา
การประเมินผลและผลลัพธ์
เราทดสอบโมเดลในหลายประเภทของงาน ทั้งด้านการเข้าใจและการตอบสนอง:
งานที่ทดสอบ | ตัวชี้วัด | ผลลัพธ์ |
---|---|---|
ASR (การถอดเสียงมาเป็นข้อความ) | ↓ Word Error Rate (WER) | ลดอัตราความผิดพลาดได้อย่างมีนัยสำคัญ |
การแปลภาษา | ↑ BLEU Score | เพิ่มคุณภาพการแปลระหว่างภาษา |
การจำแนกเพศจากเสียง | ↑ Accuracy | ความแม่นยำดีขึ้นทั้งสองภาษา |
คำถาม-คำตอบจากเสียง (Spoken QA) | ↑ F1 Score | เข้าใจคำถามและตอบได้ดีขึ้น |
การทำตามคำสั่งเสียง (Speech IF) | ↑ Human/GPT-4o Score (1–10) | คำตอบชัดเจน ตรงกับคำสั่งมากขึ้น |
การทำตามคำสั่งซับซ้อน (Complex IF) | ↑ คะแนนคุณภาพจากผู้ประเมิน | จัดการคำสั่งหลายขั้นตอนได้ดียิ่งขึ้น |
สรุป
แม้งานวิจัยนี้จะเน้นภาษาไทยเป็นหลักแต่โครงสร้างโมเดลและกลยุทธ์การฝึกได้รับการออกแบบให้สามารถนำไปขยายใช้กับภาษาทรัพยากรต่ำอื่นๆ ได้อย่างยืดหยุ่น โดยไม่ต้องฝึกใหม่ทั้งหมด ช่วยลดต้นทุนการพัฒนา AI ด้านเสียงในภูมิภาคที่ถูกมองข้าม
ทีมวิจัยของเราหวังเป็นอย่างยิ่งว่านี่คือก้าวแรกสู่ยุคใหม่ของโมเดลภาษาเสียงแบบพหุภาษา ที่สามารถเข้าใจเสียง ทำตามคำสั่งที่ซับซ้อน และตอบสนองความต้องการของชุมชนที่หลากหลาย
📄 อ่านงานวิจัยฉบับเต็มบน arXiv
ร่วมเป็นส่วนหนึ่งของชุมชนของเรา
💡 ดูผลงานโอเพ่นซอร์สของเรา
Open-weight models: huggingface.co/scb10x
รายละเอียดอื่นๆ: opentyphoon.ai
💬 เข้าร่วมกลุ่มเพื่อพูดคุยกับทีมของเราใน Discord