Blog LogoTYPHOON
Home
Research
Join Text-to-Speech Research
DocumentationDemo AppsPlayground
Blog
About
Blog LogoTyphoon
  • Home
  • Research
    • Join Text-to-Speech Research
  • Get Started
    • Documentation
    • Demo Apps
    • Playground
  • Blog
  • About

© 2025 SCB 10X Co., Ltd.

งานวิจัยของ Typhoon ได้รับการตอบรับจาก Interspeech 2025: ยกระดับโมเดลภาษาเสียงสำหรับภาษาทรัพยากรต่ำและความสามารถในการทำตามคำสั่งเสียง

งานวิจัยของ Typhoon ได้รับการตอบรับจาก Interspeech 2025: ยกระดับโมเดลภาษาเสียงสำหรับภาษาทรัพยากรต่ำและความสามารถในการทำตามคำสั่งเสียง

ConferenceResearchInterspeechNLP
Oravee (Orn) Smithiphol
Oravee (Orn) Smithiphol
17 มิถุนายน 2025

Table of Contents

สรุปสั้น ๆ สำหรับคนที่ไม่มีเวลา (TL;DR)ปัญหาที่งานวิจัยนี้มุ่งแก้ไขเป้าหมายของงานวิจัยของเราสถาปัตยกรรมของโมเดลการประเมินผลและผลลัพธ์สรุปร่วมเป็นส่วนหนึ่งของชุมชนของเรา

เรารู้สึกยินดีเป็นอย่างยิ่งที่ได้ประกาศว่า งานวิจัยของเราในหัวข้อ "Enhancing Low-Resource Language and Instruction-Following Abilities of Audio Language Models" ซึ่งเป็นผลงานเบื้องหลังการพัฒนา Typhoon-Audio ได้รับการตอบรับให้ตีพิมพ์ในงาน Interspeech 2025 🎉

Interspeech ถือเป็นเวทีการประชุมด้านการประมวลผลเสียงพูดที่ใหญ่ที่สุดในโลก และเป็นพื้นที่ที่เปิดรับงานวิจัยที่ผลักดันขอบเขตของ AI ด้านเสียง การตอบรับครั้งนี้นับเป็นก้าวสำคัญในภารกิจของ Typhoon ในการสร้าง AI ที่รองรับหลายภาษาอย่างครอบคลุม โดยเริ่มจากภาษาไทย และวางรากฐานที่สามารถขยายต่อไปยังภาษาทรัพยากรต่ำอื่น ๆ ได้

สรุปสั้น ๆ สำหรับคนที่ไม่มีเวลา (TL;DR)

  • โมเดลภาษาเสียงส่วนใหญ่ยังคงเน้นภาษาอังกฤษเป็นหลักและมีประสิทธิภาพต่ำเมื่อใช้งานกับภาษาที่มีทรัพยากรน้อย เช่น ภาษาไทย

  • โมเดลของเรารวมความสามารถในการเข้าใจเสียงและการตอบสนองต่อคำสั่งเสียงเข้าไว้ในระบบเดียว ซึ่งปกติมักถูกพัฒนาแยกกัน

  • เรานำเสนอ สถาปัตยกรรมโมเดล และ กลยุทธ์การฝึก ที่ช่วยเพิ่มประสิทธิภาพในภาษาไทย โดยไม่ลดทอนความสามารถในภาษาอังกฤษ

  • 📄 อ่านบทความวิจัยฉบับเต็มบน arXiv

ปัญหาที่งานวิจัยนี้มุ่งแก้ไข

โมเดลภาษาเสียงแบบโอเพนซอร์สส่วนใหญ่ถูกออกแบบมาสำหรับภาษาอังกฤษ แม้ว่าบางโมเดลจะใช้โครงสร้างที่สามารถทำงานได้กับหลายภาษา แต่ก็มักทำงานได้ไม่ดีในภาษาทรัพยากรต่ำ เช่น ภาษาไทย หากไม่มีการฝึกเฉพาะทาง

นอกจากนี้ ยังมีข้อจำกัดอื่น ๆ อีกหลายประการ ได้แก่

  • ขาดความสมดุลระหว่างประสิทธิภาพในการเข้าใจเสียงและความหมาย กับความสามารถในการทำตามคำสั่ง

  • ต้นทุนการปรับใช้สูง โดยเฉพาะเมื่อฝึกกับข้อมูลจากภาษาทรัพยากรต่ำ

  • ขาดมาตรฐานการประเมินผลที่ชัดเจนสำหรับภาษาทางเอเชียตะวันออกเฉียงใต้

เป้าหมายของงานวิจัยของเรา

งานวิจัยนี้ศึกษาเทคนิคต่างๆ สำหรับโมเดลภาษา ที่สามารถ...

  • เพิ่มประสิทธิภาพการใช้งานในภาษาไทย โดยยังคงรักษาความสามารถในภาษาอังกฤษไว้ได้

  • รวมการเข้าใจเสียงและการทำตามคำสั่ง (Speech IF) ไว้ในโมเดลเดียว

  • สามารถต่อยอดไปยังภาษาทรัพยากรต่ำอื่น ๆ เช่น ลาว พม่า เขมร ได้ด้วยการฝึกที่น้อยลง

สถาปัตยกรรมของโมเดล

Typhoon Audio Model Architecture

เราวางโครงสร้างแบบโมดูลาร์ ที่รวมข้อมูลจากเสียงพูดและเสียงทั่วไป (เช่น เพลง หรือเสียงสภาพแวดล้อม) เข้าสู่กระบวนการวิเคราะห์และทำตามคำสั่ง โดยประกอบไปด้วย

Audio Encoder Backbone

  • Whisper-th-large-v3-combined (จาก biodatlab): ปรับแต่งเฉพาะสำหรับเสียงภาษาไทย แปลงเสียงพูดเป็น embedding ที่ละเอียด

  • BEATs: ประมวลผลเสียงที่ไม่ใช่คำพูด เช่น เสียงเพลงหรือเสียงสิ่งแวดล้อม

Adapter Module (Q-Former)

แปลง embedding จากเสียงให้อยู่ในพื้นที่ความหมายเดียวกับข้อความ เพื่อให้สามารถนำเข้าไปใช้งานร่วมกับ LLM ได้อย่างราบรื่น

LLM Backbone

ใช้โมเดล Typhoon-1.5-8B-Instruct ซึ่งเทรนมาจาก LLaMA3 โดยผ่านการฝึกจากชุดข้อมูลทั้งภาษาไทยและอังกฤษ และปรับจูนเพิ่มเติมด้วยงาน instruction-following หลายภาษา

การประเมินผลและผลลัพธ์

เราทดสอบโมเดลในหลายประเภทของงาน ทั้งด้านการเข้าใจและการตอบสนอง:

งานที่ทดสอบ ตัวชี้วัด ผลลัพธ์
ASR (การถอดเสียงมาเป็นข้อความ) ↓ Word Error Rate (WER) ลดอัตราความผิดพลาดได้อย่างมีนัยสำคัญ
การแปลภาษา ↑ BLEU Score เพิ่มคุณภาพการแปลระหว่างภาษา
การจำแนกเพศจากเสียง ↑ Accuracy ความแม่นยำดีขึ้นทั้งสองภาษา
คำถาม-คำตอบจากเสียง (Spoken QA) ↑ F1 Score เข้าใจคำถามและตอบได้ดีขึ้น
การทำตามคำสั่งเสียง (Speech IF) ↑ Human/GPT-4o Score (1–10) คำตอบชัดเจน ตรงกับคำสั่งมากขึ้น
การทำตามคำสั่งซับซ้อน (Complex IF) ↑ คะแนนคุณภาพจากผู้ประเมิน จัดการคำสั่งหลายขั้นตอนได้ดียิ่งขึ้น

สรุป

แม้งานวิจัยนี้จะเน้นภาษาไทยเป็นหลักแต่โครงสร้างโมเดลและกลยุทธ์การฝึกได้รับการออกแบบให้สามารถนำไปขยายใช้กับภาษาทรัพยากรต่ำอื่นๆ ได้อย่างยืดหยุ่น โดยไม่ต้องฝึกใหม่ทั้งหมด ช่วยลดต้นทุนการพัฒนา AI ด้านเสียงในภูมิภาคที่ถูกมองข้าม

ทีมวิจัยของเราหวังเป็นอย่างยิ่งว่านี่คือก้าวแรกสู่ยุคใหม่ของโมเดลภาษาเสียงแบบพหุภาษา ที่สามารถเข้าใจเสียง ทำตามคำสั่งที่ซับซ้อน และตอบสนองความต้องการของชุมชนที่หลากหลาย

📄 อ่านงานวิจัยฉบับเต็มบน arXiv

ร่วมเป็นส่วนหนึ่งของชุมชนของเรา

💡 ดูผลงานโอเพ่นซอร์สของเรา

Open-weight models: huggingface.co/scb10x

รายละเอียดอื่นๆ: opentyphoon.ai

💬 เข้าร่วมกลุ่มเพื่อพูดคุยกับทีมของเราใน Discord

Previous
ผลงานวิจัยร่วมของทีม Typhoon ได้รับการตอบรับในงานประชุม ACL 2025 ทั้งหมด 5 เปเปอร์

ผลงานวิจัยร่วมของทีม Typhoon ได้รับการตอบรับในงานประชุม ACL 2025 ทั้งหมด 5 เปเปอร์

Next

เปิดตัว Typhoon Translate โมเดลนักแปลภาษาที่แปลไทยนำหน้าโมเดลชั้นนำ พร้อมปกป้องข้อมูลด้วยโมเดลขนาดเล็กรันบนเครื่องได้

เปิดตัว Typhoon Translate โมเดลนักแปลภาษาที่แปลไทยนำหน้าโมเดลชั้นนำ พร้อมปกป้องข้อมูลด้วยโมเดลขนาดเล็กรันบนเครื่องได้

© 2025 SCB 10X Co., Ltd.. All rights reserved