Typhoon Logo
TYPHOON
เปิดตัว “Typhoon Isan” ชุดข้อมูลและโมเดล ASR สำหรับถอดเสียงและสะกดคำอีสาน สู่การพัฒนา AI ที่เข้าใจภาษาทุกถิ่น ทุกสำเนียง

เปิดตัว “Typhoon Isan” ชุดข้อมูลและโมเดล ASR สำหรับถอดเสียงและสะกดคำอีสาน สู่การพัฒนา AI ที่เข้าใจภาษาทุกถิ่น ทุกสำเนียง

New Release
Typhoon Isan
ASR
Dialect
NLP

เผยแพร่เครื่องมือและทรัพยากรสำหรับพัฒนา AI ภาษาอีสาน ครอบคลุมระบบ ASR ที่ถอดเสียงอย่างเป็นระบบ ชุดข้อมูลมาตรฐาน และงานวิจัยสู่การพัฒนา AI ที่สะท้อนความหลากหลายทางวัฒนธรรมทางภาษาของประเทศไทย

Oravee (Orn) Smithiphol

Oravee (Orn) Smithiphol

27 พฤศจิกายน 2568

เปิดตัว “Typhoon Isan” ชุดข้อมูลและโมเดล ASR สำหรับถอดเสียงและสะกดคำอีสาน สู่การพัฒนา AI ที่เข้าใจภาษาทุกถิ่น ทุกสำเนียง

สารบัญ

วันนี้พวกเราทีม Typhoon ภูมิใจที่จะเผยแพร่ผลงานที่ทีมมุ่งมั่นพัฒนามาตลอดหนึ่งปีที่ผ่านมา “Typhoon Isan” คลังทรัพยากรและเครื่องมือเทคโนโลยีภาษาอีสาน มาพร้อมโมเดลโอเพนซอร์ส ASR ที่พัฒนาขึ้นโดยใช้มาตรฐานการถอดเสียงและสะกดคำอย่างเป็นระบบและสามารถใช้ได้จริง พร้อมด้วยชุดข้อมูลภาษาแบบเปิดเพื่อสนับสนุนการศึกษาและการวิจัยด้าน AI ภาษาถิ่นในอนาคต

ที่มาของการสร้าง Typhoon Isan

จากข้อจำกัดของเทคโนโลยี AI ในปัจจุบันโดยเฉพาะ AI จากต่างประเทศ เราพบว่าเทคโนโลยีเสียงนั้นยังมีปัญหาในการใช้จริงอยู่มากมาย ระบบ ASR ส่วนใหญ่รองรับเฉพาะภาษาไทยกลาง ไม่สามารถรองรับภาษาถิ่นได้อย่างแม่นยำ ซึ่งก็ไม่น่าแปลกใจเพราะภาษาถิ่นในไทยน้ันไม่ใช่ตลาดที่ใหญ่เพียงพอสำหรับบริษัทต่างประเทศ อีกทั้งข้อมูลที่มีคุณภาพในการนำมาเทรนโมเดลก็หาได้ยาก แม้แต่ Typhoon ASR ที่เราเคยเปิดตัวไปก่อนหน้านี้ก็ได้รับการเทรนด้วยข้อมูลภาษาไทยกลางเป็นหลัก

พวกเราเชื่อว่าเทคโนโลยีนี้ควรถูกสร้างขึ้นเพื่อทุกคนในประเทศไทยอย่างแท้จริง หนึ่งปีที่แล้วทีม Typhoon จึงเริ่มต้นโครงการ Typhoon Isan โดยเลือกภาษาอีสานเป็นภาษาถิ่นแรก เหตุผลเพราะว่าภาษาอีสานเป็นภาษาที่มีผู้พูดอยู่เป็นจำนวนมาก คิดเป็นสัดส่วนถึงหนึ่งในสามของประชากรของประเทศ

ภารกิจในการสร้าง AI เพื่อคนไทยคือแนวทางที่เราใช้ในการดำเนินโครงการนี้ ดังนั้นโครงการนี้จึงไม่ใช่แค่การสร้างโมเดลเท่านั้น แต่ยังรวมถึงการสร้างทรัพยากร NLP สำหรับภาษาถิ่น ในฐานะทีมที่ประกอบด้วยนักภาษาศาสตร์ นักวิจัย วิศวกร รวมถึงนักการตลาดและผู้มีประสบการณ์ในภาคธุรกิจ พวกเราทั้งหมดตื่นเต้นที่ได้มีส่วนร่วมในความสำเร็จขั้นต้นนี้

ความยากของการพัฒนา AI ภาษาถิ่นและ Typhoon Isan

เราพบว่าการพัฒนา AI ภาษาอีสานหรือ AI ภาษาถิ่นใดๆ นั้นมีความท้าทายหลักสองประการ

  1. ภาษาอีสานเป็นภาษาพูด ไม่มีระบบการสะกดคำที่ชัดเจน

    เราพบว่าภาษาอีสานยังไม่มีพจนานุกรมสำหรับอ้างอิงการสะกด หรือมาตรฐานการถอดเสียงที่มีการใช้กันอย่างแพร่หลาย ซึ่งทำให้การพัฒนาโมเดลถอดเสียงเป็นข้อความอย่าง ASR เป็นเรื่องยาก (จะเขียนเป็นข้อความว่าอย่างไร?) ทีมภาษาศาสตร์ของเราจึงทำงานอย่างหนักและใกล้ชิดกับผู้พูดในพื้นที่ ครู และผู้เชี่ยวชาญ เพื่อกำหนดรูปแบบการถอดเสียงและการสะกดคำที่เป็นระบบ ก่อนจะเริ่มกระบวนการฝึกโมเดล

  2. ภาษาอีสานเป็นภาษาที่มีทรัพยากรน้อยมาก (low-resource language)

    เราพูดถึงภาษาไทย(กลาง)ว่าเป็นภาษาที่มีทรัพยากรจำกัดอยู่แล้ว การทำงานกับภาษาถิ่นยิ่งทำให้ข้อจำกัดนี้เด่นชัดขึ้นอีก ชุดข้อมูลคุณภาพสูงมีอยู่อย่างจำกัดมาก ทีมภาษาศาสตร์ของ Typhoon จึงทำหน้าที่เก็บข้อมูลเสียงจากผู้เจ้าของภาษาในพื้นที่โดยตรง จากนั้นจึงคัดกรองและกำกับข้อมูล (annotate) ตามแนวทางที่กำหนดไว้

ผลงานที่เราเผยแพร่

ภายใต้โครงการ Typhoon Isan เรากำลังเผยแพร่ทั้งรากฐานทางภาษาและเครื่องมือทางเทคนิคที่จำเป็นสำหรับ AI ภาษาท้องถิ่น ไม่ว่าจะเป็นชุดข้อมูลแบบเปิด แนวทางการสะกดและการถอดความ และโมเดล ASR สองตัวที่ออกแบบมาเพื่อรองรับภาษาอีสาน

1. ชุดข้อมูลเสียงและทรัพยากร NLP ภาษาอีสาน

ทั้งหมดนี้คือทรัพยากรทางภาษาที่เราได้สร้างขึ้นและใช้ในการพัฒนาโมเดลอีสาน เรานำทรัพยากรเหล่านี้มาเผยแพร่เพื่อให้นักวิจัยและนักพัฒนาสามารถนำไปต่อยอดได้

1.1 Isan Speech Corpus ชุดข้อมูลภาษาอีสาน

Typhoon Isan Speech Corpus
Typhoon Isan Speech Corpus

ชุดข้อมูลเสียงพูดภาษาอีสานจากหลายจังหวัดในภาคตะวันออกเฉียงเหนือ ประกอบไปด้วยไฟล์เสียงพูด ข้อความการถอดเสียงพูด และ Metadata เกี่ยวกับภูมิลำเนาของผู้พูด โดยเป็นการพูดตอบคำถามหรือให้ความคิดเห็นแบบไม่มีสคริปต์ เป็นการพูดสดเพื่อตอบคำถามในเนื้อหาทั่วไปในชีวิตประจำวันและเนื้อหาที่เกี่ยวข้องกับการเงิน

เข้าถึงชุดข้อมูลนี้ได้ผ่านทาง Hugging Face

1.2 อักขรวิธีการสะกดคำภาษาอีสานด้วยอักษรไทย (Isan Spelling Standard)

Isan Spelling Standard

เอกสารรวบรวมอักขรวิธีการสะกดคำภาษาอีสานด้วยอักษรไทย

อ่านต่อและดาวน์โหลดได้ที่นี่

1.3 แนวทางการถอดเสียงภาษาอีสาน (Isan Speech Transcription Convention)

Isan Speech Transcription Convention

แนวทางการถอดเสียงภาษาอีสานเป็นข้อความสำหรับการสร้างชุดข้อมูลเพื่องานด้านเทคโนโลยีทางเสียง

อ่านต่อและดาวน์โหลดได้ที่นี่

1.4 พจนานุกรมคำอ่าน (Isan Phonetic Dictionary)

Isan Phonetic Dictionary

พจนานุกรมคำอ่านที่ได้รับการจับคู่คำกับการออกเสียงในภาษาอีสาน โดยมีกำหนดแนวทางตัวแทนเสียงอย่างเป็นระบบ เพื่อสนับสนุนการพัฒนา ASR และ TTS

เข้าถึงชุดข้อมูลนี้ได้ผ่านทาง Hugging Face

คู่มือแนวทางการถอดเสียง

1.5 การจัดกลุ่มสำเนียงอีสาน (Isan Dialect Classification)

Isan Dialect Classification

รายงานเชิงวิเคราะห์เกี่ยวกับความแตกต่างของสำเนียงอีสานในแต่ละจังหวัดทางภาคตะวันออกเฉียงเหนือ โดยใช้ลักษณะทางภาษาศาสตร์ในการจัดกลุ่ม

อ่านต่อและดาวน์โหลดได้ที่นี่

1.6 Technical Report

รายงานเชิงเทคนิคที่อธิบายกระบวนการสร้างแนวทางการเลือกสำเนียง การสะกดคำ การถอดเสียง และการสร้างชุดข้อมูลอย่างละเอียด

อ่านต่อและดาวน์โหลดได้ที่นี่


2. Typhoon Isan ASR

Typhoon Isan ASR เป็นโมเดล Automatic Speech Recognition (ASR) แบบโอเพนซอร์ส ที่สามารถถอดเสียงภาษาอีสานเป็นข้อความได้อย่างแม่นยำ โดยใช้มาตรฐานการถอดเสียงที่เราได้พัฒนาและเผยแพร่ไว้ มีให้เลือกสองโมเดลเพื่อรองรับความเหมาะสมต่อการใช้งาน:

2.1 Typhoon Isan ASR Real-time

Typhoon Isan ASR Real-time

Typhoon Isan ASR Real-time เป็นโมเดลการรู้จำเสียงพูดแบบโอเพนซอร์ส ที่ออกแบบมาเพื่อรองรับภาษาอีสานควบคู่ไปกับภาษาไทยกลาง โมเดลนี้ทำงานด้วยความเร็วสูง แม่นยำ มีความหน่วงต่ำ ทำให้เหมาะอย่างยิ่งสำหรับแอปพลิเคชันแบบเรียลไทม์ เช่น การประชุมออนไลน์ แคปชันสด หรือระบบผู้ช่วยอัจฉริยะที่โต้ตอบทันที และสามารถใช้งานได้ด้วยฮาร์ดแวร์ทั่วไป ไม่ต้องมี GPU

โมเดลนี้ได้รับการปรับแต่ง (fine-tune) จาก Typhoon ASR Real-time ซึ่งใช้สถาปัตยกรรม NVIDIA NeMo fastConformer-transducer-large และได้รับการเพิ่มประสิทธิภาพเพื่อจัดการกับความยากที่ระบบ ASR หลักมักเผชิญเมื่อรับมือกับภาษาถิ่นของประเทศไทย

2.2 Typhoon Isan ASR Whisper

Typhoon Isan ASR Whisper

Typhoon Isan ASR Whisper เป็นโมเดล ASR โอเพนซอร์สสำหรับเสียงพูดภาษาไทย ที่ได้รับการปรับแต่ง (fine-tune) เพื่อรองรับภาษาอีสาน โดยปรับแต่งจาก Whisper Medium (Biodatlab) ซึ่งสร้างขึ้นด้วยสถาปัตยกรรม Whisper ของ OpenAI โมเดลนี้จึงสามารถรองรับได้ทั้งเสียงพูดภาษาไทย รวมถึงการสลับภาษา (code-switching) กับภาษาอังกฤษและภาษาอื่นๆ ได้

โมเดลรุ่นนี้มีเป้าหมายเพื่อแก้ปัญหาข้อจำกัดของระบบ ASR ทั่วไปซึ่งมักไม่สามารถจดจำภาษาถิ่นในภูมิภาคได้อย่างแม่นยำ โดยยังคงจุดเด่นเรื่องการใช้งานร่วมกับ pipeline มาตรฐานของ Whisper

เปรียบเทียบ Typhoon Isan ASR Real-time เทียบกับ Typhoon Isan ASR Whisper

เลือกใช้ Typhoon Isan ASR Real-time สำหรับการถอดเสียงสด หรือ Typhoon Isan ASR Whisper สำหรับการถอดเสียงที่มีความแม่นยำสูงจากไฟล์เสียงที่บันทึกไว้แล้ว

คุณสมบัติTyphoon Isan ASR Real-TimeTyphoon Isan ASR Whisper
จุดเด่นหลักการทำงานแบบเรียลไทม์ มีความหน่วงต่ำ เหมาะกับแอปพลิเคชันที่ต้องการการตอบสนองทันที รันได้อย่างรวดเร็วบน CPU หรือ GPU ขนาดเล็ก เหมาะกับอุปกรณ์ Edgeความแม่นยำสูงและรองรับหลายภาษา เหมาะกับงานที่ต้องการคุณภาพการถอดเสียงที่มากขึ้น
โหมดการทำงานรองรับสตรีมมิ่ง ถอดเสียงแบบทันทีจากเสียงขาเข้าทำงานแบบ Batch ถอดเสียงจากไฟล์เสียงที่บันทึกไว้แล้ว
ขนาดโมเดลประมาณ 115 ล้านพารามิเตอร์ (เล็กและเบามาก)ประมาณ 800 ล้านพารามิเตอร์ (ใหญ่กว่า เหมาะกับงานเน้นคุณภาพ)
สถาปัตยกรรมNVIDIA NeMo fastConformer-transducer-largeOpenAI Whisper Medium (fine-tuned by Biodatlab)
การใช้งานบนฮาร์ดแวร์ส่วนตัว (On-Premise)รองรับเต็มรูปแบบรองรับเต็มรูปแบบ
ต้นทุนและการเข้าถึงต้นทุนต่ำมากใช้ทรัพยากรมากกว่า แต่ยังคงต้นทุนต่ำเมื่อเทียบกับระบบพาณิชย์

การประเมินประสิทธิภาพการถอดเสียงของโมเดล

เราได้ทำการประเมินโมเดลของเราร่วมกับโมเดล ASR ต่างๆ ได้แก่ โมเดลขนาดใหญ่อย่าง Gemini โมเดลวิจัยทางวิชาการ และโมเดลที่อิงจาก Whisper โดยประเมินผลบนชุดทดสอบภาษาอีสานภายในของเราจำนวน 500 ไฟล์เสียงซึ่งมาจากผู้พูดหลากหลายเสียงจาก 10 จังหวัด ได้แก่ ขอนแก่น ร้อยเอ็ด อุดรธานี อุบลราชธานี ชัยภูมิ มหาสารคาม กาฬสินธุ์ หนองบัวลำภู สกลนคร และยโสธร

อัตราความผิดพลาดของตัวอักษร (CER)

Character Error Rate (CER) สื่อถึงระดับความแม่นยำในระดับตัวอักษร และเป็นตัวชี้วัดที่ใช้กันแพร่หลายในการประเมิน ASR ภาษาไทยและภาษาทรัพยากรน้อย

CER ยิ่งต่ำยิ่งดี หมายถึง ความแม่นยำในการถอดเสียงที่สูงขึ้น

Typhoon Isan ASR Eval Chart

ผลลัพธ์ CER เรียงลำดับตามความแม่นยำ

โมเดลCERหมายเหตุ
typhoon-isan-asr-whisper0.0885พัฒนาจาก Whisper Medium ที่ฝึกด้วยชุดข้อมูล Typhoon Isan
Gemini-2.5-pro0.1020โมเดล ASR เชิงพาณิชย์ขนาดใหญ่
typhoon-isan-asr-realtime0.1065พัฒนาจาก Typhoon ASR Real-time ที่ปรับจูนด้วยชุดข้อมูล Typhoon Isan
scb10x/whisper-medium-dialect-exp2-ep50.1772พัฒนาจาก Whisper Medium ที่ฝึกด้วยชุดข้อมูล SLSCU + NECTEC
SLSCU_korat_model0.7008โมเดลงานวิจัยจากจุฬาลงกรณ์มหาวิทยาลัย ฝึกฝนด้วยข้อมูลจากผู้พูดที่มาจากจังหวัดนครราชสีมา (โคราช) เป็นหลัก

Typhoon Isan ASR มีประสิทธิภาพที่ได้แข่งขันได้กับ Gemini ในขณะที่ยังคงเป็นโมเดลแบบโอเพนซอร์สอย่างสมบูรณ์

โมเดล ASR ภาษาอีสานของเรามีระดับความแม่นยำเทียบเคียง (สำหรับเวอร์ชันเรียลไทม์) และเหนือกว่า (สำหรับ Whisper) เมื่อเทียบกับระบบขนาดใหญ่อย่าง Gemini ซึ่งแสดงให้เห็นว่าโมเดลเฉพาะโดเมนแบบโอเพนซอร์สสามารถเทียบเคียงหรือเหนือกว่าโซลูชันที่เป็นกรรมสิทธิ์ในภาษาท้องถิ่นได้

Whisper-medium-dialect baseline ช่วยให้เราเข้าใจว่าข้อมูลและมาตรฐานใหม่ของเราช่วยปรับปรุง ASR สำหรับภาษามาตรฐานได้มากเพียงใด

โมเดลที่มีฐาน Whisper เหมือนกัน แต่ฝึกบนชุดข้อมูลที่มีอยู่เดิม กับโมเดล Whisper ที่ฝึกบนชุดข้อมูลใหม่ เราสังเกตได้ว่าการเปลี่ยนชุดข้อมูลช่วยให้ Typhoon Isan ASR มีค่า CER ต่ำลงอย่างมีนัยสำคัญ ซึ่งแสดงให้เห็นว่า ชุดข้อมูลใหม่ แนวทางการถอดความอย่างมีระบบ และกระบวนการทางภาษาศาสตร์ที่เราพัฒนาขึ้น นำไปสู่การปรับปรุงความแม่นยำได้โดยตรง

วิดีโอสาธิตผลลัพธ์

วิดีโอนี้แสดงตัวอย่างผลลัพธ์ของ Typhoon Isan ASR และ Typhoon Isan TTS

วิดีโอนี้สาธิตระบบอัจฉริยะที่โต้ตอบด้วยเสียง (intelligent voice agent) ซึ่งสร้างโดยการเชื่อมโยงระหว่าง Typhoon Isan ASR, Typhoon Isan TTS และ Typhoon LLM (Typhoon 2.5) เพื่อแสดงให้เห็นถึงความเป็นไปได้ทางเทคโนโลยีในปัจจุบัน

สรุปช่องทางการเข้าถึงทรัพยากรทั้งหมดของ Typhoon Isan

Typhoon Isan ASR

Isan Speech Corpus

ทรัพยากรและงานวิจัยเชิงภาษา

พร้อมสู่โอกาสอีกมากมายข้างหน้า

Typhoon Isan เป็นก้าวสำคัญในวิสัยทัศน์ของเรา นั่นคือการสร้าง AI เพื่อประเทศไทย เป็น AI ที่เข้าใจภาษา วัฒนธรรม และรองรับอัตลักษณ์ของผู้คนที่หลากหลายในประเทศไทย

เมื่อ AI สามารถประมวลผลภาษาท้องถิ่นได้ มันจะสร้างประโยชน์ที่ยิ่งใหญ่ได้อีกหลายอย่าง ตั้งแต่การสืบสานภาษาและวัฒนธรรมท้องถิ่น การเพิ่มการเข้าถึงข้อมูลและเทคโนโลยี ความเท่าเทียมทางเศรษฐกิจ และการเสริมพลังให้แก่ผู้คนหลายล้านคนที่มักไม่ได้รับประโยชน์สูงสุดในโลกดิจิทัลอย่างเพียงพอ

ประโยชน์สำหรับผู้ใช้งาน

  • เข้าถึงเทคโนโลยี ASR ได้ง่ายขึ้น

    เข้าถึง ASR ที่รองรับทั้งภาษาไทยกลางและภาษาอีสาน โดยไม่ต้องพึ่งพาบริการเทคโนโลยีจากต่างประเทศ

  • ลดต้นทุนในการพัฒนาและการใช้งาน

    โมเดลขนาดเล็กและมีประสิทธิภาพพร้อมใบอนุญาตแบบเปิด ทำให้องค์กรสามารถรัน ASR ได้แม้บนอุปกรณ์ทั่วไป

  • ส่งเสริมการสื่อสารในภูมิภาคอีสาน

    เปิดโอกาสให้ธุรกิจท้องถิ่น และหน่วยงานภาครัฐนำเทคโนโลยีเสียงมาใช้งานได้อย่างมีประสิทธิภาพมากขึ้น

  • สร้างความเสมอภาคทางภาษาใน AI

    ช่วยให้ชุมชนชนบทเข้าถึง AI ในภาษาของตนเองได้มากยิ่งขึ้น

ตัวอย่างการใช้งาน

  • ผู้ช่วยอัจฉริยะหรือศูนย์บริการลูกค้าที่รองรับภาษาอีสาน
  • เครื่องมือสำหรับนักข่าวหรือนักวิจัยในการถอดเสียงบทสัมภาษณ์กับชุมชนท้องถิ่น
  • อินเทอร์เฟซเสียงในเมืองอัจฉริยะ (Smart City) หรือบริการสาธารณะ
  • หน่วยงานภาครัฐหรือองค์กรที่ต้องการถอดเสียงภาษาไทยและภาษาอีสาน
  • งานมัลติมีเดีย เช่น การสร้างคำบรรยายอัตโนมัติ หรือการถอดเสียงพ็อดแคสต์

ทั้งหมดนี้เป็นเพียงจุดเริ่มต้น เพื่อต่อยอดให้โอกาสทั้งหมดนี้เป็นจริง พวกเราอยากขอเชิญชวนนักพัฒนา นักวิจัย หรือใครก็ตามที่ใส่ใจในเทคโนโลยีภาษาถิ่น มาร่วมใช้งานและต่อยอดชุดข้อมูล ทดลองใช้โมเดล และร่วมสร้างสรรค์ไปกับเรา

เพื่อให้ผลงานนี้ได้รับการต่อยอดต่อจากชุมชน เราจึงได้จัดงาน “TYPHOON เฮ็ดให้ AI ใจอีสาน” เพื่อสร้างวงสนทนาเกี่ยวกับ AI ท้องถิ่น และรวมภาคส่วนต่างๆ ในงานทั้งภาคธุรกิจ ผู้ให้บริการเทคโนโลยี นักวิจัยด้าน AI นักวิจัยภาษาศาสตร์ และผู้ใช้งานทั่วไป เนื้อหาต่างๆ ในงานนี้จะถูกบันทึกและเผยแพร่ในบล็อกในเร็วๆ นี้ค่ะ