วันนี้พวกเราทีม Typhoon ภูมิใจที่จะเผยแพร่ผลงานที่ทีมมุ่งมั่นพัฒนามาตลอดหนึ่งปีที่ผ่านมา “Typhoon Isan” คลังทรัพยากรและเครื่องมือเทคโนโลยีภาษาอีสาน มาพร้อมโมเดลโอเพนซอร์ส ASR ที่พัฒนาขึ้นโดยใช้มาตรฐานการถอดเสียงและสะกดคำอย่างเป็นระบบและสามารถใช้ได้จริง พร้อมด้วยชุดข้อมูลภาษาแบบเปิดเพื่อสนับสนุนการศึกษาและการวิจัยด้าน AI ภาษาถิ่นในอนาคต
ที่มาของการสร้าง Typhoon Isan
จากข้อจำกัดของเทคโนโลยี AI ในปัจจุบันโดยเฉพาะ AI จากต่างประเทศ เราพบว่าเทคโนโลยีเสียงนั้นยังมีปัญหาในการใช้จริงอยู่มากมาย ระบบ ASR ส่วนใหญ่รองรับเฉพาะภาษาไทยกลาง ไม่สามารถรองรับภาษาถิ่นได้อย่างแม่นยำ ซึ่งก็ไม่น่าแปลกใจเพราะภาษาถิ่นในไทยน้ันไม่ใช่ตลาดที่ใหญ่เพียงพอสำหรับบริษัทต่างประเทศ อีกทั้งข้อมูลที่มีคุณภาพในการนำมาเทรนโมเดลก็หาได้ยาก แม้แต่ Typhoon ASR ที่เราเคยเปิดตัวไปก่อนหน้านี้ก็ได้รับการเทรนด้วยข้อมูลภาษาไทยกลางเป็นหลัก
พวกเราเชื่อว่าเทคโนโลยีนี้ควรถูกสร้างขึ้นเพื่อทุกคนในประเทศไทยอย่างแท้จริง หนึ่งปีที่แล้วทีม Typhoon จึงเริ่มต้นโครงการ Typhoon Isan โดยเลือกภาษาอีสานเป็นภาษาถิ่นแรก เหตุผลเพราะว่าภาษาอีสานเป็นภาษาที่มีผู้พูดอยู่เป็นจำนวนมาก คิดเป็นสัดส่วนถึงหนึ่งในสามของประชากรของประเทศ
ภารกิจในการสร้าง AI เพื่อคนไทยคือแนวทางที่เราใช้ในการดำเนินโครงการนี้ ดังนั้นโครงการนี้จึงไม่ใช่แค่การสร้างโมเดลเท่านั้น แต่ยังรวมถึงการสร้างทรัพยากร NLP สำหรับภาษาถิ่น ในฐานะทีมที่ประกอบด้วยนักภาษาศาสตร์ นักวิจัย วิศวกร รวมถึงนักการตลาดและผู้มีประสบการณ์ในภาคธุรกิจ พวกเราทั้งหมดตื่นเต้นที่ได้มีส่วนร่วมในความสำเร็จขั้นต้นนี้
ความยากของการพัฒนา AI ภาษาถิ่นและ Typhoon Isan
เราพบว่าการพัฒนา AI ภาษาอีสานหรือ AI ภาษาถิ่นใดๆ นั้นมีความท้าทายหลักสองประการ
-
ภาษาอีสานเป็นภาษาพูด ไม่มีระบบการสะกดคำที่ชัดเจน
เราพบว่าภาษาอีสานยังไม่มีพจนานุกรมสำหรับอ้างอิงการสะกด หรือมาตรฐานการถอดเสียงที่มีการใช้กันอย่างแพร่หลาย ซึ่งทำให้การพัฒนาโมเดลถอดเสียงเป็นข้อความอย่าง ASR เป็นเรื่องยาก (จะเขียนเป็นข้อความว่าอย่างไร?) ทีมภาษาศาสตร์ของเราจึงทำงานอย่างหนักและใกล้ชิดกับผู้พูดในพื้นที่ ครู และผู้เชี่ยวชาญ เพื่อกำหนดรูปแบบการถอดเสียงและการสะกดคำที่เป็นระบบ ก่อนจะเริ่มกระบวนการฝึกโมเดล
-
ภาษาอีสานเป็นภาษาที่มีทรัพยากรน้อยมาก (low-resource language)
เราพูดถึงภาษาไทย(กลาง)ว่าเป็นภาษาที่มีทรัพยากรจำกัดอยู่แล้ว การทำงานกับภาษาถิ่นยิ่งทำให้ข้อจำกัดนี้เด่นชัดขึ้นอีก ชุดข้อมูลคุณภาพสูงมีอยู่อย่างจำกัดมาก ทีมภาษาศาสตร์ของ Typhoon จึงทำหน้าที่เก็บข้อมูลเสียงจากผู้เจ้าของภาษาในพื้นที่โดยตรง จากนั้นจึงคัดกรองและกำกับข้อมูล (annotate) ตามแนวทางที่กำหนดไว้
ผลงานที่เราเผยแพร่
ภายใต้โครงการ Typhoon Isan เรากำลังเผยแพร่ทั้งรากฐานทางภาษาและเครื่องมือทางเทคนิคที่จำเป็นสำหรับ AI ภาษาท้องถิ่น ไม่ว่าจะเป็นชุดข้อมูลแบบเปิด แนวทางการสะกดและการถอดความ และโมเดล ASR สองตัวที่ออกแบบมาเพื่อรองรับภาษาอีสาน
1. ชุดข้อมูลเสียงและทรัพยากร NLP ภาษาอีสาน
ทั้งหมดนี้คือทรัพยากรทางภาษาที่เราได้สร้างขึ้นและใช้ในการพัฒนาโมเดลอีสาน เรานำทรัพยากรเหล่านี้มาเผยแพร่เพื่อให้นักวิจัยและนักพัฒนาสามารถนำไปต่อยอดได้
1.1 Isan Speech Corpus ชุดข้อมูลภาษาอีสาน


ชุดข้อมูลเสียงพูดภาษาอีสานจากหลายจังหวัดในภาคตะวันออกเฉียงเหนือ ประกอบไปด้วยไฟล์เสียงพูด ข้อความการถอดเสียงพูด และ Metadata เกี่ยวกับภูมิลำเนาของผู้พูด โดยเป็นการพูดตอบคำถามหรือให้ความคิดเห็นแบบไม่มีสคริปต์ เป็นการพูดสดเพื่อตอบคำถามในเนื้อหาทั่วไปในชีวิตประจำวันและเนื้อหาที่เกี่ยวข้องกับการเงิน
เข้าถึงชุดข้อมูลนี้ได้ผ่านทาง Hugging Face
1.2 อักขรวิธีการสะกดคำภาษาอีสานด้วยอักษรไทย (Isan Spelling Standard)

เอกสารรวบรวมอักขรวิธีการสะกดคำภาษาอีสานด้วยอักษรไทย
1.3 แนวทางการถอดเสียงภาษาอีสาน (Isan Speech Transcription Convention)

แนวทางการถอดเสียงภาษาอีสานเป็นข้อความสำหรับการสร้างชุดข้อมูลเพื่องานด้านเทคโนโลยีทางเสียง
1.4 พจนานุกรมคำอ่าน (Isan Phonetic Dictionary)

พจนานุกรมคำอ่านที่ได้รับการจับคู่คำกับการออกเสียงในภาษาอีสาน โดยมีกำหนดแนวทางตัวแทนเสียงอย่างเป็นระบบ เพื่อสนับสนุนการพัฒนา ASR และ TTS
เข้าถึงชุดข้อมูลนี้ได้ผ่านทาง Hugging Face
1.5 การจัดกลุ่มสำเนียงอีสาน (Isan Dialect Classification)

รายงานเชิงวิเคราะห์เกี่ยวกับความแตกต่างของสำเนียงอีสานในแต่ละจังหวัดทางภาคตะวันออกเฉียงเหนือ โดยใช้ลักษณะทางภาษาศาสตร์ในการจัดกลุ่ม
1.6 Technical Report
รายงานเชิงเทคนิคที่อธิบายกระบวนการสร้างแนวทางการเลือกสำเนียง การสะกดคำ การถอดเสียง และการสร้างชุดข้อมูลอย่างละเอียด
2. Typhoon Isan ASR
Typhoon Isan ASR เป็นโมเดล Automatic Speech Recognition (ASR) แบบโอเพนซอร์ส ที่สามารถถอดเสียงภาษาอีสานเป็นข้อความได้อย่างแม่นยำ โดยใช้มาตรฐานการถอดเสียงที่เราได้พัฒนาและเผยแพร่ไว้ มีให้เลือกสองโมเดลเพื่อรองรับความเหมาะสมต่อการใช้งาน:
2.1 Typhoon Isan ASR Real-time

Typhoon Isan ASR Real-time เป็นโมเดลการรู้จำเสียงพูดแบบโอเพนซอร์ส ที่ออกแบบมาเพื่อรองรับภาษาอีสานควบคู่ไปกับภาษาไทยกลาง โมเดลนี้ทำงานด้วยความเร็วสูง แม่นยำ มีความหน่วงต่ำ ทำให้เหมาะอย่างยิ่งสำหรับแอปพลิเคชันแบบเรียลไทม์ เช่น การประชุมออนไลน์ แคปชันสด หรือระบบผู้ช่วยอัจฉริยะที่โต้ตอบทันที และสามารถใช้งานได้ด้วยฮาร์ดแวร์ทั่วไป ไม่ต้องมี GPU
โมเดลนี้ได้รับการปรับแต่ง (fine-tune) จาก Typhoon ASR Real-time ซึ่งใช้สถาปัตยกรรม NVIDIA NeMo fastConformer-transducer-large และได้รับการเพิ่มประสิทธิภาพเพื่อจัดการกับความยากที่ระบบ ASR หลักมักเผชิญเมื่อรับมือกับภาษาถิ่นของประเทศไทย
2.2 Typhoon Isan ASR Whisper

Typhoon Isan ASR Whisper เป็นโมเดล ASR โอเพนซอร์สสำหรับเสียงพูดภาษาไทย ที่ได้รับการปรับแต่ง (fine-tune) เพื่อรองรับภาษาอีสาน โดยปรับแต่งจาก Whisper Medium (Biodatlab) ซึ่งสร้างขึ้นด้วยสถาปัตยกรรม Whisper ของ OpenAI โมเดลนี้จึงสามารถรองรับได้ทั้งเสียงพูดภาษาไทย รวมถึงการสลับภาษา (code-switching) กับภาษาอังกฤษและภาษาอื่นๆ ได้
โมเดลรุ่นนี้มีเป้าหมายเพื่อแก้ปัญหาข้อจำกัดของระบบ ASR ทั่วไปซึ่งมักไม่สามารถจดจำภาษาถิ่นในภูมิภาคได้อย่างแม่นยำ โดยยังคงจุดเด่นเรื่องการใช้งานร่วมกับ pipeline มาตรฐานของ Whisper
เปรียบเทียบ Typhoon Isan ASR Real-time เทียบกับ Typhoon Isan ASR Whisper
เลือกใช้ Typhoon Isan ASR Real-time สำหรับการถอดเสียงสด หรือ Typhoon Isan ASR Whisper สำหรับการถอดเสียงที่มีความแม่นยำสูงจากไฟล์เสียงที่บันทึกไว้แล้ว
| คุณสมบัติ | Typhoon Isan ASR Real-Time | Typhoon Isan ASR Whisper |
|---|---|---|
| จุดเด่นหลัก | การทำงานแบบเรียลไทม์ มีความหน่วงต่ำ เหมาะกับแอปพลิเคชันที่ต้องการการตอบสนองทันที รันได้อย่างรวดเร็วบน CPU หรือ GPU ขนาดเล็ก เหมาะกับอุปกรณ์ Edge | ความแม่นยำสูงและรองรับหลายภาษา เหมาะกับงานที่ต้องการคุณภาพการถอดเสียงที่มากขึ้น |
| โหมดการทำงาน | รองรับสตรีมมิ่ง ถอดเสียงแบบทันทีจากเสียงขาเข้า | ทำงานแบบ Batch ถอดเสียงจากไฟล์เสียงที่บันทึกไว้แล้ว |
| ขนาดโมเดล | ประมาณ 115 ล้านพารามิเตอร์ (เล็กและเบามาก) | ประมาณ 800 ล้านพารามิเตอร์ (ใหญ่กว่า เหมาะกับงานเน้นคุณภาพ) |
| สถาปัตยกรรม | NVIDIA NeMo fastConformer-transducer-large | OpenAI Whisper Medium (fine-tuned by Biodatlab) |
| การใช้งานบนฮาร์ดแวร์ส่วนตัว (On-Premise) | รองรับเต็มรูปแบบ | รองรับเต็มรูปแบบ |
| ต้นทุนและการเข้าถึง | ต้นทุนต่ำมาก | ใช้ทรัพยากรมากกว่า แต่ยังคงต้นทุนต่ำเมื่อเทียบกับระบบพาณิชย์ |
การประเมินประสิทธิภาพการถอดเสียงของโมเดล
เราได้ทำการประเมินโมเดลของเราร่วมกับโมเดล ASR ต่างๆ ได้แก่ โมเดลขนาดใหญ่อย่าง Gemini โมเดลวิจัยทางวิชาการ และโมเดลที่อิงจาก Whisper โดยประเมินผลบนชุดทดสอบภาษาอีสานภายในของเราจำนวน 500 ไฟล์เสียงซึ่งมาจากผู้พูดหลากหลายเสียงจาก 10 จังหวัด ได้แก่ ขอนแก่น ร้อยเอ็ด อุดรธานี อุบลราชธานี ชัยภูมิ มหาสารคาม กาฬสินธุ์ หนองบัวลำภู สกลนคร และยโสธร
อัตราความผิดพลาดของตัวอักษร (CER)
Character Error Rate (CER) สื่อถึงระดับความแม่นยำในระดับตัวอักษร และเป็นตัวชี้วัดที่ใช้กันแพร่หลายในการประเมิน ASR ภาษาไทยและภาษาทรัพยากรน้อย
CER ยิ่งต่ำยิ่งดี หมายถึง ความแม่นยำในการถอดเสียงที่สูงขึ้น

ผลลัพธ์ CER เรียงลำดับตามความแม่นยำ
| โมเดล | CER | หมายเหตุ |
|---|---|---|
| typhoon-isan-asr-whisper | 0.0885 | พัฒนาจาก Whisper Medium ที่ฝึกด้วยชุดข้อมูล Typhoon Isan |
| Gemini-2.5-pro | 0.1020 | โมเดล ASR เชิงพาณิชย์ขนาดใหญ่ |
| typhoon-isan-asr-realtime | 0.1065 | พัฒนาจาก Typhoon ASR Real-time ที่ปรับจูนด้วยชุดข้อมูล Typhoon Isan |
| scb10x/whisper-medium-dialect-exp2-ep5 | 0.1772 | พัฒนาจาก Whisper Medium ที่ฝึกด้วยชุดข้อมูล SLSCU + NECTEC |
| SLSCU_korat_model | 0.7008 | โมเดลงานวิจัยจากจุฬาลงกรณ์มหาวิทยาลัย ฝึกฝนด้วยข้อมูลจากผู้พูดที่มาจากจังหวัดนครราชสีมา (โคราช) เป็นหลัก |
Typhoon Isan ASR มีประสิทธิภาพที่ได้แข่งขันได้กับ Gemini ในขณะที่ยังคงเป็นโมเดลแบบโอเพนซอร์สอย่างสมบูรณ์
โมเดล ASR ภาษาอีสานของเรามีระดับความแม่นยำเทียบเคียง (สำหรับเวอร์ชันเรียลไทม์) และเหนือกว่า (สำหรับ Whisper) เมื่อเทียบกับระบบขนาดใหญ่อย่าง Gemini ซึ่งแสดงให้เห็นว่าโมเดลเฉพาะโดเมนแบบโอเพนซอร์สสามารถเทียบเคียงหรือเหนือกว่าโซลูชันที่เป็นกรรมสิทธิ์ในภาษาท้องถิ่นได้
Whisper-medium-dialect baseline ช่วยให้เราเข้าใจว่าข้อมูลและมาตรฐานใหม่ของเราช่วยปรับปรุง ASR สำหรับภาษามาตรฐานได้มากเพียงใด
โมเดลที่มีฐาน Whisper เหมือนกัน แต่ฝึกบนชุดข้อมูลที่มีอยู่เดิม กับโมเดล Whisper ที่ฝึกบนชุดข้อมูลใหม่ เราสังเกตได้ว่าการเปลี่ยนชุดข้อมูลช่วยให้ Typhoon Isan ASR มีค่า CER ต่ำลงอย่างมีนัยสำคัญ ซึ่งแสดงให้เห็นว่า ชุดข้อมูลใหม่ แนวทางการถอดความอย่างมีระบบ และกระบวนการทางภาษาศาสตร์ที่เราพัฒนาขึ้น นำไปสู่การปรับปรุงความแม่นยำได้โดยตรง
วิดีโอสาธิตผลลัพธ์
วิดีโอนี้แสดงตัวอย่างผลลัพธ์ของ Typhoon Isan ASR และ Typhoon Isan TTS
วิดีโอนี้สาธิตระบบอัจฉริยะที่โต้ตอบด้วยเสียง (intelligent voice agent) ซึ่งสร้างโดยการเชื่อมโยงระหว่าง Typhoon Isan ASR, Typhoon Isan TTS และ Typhoon LLM (Typhoon 2.5) เพื่อแสดงให้เห็นถึงความเป็นไปได้ทางเทคโนโลยีในปัจจุบัน
สรุปช่องทางการเข้าถึงทรัพยากรทั้งหมดของ Typhoon Isan
Typhoon Isan ASR
-
Typhoon Isan ASR Real-time
-
Typhoon Isan ASR Whisper
Isan Speech Corpus
ทรัพยากรและงานวิจัยเชิงภาษา
พร้อมสู่โอกาสอีกมากมายข้างหน้า
Typhoon Isan เป็นก้าวสำคัญในวิสัยทัศน์ของเรา นั่นคือการสร้าง AI เพื่อประเทศไทย เป็น AI ที่เข้าใจภาษา วัฒนธรรม และรองรับอัตลักษณ์ของผู้คนที่หลากหลายในประเทศไทย
เมื่อ AI สามารถประมวลผลภาษาท้องถิ่นได้ มันจะสร้างประโยชน์ที่ยิ่งใหญ่ได้อีกหลายอย่าง ตั้งแต่การสืบสานภาษาและวัฒนธรรมท้องถิ่น การเพิ่มการเข้าถึงข้อมูลและเทคโนโลยี ความเท่าเทียมทางเศรษฐกิจ และการเสริมพลังให้แก่ผู้คนหลายล้านคนที่มักไม่ได้รับประโยชน์สูงสุดในโลกดิจิทัลอย่างเพียงพอ
ประโยชน์สำหรับผู้ใช้งาน
-
เข้าถึงเทคโนโลยี ASR ได้ง่ายขึ้น
เข้าถึง ASR ที่รองรับทั้งภาษาไทยกลางและภาษาอีสาน โดยไม่ต้องพึ่งพาบริการเทคโนโลยีจากต่างประเทศ
-
ลดต้นทุนในการพัฒนาและการใช้งาน
โมเดลขนาดเล็กและมีประสิทธิภาพพร้อมใบอนุญาตแบบเปิด ทำให้องค์กรสามารถรัน ASR ได้แม้บนอุปกรณ์ทั่วไป
-
ส่งเสริมการสื่อสารในภูมิภาคอีสาน
เปิดโอกาสให้ธุรกิจท้องถิ่น และหน่วยงานภาครัฐนำเทคโนโลยีเสียงมาใช้งานได้อย่างมีประสิทธิภาพมากขึ้น
-
สร้างความเสมอภาคทางภาษาใน AI
ช่วยให้ชุมชนชนบทเข้าถึง AI ในภาษาของตนเองได้มากยิ่งขึ้น
ตัวอย่างการใช้งาน
- ผู้ช่วยอัจฉริยะหรือศูนย์บริการลูกค้าที่รองรับภาษาอีสาน
- เครื่องมือสำหรับนักข่าวหรือนักวิจัยในการถอดเสียงบทสัมภาษณ์กับชุมชนท้องถิ่น
- อินเทอร์เฟซเสียงในเมืองอัจฉริยะ (Smart City) หรือบริการสาธารณะ
- หน่วยงานภาครัฐหรือองค์กรที่ต้องการถอดเสียงภาษาไทยและภาษาอีสาน
- งานมัลติมีเดีย เช่น การสร้างคำบรรยายอัตโนมัติ หรือการถอดเสียงพ็อดแคสต์
ทั้งหมดนี้เป็นเพียงจุดเริ่มต้น เพื่อต่อยอดให้โอกาสทั้งหมดนี้เป็นจริง พวกเราอยากขอเชิญชวนนักพัฒนา นักวิจัย หรือใครก็ตามที่ใส่ใจในเทคโนโลยีภาษาถิ่น มาร่วมใช้งานและต่อยอดชุดข้อมูล ทดลองใช้โมเดล และร่วมสร้างสรรค์ไปกับเรา
เพื่อให้ผลงานนี้ได้รับการต่อยอดต่อจากชุมชน เราจึงได้จัดงาน “TYPHOON เฮ็ดให้ AI ใจอีสาน” เพื่อสร้างวงสนทนาเกี่ยวกับ AI ท้องถิ่น และรวมภาคส่วนต่างๆ ในงานทั้งภาคธุรกิจ ผู้ให้บริการเทคโนโลยี นักวิจัยด้าน AI นักวิจัยภาษาศาสตร์ และผู้ใช้งานทั่วไป เนื้อหาต่างๆ ในงานนี้จะถูกบันทึกและเผยแพร่ในบล็อกในเร็วๆ นี้ค่ะ



