รู้จักกับ Typhoon ASR Real-Time
เปิดตัว Typhoon ASR Real-Time โมเดล Automatic Speech Recognition (ASR) หรือที่หลายคนอาจเรียกว่า Speech to Text แบบโอเพนซอร์สรุ่นใหม่ล่าสุด โมเดลนี้ให้การถอดเทปที่รวดเร็วและแม่นยำ เร็วในระดับที่ใช้งานแบบสตรีมมิ่งได้ อีกทั้งยังรันได้เบาอย่างมีประสิทธิภาพโดยสามารถใช้เพียง CPUs ทั่วไป ทำให้ทุกคนสามารถโฮสต์บริการ ASR ของตัวเองได้โดยไม่ต้องลงทุนกับฮาร์ดแวร์ราคาแพง หรือส่งข้อมูลที่ละเอียดอ่อนไปยังคลาวด์ของบุคคลที่สาม
เราเชื่อว่าเทคโนโลยีนี้จะปฏิวิติการเข้าถึงบริการ ASR และทำให้แอปพลิเคชันภาษาไทยดีๆ ที่ต้องการฟีเจอร์นี้ สามารถแพร่หลายและทำได้ง่ายยิ่งขึ้น
จุดเด่น
- ⚡ รองรับการสตรีมจริง: ถอดเสียงภาษาไทยได้แทบจะทันทีตามที่เสียงเข้ามา
- 💻 ประสิทธิภาพที่ปรับเพื่อ CPU: ปรับแต่งเพื่อทำงานบน CPU โดยไม่ต้องพึ่งพา GPU ราคาแพงและสามารถ deploy ได้แม้ในสภาพแวดล้อมที่มีข้อจำกัดด้านหน่วยความจำ
- 🔒 ออกแบบโดยคำนึงถึงความเป็นส่วนตัว: รองรับการใช้งานแบบ on-premises ทำให้ข้อมูลเสียงที่สำคัญอยู่ภายใต้การควบคุมของคุณเอง
- 🎯 การปรับแต่งที่เข้าถึงได้: โมเดลมีขนาดกะทัดรัด สามารถปรับแต่ง (fine-tune) ได้ด้วยทรัพยากรเพียงเล็กน้อย แม้กระทั่งบน Google Colab
- 💰 การใช้งานที่ประหยัด: โฮสต์และรันได้ในราคาประหยัด ทำให้ ASR ภาษาไทยแบบเรียลไทม์มีต้นทุนที่ต่ำและเข้าถึงได้จริงสำหรับทุกคน
เทคโนโลยี Speech-to-Text ที่ประหยัดคุ้มค่าที่สุดในตลาด
เราภูมิใจที่ได้ทำให้โซลูชัน Speech-to-Text เข้าถึงได้สำหรับทุกคน ลดกำแพงเรื่องต้นทุนและค่าใช้จ่ายในการใช้งานได้อย่างมหาศาล
- ใช้ฟรีสำหรับการใช้งานทั่วไป: รันบน CPU ได้โดยตรง ไม่ต้องใช้ GPU หรือเสียค่าบริการคลาวด์ บุคคลทั่วไปที่มีคอมพิวเตอร์สามารถใช้งานได้เลย
- ประหยัดอย่างยิ่งเมื่อใช้งานปริมาณมาก: รองรับการประมวลผลงานปริมาณมหาศาลในราคาที่ถูกมาก
- ค่าใช้จ่ายที่เกิดขึ้นนั้นอยู่ที่เพียง 8 สตางค์ ต่อชั่วโมง จากการทดสอบรันบน NVIDIA L4 (ซึ่งเป็นตัวเลือก GPU ที่มีให้ใช้บน GCP, AWS) ทดสอบด้วยไฟล์เสียง 1,000 ไฟล์ ความยาวรวม 20,000 วินาที
- นอกจากนี้เรายังพบว่า ค่าใช้จ่ายสามารถลดลงได้อีกเหลือเพียง 2 สตางค์ ($0.0006) ต่อชั่วโมง จากการทดสอบเดียวกันรันบน NVIDIA RTX 2000 Ada (ซึ่งเป็น GPU ขนาดกะทัดรัด ราคาที่เอื้อมถึงในการซื้อใช้เองแบบ on-premises)
- ถูกกว่าโมเดลทางเลือกอื่น ๆ
ถูกกว่า Whisper API ถึง 156 เท่า และถูกกว่า Google หรือ Azure มากกว่า 400 เท่า
ตารางเปรียบเทียบราคา
Real-Time ASR Solution | ราคาต่อชั่วโมง (USD) | ที่มา |
---|---|---|
Typhoon ASR Real-Time | $0.0023 | ทดสอบบนคลาวด์ NVIDIA L4 ด้วยไฟล์ 20,000 วินาที |
Whisper API | $0.36 | โมเดลโอเพนซอร์สนี้มีผู้ให้บริการ API หลายราย โดยราคาในตารางมาจากราคาอ้างอิงของ OpenAI |
Google Speech-to-Text | $0.96 | Google Cloud Speech-to-Text V2 อ้างอิง |
Azure Speech-to-Text | $1.00 | Azure Speech-to-Text Standard Real-Time Transcription อ้างอิง |
กราฟเปรียบเทียบราคา

ตัวเลขนี้แปลว่าอะไร?
แปลว่าราคาการใช้งาน Typhoon ASR Real-Time เป็นชั่วโมงๆ นั้นถูกมากถึงขนาดว่า หากคุณต้องการถอดเสียงพูดความยาว 720 ชั่วโมง (เทียบเท่ากับการพูดไม่หยุด 1 เดือนเต็ม) ก็จะมีค่าใช้จ่ายที่ประมาณ $1.65 หรือประมาณ 55 บาทเท่านั้น
เปรียบเทียบแบบง่ายๆ ว่าราคาการใช้งานไฟล์พูดยาวไม่หยุดทั้งเดือน ถูกกว่าค่าอาหารหรือค่ากาแฟใจกลางกรุงเทพซะอีก และแน่นอนว่าราคาถูกกว่า Google Cloud หรือ Azure Speech-to-Text หลายร้อยเหรียญ

ตัวอย่างผลลัพธ์
มาลองดู Typhoon ASR Real-Time ทำงานจริงในการถอดเสียงภาษาไทยจากเสียงพูด
เดโมนี้ประกอบด้วย:
- การพูดตัวเลข: ตัวเลขที่พูดออกมาจะถูกถอดเสียงเป็นรูปแบบคำอ่านเพื่อความถูกต้อง (เคล็ดลับ: คุณสามารถใช้ LLM ช่วยปรับแต่งให้อยู่ในรูปแบบตัวเลขหรือรูปแบบที่ต้องการได้เพิ่มเติม)
- บทสนทนาทางธุรกิจ: บทสนทนาภาษาไทยที่มีการพูดคำทับศัพท์ภาษาอังกฤษบางส่วน
โอกาสการนำไปใช้งานจริง (Real-World Applications)
Typhoon ASR Real-Time เปิดโอกาสสู่การนำไปใช้งานจริงหลากหลายแบบ เช่น
1. การถอดเสียงสดและการเพิ่มการเข้าถึง (Live Transcription & Accessibility)
ตัวอย่าง
-
การประชุมและสัมมนา: สร้างคำบรรยายภาษาไทยแบบเรียลไทม์สำหรับการประชุมธุรกิจและเว็บบินาร์
-
การออกอากาศ: คำบรรยายสดสำหรับโทรทัศน์ วิทยุ และคอนเทนต์สตรีมมิง
-
การเข้าถึงสำหรับทุกคน: เพิ่มช่องทางการเข้าถึงให้กับผู้พิการหรือผู้บกพร่องทางการได้ยิน
2. เวิร์กโฟลว์ที่ขับเคลื่อนด้วยเสียง (Voice-Driven Workflows)
-
การเขียนตามคำบอกและเอกสาร: แปลงเสียงพูดเป็นข้อความทันทีสำหรับรายงาน แบบฟอร์ม และการป้อนข้อมูล
-
การสื่อสารกับลูกค้า: การถอดเสียงและวิเคราะห์คุณภาพการสนทนาสำหรับทีมสนับสนุน
3. ความเป็นส่วนตัวและความคุ้มค่าสำหรับทุกคน (Private & Affordable for Everyone)
-
ด้านการแพทย์และกฎหมาย หรือธุรกิจที่ต้องการความเป็นส่วนตัว: การถอดเสียงภายในองค์กรพร้อมการรักษาความลับเต็มรูปแบบ
-
ธุรกิจขนาดเล็ก: ใช้งาน ASR ได้โดยไม่ต้องจ่ายค่าบริการ API หรือคลาวด์รายเดือน
-
ผู้สร้างคอนเทนต์และผู้สอน: สร้างบทถอดเสียงสำหรับพอดแคสต์ วิดีโอ และการบรรยายภาษาไทยได้ในต้นทุนต่ำ
งานวิจัยและการพัฒนาด้านเทคโนโลยี (Research & Technology Contributions)
ในการสร้าง Typhoon ASR Real-Time เราได้เริ่มจากการศึกษาข้อจำกัดของโมเดล ASR แบบโอเพนซอร์สที่มีอยู่ แม้ว่าโมเดลอย่าง OpenAI Whisper, Thonburian Whisper และ Pathumma Whisper จะได้สร้างมาตรฐานใหม่ด้านความแม่นยำในการถอดเสียงแบบออฟไลน์ แต่ยังไม่ตอบโจทย์การใช้งานแบบเรียลไทม์และสตรีมมิ่ง ช่องว่างนี้เองที่เป็นแรงบันดาลใจให้เราออกแบบสถาปัตยกรรมใหม่ที่เหมาะสมกับการถอดเสียงภาษาไทยแบบเรียลไทม์และมีความหน่วงต่ำ
ข้อจำกัดของโมเดล ASR ปัจจุบัน
ระบบโอเพนซอร์สชั้นนำสามารถทำงานได้ดีในโหมด batch transcription กล่าวคือเมื่อได้รับไฟล์เสียงที่สมบูรณ์ ก็สามารถสร้างผลลัพธ์การถอดเสียงที่แม่นยำสูง เหมาะกับงานอย่างพอดแคสต์ การบรรยายที่บันทึกไว้ หรือการประมวลผลย้อนหลัง แต่ยังมีข้อท้าทายหลายประการในสถานการณ์เรียลไทม์ ได้แก่
- สถาปัตยกรรมแบบ Non-causal: โมเดลต้องอาศัยข้อมูลจากบริบทในประโยคที่ตามหลัง ซึ่งไม่สามารถใช้ได้ในงานแบบสตรีมมิ่งสด
- ปัญหาการตัดแบ่งเสียง (Chunking artifacts): การแบ่งไฟล์เสียงเป็นชิ้นย่อยอาจทำให้คำถูกตัดครึ่งและเกิดข้อผิดพลาด
- ภาระการประมวลผลซ้ำ: ส่วนเสียงที่ทับซ้อนจะถูกประมวลผลซ้ำ ทำให้ใช้ทรัพยากรอย่างไม่มีประสิทธิภาพ
- ความหน่วง: ต้องรอเสียงให้ได้ขนาดใหญ่พอจึงจะเริ่มถอดเสียง ทำให้เกิดความหน่วงในการใช้งานจริง
ข้อจำกัดเหล่านี้ทำให้โมเดลโอเพนซอร์สเหล่านี้ยังไม่ได้ออกแบบมาให้เหมาะกับงานถอดเสียงสดอย่างแท้จริง
ในขณะเดียวกัน โซลูชันเชิงพาณิชย์ที่มีให้บริการแบบสตรีมมิ่งหรือเรียลไทม์ก็ยังมีอุปสรรค ได้แก่
- ต้นทุนและการใช้ทรัพยากรสูง: ต้องใช้โครงสร้างพื้นฐาน GPU ราคาแพง หรือเสียค่าธรรมเนียม API รายเดือน
- ความเสี่ยงด้านความเป็นส่วนตัว: ต้องส่งข้อมูลเสียงที่อ่อนไหวไปยังเซิร์ฟเวอร์บุคคลที่สาม
แนวทางการพัฒนา Typhoon ASR Real-Time
Typhoon ASR Real-Time ถูกออกแบบมาเพื่อแก้ปัญหาข้อจำกัดเหล่านี้ ด้วยสถาปัตยกรรมที่สามารถถอดเสียงได้อย่างต่อเนื่องในขณะที่มีการพูด โมเดลนี้สามารถให้ผลลัพธ์ได้ทันทีที่มีความมั่นใจเพียงพอ ส่งผลให้การถอดเสียงมีความหน่วงที่ต่ำ
โมเดลนี้พัฒนาต่อยอดมาจากสถาปัตยกรรม fastConformer-transducer-large ของ NVIDIA NeMo ซึ่งถูกเลือกมาเพื่อสร้างสมดุลระหว่าง ความเร็ว ความแม่นยำ และประสิทธิภาพ
คุณสมบัติหลัก
-
สถาปัตยกรรมแบบ causal transducer: ประมวลผลเสียงตามลำดับโดยไม่ต้องอ้างอิงข้อมูลในอนาคต รองรับการสตรีมจริง
-
การถอดเสียงหน่วงต่ำ: Encoder และ Decoder ทำงานประสานกันโดยใช้ buffer เพียงเล็กน้อย
-
ปรับขยายและยืดหยุ่นได้: ทำงานได้ทั้งบน CPU มาตรฐาน GPU ขนาดกะทัดรัด ไปจนถึงระบบขนาดใหญ่ในระดับโปรดักชัน
ด้วยการประมวลผลเสียงเป็นชิ้นเล็ก ๆ พร้อมรักษาบริบทต่อเนื่องระหว่างประโยคย่อยๆ ทำให้ Typhoon ASR Real-Time มอบทั้งความรวดเร็วแบบสตรีมมิ่ง และความแม่นยำที่ตอบโจทย์การใช้งานจริง
ผลการทดสอบวัดประสิทธิภาพ
Typhoon ASR Real-Time ได้รับการทดสอบกับชุดข้อมูลที่ประกอบไปด้วยประโยคที่หลากหลาย ทั้งหมด 970 ประโยคจาก GigaSpeech2 และ 1,021 ประโยคจากชุดทดสอบ Google FLEURS โดยมีการประเมินทั้ง ความแม่นยำ และ ประสิทธิภาพด้านการประมวลผล (throughput)
เกณฑ์การประเมิน (Evaluation Metrics)
- Character Error Rate (CER): วัดความแม่นยำในการถอดเสียง ค่ายิ่งต่ำยิ่งดี
- RTFx (Real-Time Factor X): อัตราส่วนระหว่างความยาวไฟล์เสียงกับเวลาที่ใช้ในการประมวลผล ค่ายิ่งสูงหมายถึงความเร็วที่มากกว่า
ผลลัพธ์ (Results)
Typhoon ASR Real-Time แสดงให้เห็นถึง ความเร็วและประสิทธิภาพที่โดดเด่น:
- ⚡ ความเร็ว 4,097 RTFx ซึ่งเร็วกว่าโมเดลที่เร็วที่สุดในลำดับถัดมาถึง 6x
- 🎯 ความแม่นยำระดับแข่งขันได้ ด้วยค่า CER เท่ากับ 0.0984 ใกล้เคียงกับโมเดลชั้นนำ
- 📊 เร็วกว่าตระกูล Whisper ถึง 15–19× ขณะที่ยังคงคุณภาพการถอดเสียงที่ใกล้เคียงกัน
ผลลัพธ์นี้แสดงให้เห็นว่า Typhoon ASR Real-Time เป็นนวัตกรรมสำคัญสำหรับ การถอดเสียงภาษาไทยในระดับ production ที่ผสานทั้ง ความหน่วงต่ำ และ การรองรับงานปริมาณสูง ได้อย่างมีประสิทธิภาพ

Typhoon ASR Real-Time มอบความเร็วพร้อมความแม่นยำที่แข่งขันได้ โดยมีความเร็วมากกว่าตระกูล Whisper ถึง 19×
เริ่มต้นลองใช้ Typhoon ASR Real-Time ได้แล้ววันนี้
เราเปิดช่องทางการใช้งานและเข้าถึงโมเดล Typhoon ASR Real-Time เอาไว้ในหลากหลายช่องทางต่างๆ ดังนี้
-
🌐 Web Playground: ทดลองใช้งานได้ทันทีผ่านเว็บเบราเซอร์ เหมาะสำหรับบุคคลทั่วไปและการใช้งานปริมาณไม่มาก
-
🔌 Typhoon API: เรียกใช้งาน ASR ได้โดยตรงจากแอปของคุณโดยไม่ต้องโฮสต์เอง เรามี API ฟรีให้ใช้งาน เหมาะสำหรับการสร้างต้นแบบและ POC
-
🖥️ Self-Hosting: รันบนอุปกรณ์ของคุณเอง (CPU หรือ GPU) เหมาะสำหรับองค์กรหรือผู้ใช้งานที่มีทักษะด้านเทคนิคและต้องการการควบคุมเต็มรูปแบบ
-
🤗 Model Weights บน Hugging Face: ดาวน์โหลด ทดลอง และปรับแต่ง (fine-tune) ASR ของคุณเองได้
ข้อจำกัดและแผนการพัฒนาในอนาคต
ข้อจำกัดปัจจุบัน
- โฟกัสที่การถอดเสียงเท่านั้น: โดยแปลงเสียงทั้งหมดที่ได้ยินเป็นข้อความตรงๆ ยังไม่มีความสามารถในการโต้ตอบกับโมเดลด้วย prompt แบบ LLM
- ถอดเสียงโดยไม่ระบุผู้พูด: สร้างข้อความต่อเนื่องโดยไม่มีการระบุผู้พูด (diarization) ถอดว่าพูดอะไร ไม่ได้บอกว่าใครพูด ในกรณีที่มีหลายผู้พูด
- ข้อจำกัดเรื่องเสียงรบกวน: ประสิทธิภาพลดลงเมื่อมีเสียงรบกวนมาก การพูดซ้อน หรือคุณภาพเสียงต่ำ
- ความท้าทายในการสลับภาษา: โมเดลยังมีความแม่นยำจำกัดเมื่อต้องเจอกับคำยืมภาษาอังกฤษหรือการสลับภาษาไทย-อังกฤษที่พบได้บ่อยในบทสนทนาสมัยใหม่
การพัฒนาในอนาคต
จากข้อจำกัดดังกล่าว สิ่งที่อยู่ในแผนการพัฒนาของเราซึ่งเรามองว่ามีประโยชน์ต่อผู้ใช้งานจริง ได้แก่
- รองรับการสลับภาษาได้ดียิ่งขึ้น: เพิ่มความแม่นยำในการถอดเสียงที่มีการสลับภาษาไทย-อังกฤษและคำยืม เพื่อการสนทนาที่เป็นธรรมชาติยิ่งขึ้น
- ความทนทานต่อเสียงรบกวน: เทรนด้วยชุดข้อมูลเสียงที่หลากหลายและท้าทาย เพื่อรองรับสภาพแวดล้อมจริงได้ดียิ่งขึ้น
- ฟีดแบ็กที่ขับเคลื่อนโดยชุมชน: พัฒนาโดยคำนึงถึงฟีดแบ็กของผู้ใช้และนักพัฒนาไทยเป็นผู้มีส่วนร่วม
ฟีดแบ็กของคุณมีคุณค่าต่อการพัฒนาโมเดลให้ดียิ่งขึ้น
นี่เป็นเพียงจุดเริ่มต้นของโมเดล Typhoon ASR เรามุ่งมั่นที่จะปรับปรุงอย่างต่อเนื่องจากการใช้งานจริงและฟีดแบ็กของชุมชน
ถ้าคุณพบคำหรือคำศัพท์ที่โมเดลของเราถอดเสียงได้ไม่ดี ช่วยบอกเราได้เลย เพียงให้ข้อมูลกับเราผ่านช่องแจ้งคำผิดใน Web Playground หรือติดต่อเราทางชุมชน Typhoon Discord