Typhoon Logo
TYPHOON
เปิดตัว Typhoon ASR Real-Time โมเดลโอเพนซอร์สถอดเสียงเป็นข้อความ มอบความเร็ว เบา ประหยัด และเป็นส่วนตัวกว่าที่เคย

เปิดตัว Typhoon ASR Real-Time โมเดลโอเพนซอร์สถอดเสียงเป็นข้อความ มอบความเร็ว เบา ประหยัด และเป็นส่วนตัวกว่าที่เคย

New Release
Typhoon ASR Real-Time
ASR
Audio Language

โมเดลถอดเสียงเป็นข้อความนี้มอบประสบการณ์การถอดเสียงแบบสตรีมมิ่งที่รวดเร็ว แม่นยำ เบาและประหยัด เปิดประตูให้ใคร ๆ ก็สามารถใช้งาน ASR ได้โดยไม่ต้องเสียค่าใช้จ่ายสูง หรือส่งข้อมูลที่สำคัญไปยังคลาวด์ของบุคคลที่สาม

Warit Sirichotedamrong

Warit Sirichotedamrong

08 กันยายน 2568

เปิดตัว Typhoon ASR Real-Time โมเดลโอเพนซอร์สถอดเสียงเป็นข้อความ มอบความเร็ว เบา ประหยัด และเป็นส่วนตัวกว่าที่เคย

สารบัญ

รู้จักกับ Typhoon ASR Real-Time

เปิดตัว Typhoon ASR Real-Time โมเดล Automatic Speech Recognition (ASR) หรือที่หลายคนอาจเรียกว่า Speech to Text แบบโอเพนซอร์สรุ่นใหม่ล่าสุด โมเดลนี้ให้การถอดเทปที่รวดเร็วและแม่นยำ เร็วในระดับที่ใช้งานแบบสตรีมมิ่งได้ อีกทั้งยังรันได้เบาอย่างมีประสิทธิภาพโดยสามารถใช้เพียง CPUs ทั่วไป ทำให้ทุกคนสามารถโฮสต์บริการ ASR ของตัวเองได้โดยไม่ต้องลงทุนกับฮาร์ดแวร์ราคาแพง หรือส่งข้อมูลที่ละเอียดอ่อนไปยังคลาวด์ของบุคคลที่สาม

เราเชื่อว่าเทคโนโลยีนี้จะปฏิวิติการเข้าถึงบริการ ASR และทำให้แอปพลิเคชันภาษาไทยดีๆ ที่ต้องการฟีเจอร์นี้ สามารถแพร่หลายและทำได้ง่ายยิ่งขึ้น

จุดเด่น

  • ⚡ รองรับการสตรีมจริง: ถอดเสียงภาษาไทยได้แทบจะทันทีตามที่เสียงเข้ามา
  • 💻 ประสิทธิภาพที่ปรับเพื่อ CPU: ปรับแต่งเพื่อทำงานบน CPU โดยไม่ต้องพึ่งพา GPU ราคาแพงและสามารถ deploy ได้แม้ในสภาพแวดล้อมที่มีข้อจำกัดด้านหน่วยความจำ
  • 🔒 ออกแบบโดยคำนึงถึงความเป็นส่วนตัว: รองรับการใช้งานแบบ on-premises ทำให้ข้อมูลเสียงที่สำคัญอยู่ภายใต้การควบคุมของคุณเอง
  • 🎯 การปรับแต่งที่เข้าถึงได้: โมเดลมีขนาดกะทัดรัด สามารถปรับแต่ง (fine-tune) ได้ด้วยทรัพยากรเพียงเล็กน้อย แม้กระทั่งบน Google Colab
  • 💰 การใช้งานที่ประหยัด: โฮสต์และรันได้ในราคาประหยัด ทำให้ ASR ภาษาไทยแบบเรียลไทม์มีต้นทุนที่ต่ำและเข้าถึงได้จริงสำหรับทุกคน

เทคโนโลยี Speech-to-Text ที่ประหยัดคุ้มค่าที่สุดในตลาด

เราภูมิใจที่ได้ทำให้โซลูชัน Speech-to-Text เข้าถึงได้สำหรับทุกคน ลดกำแพงเรื่องต้นทุนและค่าใช้จ่ายในการใช้งานได้อย่างมหาศาล

  • ใช้ฟรีสำหรับการใช้งานทั่วไป: รันบน CPU ได้โดยตรง ไม่ต้องใช้ GPU หรือเสียค่าบริการคลาวด์ บุคคลทั่วไปที่มีคอมพิวเตอร์สามารถใช้งานได้เลย
  • ประหยัดอย่างยิ่งเมื่อใช้งานปริมาณมาก: รองรับการประมวลผลงานปริมาณมหาศาลในราคาที่ถูกมาก
    • ค่าใช้จ่ายที่เกิดขึ้นนั้นอยู่ที่เพียง 8 สตางค์ ต่อชั่วโมง จากการทดสอบรันบน NVIDIA L4 (ซึ่งเป็นตัวเลือก GPU ที่มีให้ใช้บน GCP, AWS) ทดสอบด้วยไฟล์เสียง 1,000 ไฟล์ ความยาวรวม 20,000 วินาที
    • นอกจากนี้เรายังพบว่า ค่าใช้จ่ายสามารถลดลงได้อีกเหลือเพียง 2 สตางค์ ($0.0006) ต่อชั่วโมง จากการทดสอบเดียวกันรันบน NVIDIA RTX 2000 Ada (ซึ่งเป็น GPU ขนาดกะทัดรัด ราคาที่เอื้อมถึงในการซื้อใช้เองแบบ on-premises)
  • ถูกกว่าโมเดลทางเลือกอื่น ๆ

ถูกกว่า Whisper API ถึง 156 เท่า และถูกกว่า Google หรือ Azure มากกว่า 400 เท่า

ตารางเปรียบเทียบราคา

Real-Time ASR Solutionราคาต่อชั่วโมง (USD)ที่มา
Typhoon ASR Real-Time$0.0023ทดสอบบนคลาวด์ NVIDIA L4 ด้วยไฟล์ 20,000 วินาที
Whisper API$0.36โมเดลโอเพนซอร์สนี้มีผู้ให้บริการ API หลายราย โดยราคาในตารางมาจากราคาอ้างอิงของ OpenAI
Google Speech-to-Text$0.96Google Cloud Speech-to-Text V2 อ้างอิง
Azure Speech-to-Text$1.00Azure Speech-to-Text Standard Real-Time Transcription อ้างอิง

กราฟเปรียบเทียบราคา

Typhoon ASR Real-Time Cost Comparison

ตัวเลขนี้แปลว่าอะไร?

แปลว่าราคาการใช้งาน Typhoon ASR Real-Time เป็นชั่วโมงๆ นั้นถูกมากถึงขนาดว่า หากคุณต้องการถอดเสียงพูดความยาว 720 ชั่วโมง (เทียบเท่ากับการพูดไม่หยุด 1 เดือนเต็ม) ก็จะมีค่าใช้จ่ายที่ประมาณ $1.65 หรือประมาณ 55 บาทเท่านั้น

เปรียบเทียบแบบง่ายๆ ว่าราคาการใช้งานไฟล์พูดยาวไม่หยุดทั้งเดือน ถูกกว่าค่าอาหารหรือค่ากาแฟใจกลางกรุงเทพซะอีก และแน่นอนว่าราคาถูกกว่า Google Cloud หรือ Azure Speech-to-Text หลายร้อยเหรียญ

ตัวอย่างผลลัพธ์

มาลองดู Typhoon ASR Real-Time ทำงานจริงในการถอดเสียงภาษาไทยจากเสียงพูด

เดโมนี้ประกอบด้วย:

  • การพูดตัวเลข: ตัวเลขที่พูดออกมาจะถูกถอดเสียงเป็นรูปแบบคำอ่านเพื่อความถูกต้อง (เคล็ดลับ: คุณสามารถใช้ LLM ช่วยปรับแต่งให้อยู่ในรูปแบบตัวเลขหรือรูปแบบที่ต้องการได้เพิ่มเติม)
  • บทสนทนาทางธุรกิจ: บทสนทนาภาษาไทยที่มีการพูดคำทับศัพท์ภาษาอังกฤษบางส่วน

โอกาสการนำไปใช้งานจริง (Real-World Applications)

Typhoon ASR Real-Time เปิดโอกาสสู่การนำไปใช้งานจริงหลากหลายแบบ เช่น

1. การถอดเสียงสดและการเพิ่มการเข้าถึง (Live Transcription & Accessibility)

ตัวอย่าง

  • การประชุมและสัมมนา: สร้างคำบรรยายภาษาไทยแบบเรียลไทม์สำหรับการประชุมธุรกิจและเว็บบินาร์

  • การออกอากาศ: คำบรรยายสดสำหรับโทรทัศน์ วิทยุ และคอนเทนต์สตรีมมิง

  • การเข้าถึงสำหรับทุกคน: เพิ่มช่องทางการเข้าถึงให้กับผู้พิการหรือผู้บกพร่องทางการได้ยิน

2. เวิร์กโฟลว์ที่ขับเคลื่อนด้วยเสียง (Voice-Driven Workflows)

  • การเขียนตามคำบอกและเอกสาร: แปลงเสียงพูดเป็นข้อความทันทีสำหรับรายงาน แบบฟอร์ม และการป้อนข้อมูล

  • การสื่อสารกับลูกค้า: การถอดเสียงและวิเคราะห์คุณภาพการสนทนาสำหรับทีมสนับสนุน

3. ความเป็นส่วนตัวและความคุ้มค่าสำหรับทุกคน (Private & Affordable for Everyone)

  • ด้านการแพทย์และกฎหมาย หรือธุรกิจที่ต้องการความเป็นส่วนตัว: การถอดเสียงภายในองค์กรพร้อมการรักษาความลับเต็มรูปแบบ

  • ธุรกิจขนาดเล็ก: ใช้งาน ASR ได้โดยไม่ต้องจ่ายค่าบริการ API หรือคลาวด์รายเดือน

  • ผู้สร้างคอนเทนต์และผู้สอน: สร้างบทถอดเสียงสำหรับพอดแคสต์ วิดีโอ และการบรรยายภาษาไทยได้ในต้นทุนต่ำ


งานวิจัยและการพัฒนาด้านเทคโนโลยี (Research & Technology Contributions)

ในการสร้าง Typhoon ASR Real-Time เราได้เริ่มจากการศึกษาข้อจำกัดของโมเดล ASR แบบโอเพนซอร์สที่มีอยู่ แม้ว่าโมเดลอย่าง OpenAI Whisper, Thonburian Whisper และ Pathumma Whisper จะได้สร้างมาตรฐานใหม่ด้านความแม่นยำในการถอดเสียงแบบออฟไลน์ แต่ยังไม่ตอบโจทย์การใช้งานแบบเรียลไทม์และสตรีมมิ่ง ช่องว่างนี้เองที่เป็นแรงบันดาลใจให้เราออกแบบสถาปัตยกรรมใหม่ที่เหมาะสมกับการถอดเสียงภาษาไทยแบบเรียลไทม์และมีความหน่วงต่ำ

ข้อจำกัดของโมเดล ASR ปัจจุบัน

ระบบโอเพนซอร์สชั้นนำสามารถทำงานได้ดีในโหมด batch transcription กล่าวคือเมื่อได้รับไฟล์เสียงที่สมบูรณ์ ก็สามารถสร้างผลลัพธ์การถอดเสียงที่แม่นยำสูง เหมาะกับงานอย่างพอดแคสต์ การบรรยายที่บันทึกไว้ หรือการประมวลผลย้อนหลัง แต่ยังมีข้อท้าทายหลายประการในสถานการณ์เรียลไทม์ ได้แก่

  • สถาปัตยกรรมแบบ Non-causal: โมเดลต้องอาศัยข้อมูลจากบริบทในประโยคที่ตามหลัง ซึ่งไม่สามารถใช้ได้ในงานแบบสตรีมมิ่งสด
  • ปัญหาการตัดแบ่งเสียง (Chunking artifacts): การแบ่งไฟล์เสียงเป็นชิ้นย่อยอาจทำให้คำถูกตัดครึ่งและเกิดข้อผิดพลาด
  • ภาระการประมวลผลซ้ำ: ส่วนเสียงที่ทับซ้อนจะถูกประมวลผลซ้ำ ทำให้ใช้ทรัพยากรอย่างไม่มีประสิทธิภาพ
  • ความหน่วง: ต้องรอเสียงให้ได้ขนาดใหญ่พอจึงจะเริ่มถอดเสียง ทำให้เกิดความหน่วงในการใช้งานจริง

ข้อจำกัดเหล่านี้ทำให้โมเดลโอเพนซอร์สเหล่านี้ยังไม่ได้ออกแบบมาให้เหมาะกับงานถอดเสียงสดอย่างแท้จริง

ในขณะเดียวกัน โซลูชันเชิงพาณิชย์ที่มีให้บริการแบบสตรีมมิ่งหรือเรียลไทม์ก็ยังมีอุปสรรค ได้แก่

  • ต้นทุนและการใช้ทรัพยากรสูง: ต้องใช้โครงสร้างพื้นฐาน GPU ราคาแพง หรือเสียค่าธรรมเนียม API รายเดือน
  • ความเสี่ยงด้านความเป็นส่วนตัว: ต้องส่งข้อมูลเสียงที่อ่อนไหวไปยังเซิร์ฟเวอร์บุคคลที่สาม

แนวทางการพัฒนา Typhoon ASR Real-Time

Typhoon ASR Real-Time ถูกออกแบบมาเพื่อแก้ปัญหาข้อจำกัดเหล่านี้ ด้วยสถาปัตยกรรมที่สามารถถอดเสียงได้อย่างต่อเนื่องในขณะที่มีการพูด โมเดลนี้สามารถให้ผลลัพธ์ได้ทันทีที่มีความมั่นใจเพียงพอ ส่งผลให้การถอดเสียงมีความหน่วงที่ต่ำ

โมเดลนี้พัฒนาต่อยอดมาจากสถาปัตยกรรม fastConformer-transducer-large ของ NVIDIA NeMo ซึ่งถูกเลือกมาเพื่อสร้างสมดุลระหว่าง ความเร็ว ความแม่นยำ และประสิทธิภาพ

คุณสมบัติหลัก

  • สถาปัตยกรรมแบบ causal transducer: ประมวลผลเสียงตามลำดับโดยไม่ต้องอ้างอิงข้อมูลในอนาคต รองรับการสตรีมจริง

  • การถอดเสียงหน่วงต่ำ: Encoder และ Decoder ทำงานประสานกันโดยใช้ buffer เพียงเล็กน้อย

  • ปรับขยายและยืดหยุ่นได้: ทำงานได้ทั้งบน CPU มาตรฐาน GPU ขนาดกะทัดรัด ไปจนถึงระบบขนาดใหญ่ในระดับโปรดักชัน

ด้วยการประมวลผลเสียงเป็นชิ้นเล็ก ๆ พร้อมรักษาบริบทต่อเนื่องระหว่างประโยคย่อยๆ ทำให้ Typhoon ASR Real-Time มอบทั้งความรวดเร็วแบบสตรีมมิ่ง และความแม่นยำที่ตอบโจทย์การใช้งานจริง


ผลการทดสอบวัดประสิทธิภาพ

Typhoon ASR Real-Time ได้รับการทดสอบกับชุดข้อมูลที่ประกอบไปด้วยประโยคที่หลากหลาย ทั้งหมด 970 ประโยคจาก GigaSpeech2 และ 1,021 ประโยคจากชุดทดสอบ Google FLEURS โดยมีการประเมินทั้ง ความแม่นยำ และ ประสิทธิภาพด้านการประมวลผล (throughput)

เกณฑ์การประเมิน (Evaluation Metrics)

  • Character Error Rate (CER): วัดความแม่นยำในการถอดเสียง ค่ายิ่งต่ำยิ่งดี
  • RTFx (Real-Time Factor X): อัตราส่วนระหว่างความยาวไฟล์เสียงกับเวลาที่ใช้ในการประมวลผล ค่ายิ่งสูงหมายถึงความเร็วที่มากกว่า

ผลลัพธ์ (Results)

Typhoon ASR Real-Time แสดงให้เห็นถึง ความเร็วและประสิทธิภาพที่โดดเด่น:

  • ความเร็ว 4,097 RTFx ซึ่งเร็วกว่าโมเดลที่เร็วที่สุดในลำดับถัดมาถึง 6x
  • 🎯 ความแม่นยำระดับแข่งขันได้ ด้วยค่า CER เท่ากับ 0.0984 ใกล้เคียงกับโมเดลชั้นนำ
  • 📊 เร็วกว่าตระกูล Whisper ถึง 15–19× ขณะที่ยังคงคุณภาพการถอดเสียงที่ใกล้เคียงกัน

ผลลัพธ์นี้แสดงให้เห็นว่า Typhoon ASR Real-Time เป็นนวัตกรรมสำคัญสำหรับ การถอดเสียงภาษาไทยในระดับ production ที่ผสานทั้ง ความหน่วงต่ำ และ การรองรับงานปริมาณสูง ได้อย่างมีประสิทธิภาพ


Typhoon ASR Real-Time มอบความเร็วพร้อมความแม่นยำที่แข่งขันได้ โดยมีความเร็วมากกว่าตระกูล Whisper ถึง 19×

เริ่มต้นลองใช้ Typhoon ASR Real-Time ได้แล้ววันนี้

เราเปิดช่องทางการใช้งานและเข้าถึงโมเดล Typhoon ASR Real-Time เอาไว้ในหลากหลายช่องทางต่างๆ ดังนี้

  • 🌐 Web Playground: ทดลองใช้งานได้ทันทีผ่านเว็บเบราเซอร์ เหมาะสำหรับบุคคลทั่วไปและการใช้งานปริมาณไม่มาก

  • 🔌 Typhoon API: เรียกใช้งาน ASR ได้โดยตรงจากแอปของคุณโดยไม่ต้องโฮสต์เอง เรามี API ฟรีให้ใช้งาน เหมาะสำหรับการสร้างต้นแบบและ POC

  • 🖥️ Self-Hosting: รันบนอุปกรณ์ของคุณเอง (CPU หรือ GPU) เหมาะสำหรับองค์กรหรือผู้ใช้งานที่มีทักษะด้านเทคนิคและต้องการการควบคุมเต็มรูปแบบ

  • 🤗 Model Weights บน Hugging Face: ดาวน์โหลด ทดลอง และปรับแต่ง (fine-tune) ASR ของคุณเองได้

ข้อจำกัดและแผนการพัฒนาในอนาคต

ข้อจำกัดปัจจุบัน

  • โฟกัสที่การถอดเสียงเท่านั้น: โดยแปลงเสียงทั้งหมดที่ได้ยินเป็นข้อความตรงๆ ยังไม่มีความสามารถในการโต้ตอบกับโมเดลด้วย prompt แบบ LLM
  • ถอดเสียงโดยไม่ระบุผู้พูด: สร้างข้อความต่อเนื่องโดยไม่มีการระบุผู้พูด (diarization) ถอดว่าพูดอะไร ไม่ได้บอกว่าใครพูด ในกรณีที่มีหลายผู้พูด
  • ข้อจำกัดเรื่องเสียงรบกวน: ประสิทธิภาพลดลงเมื่อมีเสียงรบกวนมาก การพูดซ้อน หรือคุณภาพเสียงต่ำ
  • ความท้าทายในการสลับภาษา: โมเดลยังมีความแม่นยำจำกัดเมื่อต้องเจอกับคำยืมภาษาอังกฤษหรือการสลับภาษาไทย-อังกฤษที่พบได้บ่อยในบทสนทนาสมัยใหม่

การพัฒนาในอนาคต

จากข้อจำกัดดังกล่าว สิ่งที่อยู่ในแผนการพัฒนาของเราซึ่งเรามองว่ามีประโยชน์ต่อผู้ใช้งานจริง ได้แก่

  • รองรับการสลับภาษาได้ดียิ่งขึ้น: เพิ่มความแม่นยำในการถอดเสียงที่มีการสลับภาษาไทย-อังกฤษและคำยืม เพื่อการสนทนาที่เป็นธรรมชาติยิ่งขึ้น
  • ความทนทานต่อเสียงรบกวน: เทรนด้วยชุดข้อมูลเสียงที่หลากหลายและท้าทาย เพื่อรองรับสภาพแวดล้อมจริงได้ดียิ่งขึ้น
  • ฟีดแบ็กที่ขับเคลื่อนโดยชุมชน: พัฒนาโดยคำนึงถึงฟีดแบ็กของผู้ใช้และนักพัฒนาไทยเป็นผู้มีส่วนร่วม

ฟีดแบ็กของคุณมีคุณค่าต่อการพัฒนาโมเดลให้ดียิ่งขึ้น

นี่เป็นเพียงจุดเริ่มต้นของโมเดล Typhoon ASR เรามุ่งมั่นที่จะปรับปรุงอย่างต่อเนื่องจากการใช้งานจริงและฟีดแบ็กของชุมชน

ถ้าคุณพบคำหรือคำศัพท์ที่โมเดลของเราถอดเสียงได้ไม่ดี ช่วยบอกเราได้เลย เพียงให้ข้อมูลกับเราผ่านช่องแจ้งคำผิดใน Web Playground หรือติดต่อเราทางชุมชน Typhoon Discord