7 เรื่องน่ารู้เกี่ยวกับ Typhoon-TTS และถาม-ตอบการบริจาคเสียงเพื่องานวิจัย Voice AI

หลายๆ คนอาจจะพอทราบกันแล้วว่า นอกจาก Typhoon จะมีโมเดลภาษาขนาดใหญ่ที่ทำงานกับข้อความได้ดี เรายังมีโรดแมปที่จะทำงานกับ ‘เสียง’ ให้ได้ดีมากขึ้นอีกด้วย เพราะเสียงนั้นเป็นอีกหนึ่งรูปแบบการสื่อสารสำคัญในชีวิตประจำวัน

หลังจากที่ทีม Typhoon ได้เปิดตัว Typhoon-Audio เวอร์ชัน Research Preview ไปเมื่อเดือนมกราคม ข่าวดีคือตอนนี้เราได้มีการทำวิจัยที่ต่อยอดขึ้นจากเดิม และมีตัวอย่างผลลัพธ์มาฝากในรูปแบบวิดีโอเดโม ซึ่งบทความนี้เราอยากจะแชร์ตอบคำถามพบบ่อย รวมถึงแชร์เกร็ดความรู้ โรดแมปที่ทีมตั้งใจจะทำต่อ ไปจนถึงเชิญชวนผู้ที่สนใจมาร่วมกันเข้าร่วมเป็นส่วนหนึ่งของการวิจัยที่จะสร้าง Voice AI ให้พัฒนายิ่งขึ้นอีกค่ะ

ใครยังไม่ได้ดูตามไปดูกันได้ที่ voice.opentyphoon.ai หรือกดดูเดโมได้เลยที่วิดีโอทั้งสองด้านล่างนี้ค่ะ

1. พูดได้เป็นธรรมชาติคล้ายต้นฉบับโดยไม่ใช่การลอกเลียนเสียง

เดโม 1

Q: เสียงที่ได้ยินในเดโมสร้างมาอย่างไร มันคือ Voice Cloning (การก็อปปี้หรือลอกเลียนเสียง) รึเปล่า

A: คนที่ได้ยินอาจจะคิดไปว่าเรากำลังทำ Voice Cloning ซึ่งสามารถทำได้จริงแล้วในปัจจุบัน ทั้งนี้ทีมนักวิจัยเราไม่ได้เลือกใช้เทคโนโลยีตัวนี้ แต่เป็นเทคโนโลยีที่เน้นเรื่องเรียนรู้สไตล์การพูดอย่างเป็นธรรมชาติ จะสังเกตได้ว่าเสียงที่ได้มีความคล้ายคลึงแต่ยังไม่เหมือนเป๊ะเมื่อเทียบกับการ Cloning เสียง ส่วนเหตุผลที่เสียงออกมาค่อนข้างใกล้เคียงมาก เป็นเพราะว่าเราเทรนเสียงโดยใช้เสียงต้นแบบเจาะจงลงไปเสียงเดียวหากใช้การผสมหลายเสียงก็จะลดทอนความเฉพาะเจาะจงของเสียงลงได้

2. โอกาสต่อยอดงานวิจัยเทคโนโลยีการผสมผสานเสียง

เดโม 2

Q: การทำงานของเดโมตัวนี้เป็นอย่างไร

A: สิ่งที่เป็นโฟกัสของงานวิจัยนี้คือเทคโนโลยีการผสมผสานเสียง (Merging) สำหรับเดโมนี้ นักวิจัยได้นำชุดเสียงต้นฉบับแรกของคนพูดภาษาอังกฤษสำเนียงอเมริกัน มาผสมกับชุดเสียงต้นฉบับที่สองที่เป็นเสียงคนไทยพูดภาษาไทย จนออกมาเป็นเสียงที่ผสมผสานเอกลักษณ์ของทั้งสองเอาไว้

Q: ในเดโมมีการสไลด์เลื่อนไปมา เทคโนโลยีนี้ต่อไปจะมีความยืดหยุ่นในการปรับเลือกเสียงใช่หรือไม่

A: ใช่แล้วค่ะ นักวิจัยสามารถปรับแต่งค่าน้ำหนักว่าจะให้เสียงไหนมีน้ำหนักมากน้อยอย่างไร ในกรณีนี้หากเราใส่น้ำหนักเยอะที่ฝั่งชุดต้นฉบับแรกก็จะได้เสียงที่ใกล้เคียงกับเสียงต้นฉบับของคนที่พูดภาษาอังกฤษชาวอเมริกัน และหากใส่น้ำหนักเยอะที่ฝั่งชุดต้นฉบับที่สองที่เป็นผู้พูดคนไทย ก็จะเสียงพูดของต้นฉบับคนไทยและสำเนียงแบบสไตล์ไทยๆ มากขึ้น หรือถ้าหากเราตั้งค่าไว้ที่ตรงกลาง ก็จะได้เสียงที่ผสมผสานสมดุลของทั้งสองต้นฉบับ

Q: การต่อยอดจากสิ่งนี้ต่อจะเป็นอย่างไร

A: งานวิจัยนี้แสดงให้เห็นถึงความสามารถในการผสมผสานเนื้อเสียง น้ำเสียง สำเนียงที่มีความแตกต่างกันและสามารถปรับแต่งเพื่อหาจุดร่วมตรงกลาง นั่นหมายความว่าเราสามารถผสมผสานหลายเสียงและใส่น้ำหนักตามความเหมาะสม ทำซ้ำเรื่อยๆ เพื่อสร้างเสียงใหม่ที่เหมาะแก่การเปิดใช้งานให้คนไทยได้ใช้จริงในอนาคต

3. สร้างเสียงได้ง่ายๆ เพียงแค่ใส่ข้อความ (Text to Speech)

เสียงที่อยู่ในวิดีโอเดโมทั้งสองวิดีโอนั้น เกิดมาจากการใส่ข้อความ (Text) แล้วถูกแปลงให้เป็นเสียง (Speech) เลยทันที ผ่านเทคโนโลยีที่เรียกว่า Text to Speech

Q: แล้ว Text-to-Speech คืออะไร มีประโยชน์ตรงไหนบ้าง
A: Text-to-Speech หรือ TTS คือการให้คอมพิวเตอร์ "อ่านออกเสียง" ข้อความที่เราพิมพ์เข้าไป เช่น AI ที่อ่านข้อความให้ผู้พิการทางสายตาฟัง หรือเสียงอัตโนมัติในแอปต่าง ๆ นั่นค่ะ ประโยชน์คือช่วยให้เทคโนโลยีเข้าถึงได้กับทุกคน ใช้งานได้ง่ายขึ้น และรองรับหลายสถานการณ์มากขึ้น ไม่ว่าจะเพื่อการศึกษา ธุรกิจ หรือการใช้งานในชีวิตประจำวัน

4. ความท้าทายและข้อจำกัดในปัจจุบันโดยเฉพาะกับภาษาไทย

Q: ทำไมเสียง TTS ภาษาไทยยังไม่ค่อยเนียนเหมือนภาษาอังกฤษ?

A: ภาษาไทยมีความซับซ้อนสูง เช่น เสียงวรรณยุกต์ การเว้นวรรคไม่ชัดเจน การออกเสียงที่ขึ้นอยู่กับบริบท ทำให้ต้องใช้ข้อมูลเสียงที่หลากหลายและมีคุณภาพสูงในการพัฒนา ซึ่งตอนนี้ยังมีไม่มากพอเมื่อเทียบกับภาษาอื่น

Q: งานวิจัยตอนนี้พัฒนามาถึงไหน การวัดผลเป็นอย่างไร

A: เดโมทั้งหมดนี้สร้างมาจากข้อมูลเสียงจำนวนชั่วโมงไม่มากแต่ให้ผลลัพธ์ที่ค่อนข้างน่าพึงพอใจ เรายังได้ทดสอบเปรียบเทียบระหว่างเสียงที่เรามีข้อมูลน้อยกว่า กับเสียงที่เรามีข้อมูลมากกว่าแล้วพบว่าเสียงที่มีข้อมูลมากกว่านั้นให้ผลลัพธ์ที่น่าพึงพอใจกว่าอย่างชัดเจน
ตัวชี้วัดที่เรามุ่งพัฒนาต่อ ได้แก่

ความถูกต้อง (Correct): โปรแกรมสามารถพูดได้ครบถ้วนตามที่เขียนไว้และออกเสียงได้ถูกต้องตามหลักภาษาหรือไม่
ความเป็นธรรมชาติ (Natural): โปรแกรมสามารถออกเสียง โดยมีการเว้นวรรคและการใช้น้ำเสียงได้เป็นธรรมชาติเหมือนคนทั่วไปหรือไม่

ตัวอย่างในเดโมแรกนั้นแสดงให้เห็นถึงความถูกต้องและความเป็นธรรมชาติแล้วพอสมควร แต่หากเราเริ่มท้าทายโปรแกรมด้วยการพิมพ์ข้อความที่มีความหลากหลายมากขึ้น ไม่ได้อยู่ในบริบทของชุดข้อมูลที่เคยถูกนำมาเทรนมาก่อน ก็จะยังพบ Error อยู่

5. เรายังต้องการ Data เสียงพูดภาษาไทยอีกจำนวนมาก

Q: ทางทีมกำลังต้องการ Data มากแค่ไหน

A: มากที่สุดเท่าที่เราจะทำได้ เพราะ Data ยิ่งมากยิ่งดี เป้าหมายเบื้องต้นในตอนนี้คือ 1,000 ชั่วโมง

ตัวเลขนี้ดูเผินๆ เหมือนจะมาก แต่ความจริงแล้วยังไม่มากเลย เพราะ TTS ภาษาอังกฤษที่ใช้งานได้เป็นอย่างดีคือผ่านการเทรนมามากกว่า 40,000 ชั่วโมงเป็นต้นไป โดยเฉพาะ TTS สมัยใหม่มีการเทรนกันมากจนถึงเป็นหลักแสนชั่วโมงกันเลยทีเดียว

ส่วน TTS จากประเทศอื่นๆ ในเอเชีย ก็ล้วนแต่มี Data จำนวนมากมาเทรน ตัวอย่างเช่น

Indic Parler-TTS โดยทีมวิจัยจากอินเดียที่นั้นใช้ Data ในการเทรนประมาณ 8,000 ชั่วโมง
Malaysian-Emilia โดยทีมวิจัยจากมาเลเซีย ใช้การเทรนเสียงประมาณ 15,000 ชั่วโมง

6. เป้าหมายของเราคือการสร้าง Open-Source TTS คุณภาพดี

Q: ผลลัพธ์ของงานวิจัยที่จะถูกทำออกมานี้จะถูกเก็บไว้ภายในบริษัทเองหรือไม่

A: ไม่ ผลลัพธ์ปลายทางที่พวกเราตั้งใจคือการเปิดให้เป็น Open-Source หรือพูดง่ายๆ ว่า เราเชื่อว่ามันควรเป็นของทุกคน สามารถนำไปพัฒนาต่อ หรือใช้ประโยชน์ได้ โดยไม่ต้องจ่ายค่าลิขสิทธิ์ ทำให้เกิดนวัตกรรมใหม่ๆ ได้ง่ายขึ้น โดยเฉพาะในภาคการศึกษา สตาร์ทอัพ หรือกลุ่มคนที่มีทรัพยากรจำกัด

ตัวอย่าง TTS ของอินเดียและมาเลเซียที่ยกตัวอย่างไปในข้อที่แล้วก็เป็น Open-Source

7. Open-Source TTS ดีๆ ของคนไทย เราต้องร่วมไม้ร่วมมือกันสร้าง

อุปสรรคที่ท้าทายในตอนนี้คือเรื่องทรัพยากร โดยเฉพาะข้อมูลที่เรายังมีตามหลังภาษาอังกฤษอย่างชัดเจน และตามหลังโครงการ Open-Source จากอินเดียและมาเลเซียเป็นอย่างมากอีกด้วย

เทคโนโลยีนี้จะช่วยให้เหล่านักพัฒนาสร้างแอปพลิเคชันหรือส่งเสริมการทำงานของโครงการเพื่อสังคมให้เกิดประโยชน์อย่างสร้างสรรค์ เช่น การบริจาคเสียงเพื่ออ่านหนังสือให้ผู้มีความบกพร่องทางการมองเห็น

ทางเราจึงเปิดรับสมัครผู้ที่สมัครใจให้อนุญาตเราใช้เสียงพูดของคุณเพื่อการพัฒนา Open-Source TTS ดีๆ ดำเนินต่อไปได้ เพื่อให้ได้จำนวน 1,000 ชั่วโมงตามเป้าหมายเบื้องต้น ไม่ต้องเป็นนักวิจัย นี่เป็นโอกาสที่คนบุคคลทั่วไปสามารถร่วมมีบทบาทในการสร้างเอไอของประเทศไทยได้ เสียงของคุณจะเป็นหนึ่งในส่วนผสมของนับพันชั่วโมงที่จะสร้างสรรค์เป็นเสียงใหม่

บอกต่อเพื่อนและคนรู้จักของคุณได้นะคะ ขอเพียงแค่เป็นคนที่มีไฟล์เสียงพูดของตัวเองอยู่แล้วไม่ต่ำกว่า 10 ชั่วโมงโดยประมาณ ไม่ว่าคุณจะเป็น คอนเทนต์ครีเอเตอร์ ติวเตอร์ หรือใครก็ตามที่มีไฟล์เสียงของตัวเองอยู่ เราอยากขอเชิญชวนมาร่วม ‘ส่งเสียง’ เพื่อ ‘ส่งเสริม’ ให้คนไทยได้มี TTS ภาษาไทยที่เป็นโอเพนซอร์สดีๆ ได้ใช้งานกัน เพียงกรอกฟอร์มนี้ ที่มีคำถามไม่กี่ข้อ ใช้เวลาไม่เกิน 2-3 นาที แล้วทีมเราจะติดต่อคุณกลับไป

สำหรับหน่วยงานที่สนใจเทคโนโลยี TTS และต้องการเข้าร่วมกับโครงการวิจัยของเรา ติดต่อเราได้ที่ contact[at]opentyphoon.ai ค่ะ