เมื่อวันที่ 27 พฤศจิกายนที่ผ่านมา ทีม SCB 10X จัดงาน "Typhoon เฮ็ดให้ AI ใจอีสาน" ซึ่งนอกจากจะเป็นการเปิดตัวผลงาน
Typhoon Isan แล้ว ยังเป็นความตั้งใจที่จะทำให้เป็นงานที่เกิดการแลกเปลี่ยนความรู้และพูดคุยกัน ทั้งในมุมมองของทีมวิจัยที่สร้างโมเดล รวมไปถึงมุมมองของผู้ที่มีส่วนได้ส่วนเสียในเทคโนโลยีดังกล่าว
สำหรับคนที่พลาดงานดังกล่าวหรือต้องการรับชมย้อนหลัง สามารถรับชมวิดีโอบันทึกย้อนหลังได้แล้ว
ในฐานะผู้ร่วมจัดงานและหนึ่งในผู้ดำเนินรายการของงานนี้ เราได้สรุปประเด็นสำคัญเอาไว้แล้วในบทความนี้ การสรุปนี้เป็นการสรุปแบบไม่ได้เรียงลำดับตามลำดับการพูดคุยในงาน แต่เรียงลำดับจากหัวข้อของประเด็นที่เราได้คัดประเด็นมาแล้ว เหมาะสำหรับคนที่ต้องการ Insights สำคัญแบบกระชับและไม่มีเวลารับชมวิดีโอเต็มๆ ทั้งหมด
ช่องว่างในการสื่อสาร
น.พ.กิติภูมิ จุฑาสมิต อดีตผู้อำนวยการโรงพยาบาลภูสิงห์ จังหวัดศรีสะเกษ ได้มาเล่าสู่กันฟังถึงประสบการณ์การเป็นนายแพทย์ที่เติบโตที่กรุงเทพฯ ไปทำงานรักษาคนไข้ที่จังหวัดศรีสะเกษ พบเจอกับหลายเหตุการณ์ที่แพทย์และคนไข้สื่อสารคลาดเคลื่อน
ตัวอย่างเช่น มีครั้งหนึ่งที่คุณหมอเคยรักษาคนไข้ชาวนาหญิงรายหนึ่งซึ่งมีอาการไข้สูง (ภายหลังพบว่าเป็นไข้ฉี่หนู) หลังจากที่นอนโรงพยาบาลไปหลายวันก็ดูเหมือนอาการดีขึ้นแล้ว แต่เมื่อคุณหมอสอบถามอาการกับคนไข้ว่าอาการเป็นอย่างไร ก็ได้รับคำตอบว่า “ไคแหน่”
"ไค" ในอีสาน เสียงวรรณยุกต์ใกล้เคียงกับ "ไข้" ในไทยกลาง คนภาคกลางเลยได้ยินเพี้ยนว่า "ไข้" เมื่อได้ยินแล้วจึงคล้ายกับคำว่า "ไข้แน่" ทำให้เกิดความเข้าใจผิดว่าคนไข้ยังไม่หายดี ทั้งที่จริงแล้วความหมายของ “ไคแหน่” หมายถึง "ดีขึ้นแล้ว"
นอกจากนี้ยังมีตัวอย่างของการแปลตรงตัวแบบผิวเผินแต่ไม่เข้าใจบริบทก็นำมาสู่ความเข้าใจผิดได้อีกเช่นกัน คุณหมอยกตัวอย่างว่าเคยพบกับคนไข้แจ้งว่า "ผิดกระบูน" คุณหมอไม่เข้าใจคำว่ากระบูนจึงนำไปสอบถามผู้อื่น ได้คำตอบมาว่ากระบูนแปลว่า "มดลูก" จึงเข้าใจว่าเคสนี้ควรส่งต่อให้หมอสูตินรีเวช แต่เมื่อหมอสูตินรีเวชตรวจแล้วก็ไม่พบความผิดปกติใดๆ ของมดลูกเลย
ต่อมาจึงได้เข้าใจภายหลังว่าเกิดจากความเข้าใจผิด ถึงแม้ว่า "กระบูน" จะแปลว่า "มดลูก" แต่คำกล่าวว่า "ผิดกระบูน" แปลว่า อาการคลื่นไส้ อาเจียน อ่อนเพลีย หน้ามืด เป็นลม เช่น อาหารเป็นพิษ (เทียบเท่า "ผิดสำแดง" ในภาษากลาง) อันเกิดจากความเชื่อท้องถิ่นว่ากระบูนเป็นอวัยวะสำคัญของร่างกายและเป็นประโยคที่ใช้กันทั่วไปได้กับทุกเพศ
ตัวอย่างต่างๆ เหล่านี้ชี้ให้เห็นว่า "ภาษาเชื่อมโยงกันกับความเชื่อและวัฒนธรรมท้องถิ่น" และการจะเข้าใจกันได้อย่างลึกซึ้งนั่นคือการต้องเข้าใจกันได้ทั้งภาษาและวัฒนธรรม
ภาษาถิ่นในประเทศไทย...อาจสูญหายในอนาคต
ผศ.ดร. สุมิตรา สุรรัตน์เดชา อาจารย์ประจำสาขาวิชาภาษาศาสตร์ สถาบันวิจัยภาษาและวัฒนธรรมเอเชีย มหาวิทยาลัยมหิดล ได้ให้ข้อมูลเกี่ยวกับงานวิจัยของอาจารย์ในด้านการสืบสานและฟื้นฟูภาษาถิ่นและภาษาชาติพันธุ์ที่น่าสนใจไว้หลายประเด็น
รู้หรือไม่ว่าในประเทศไทยมีภาษาที่ใช้กันอยู่มากถึงประมาณ 85 ภาษา แน่นอนว่าภาษาอีสานก็เป็นหนึ่งในนั้น
ถ้ามองดูในระดับภูมิภาคเอเชียตะวันออกเฉียงใต้ ประเทศอินโดนีเซียกำลังมีความเสี่ยงเรื่องการสูญเสียภาษามากที่สุด เพราะมีการคาดการณ์ว่าอินโดนีเซียจะสูญเสียภาษามากถึง 50% ของจำนวนภาษาทั้งหมดที่มี ตามมาด้วยประเทศไทยเป็นอันดับที่สองโดยมีความเสี่ยงที่จะสูญเสีย 34 ภาษาจากทั้งหมด 85 ภาษาที่มี
ดร. สุมิตรา ได้เปิดเผยถึงวาระระดับโลกในเรื่องของความพยายามนำเอานวัตกรรมมาช่วยในเรื่องการสืบสานภาษาและอาจารย์เองก็ทำโครงการที่ร่วมมือกับองค์กรนานาชาติในเรื่องนี้ นั่นเป็นเพราะว่าดิจิทัลคือช่องทางการสื่อสารสำคัญของคนยุคปัจจุบัน หากภาษาใดยังไม่มีพื้นที่บนโลกดิจิทัล ภาษานั้นก็จะหลุดออกจากโอกาสในการใช้งานและเสี่ยงต่อการสูญหาย
คุณค่าของภาษานั้นคือภาษาเป็นคลังความรู้ มรดก วัฒนธรรม และอัตลักษณ์ของคนที่พูดภาษาในท้องถิ่นนั้น ดังนั้นการสูญเสียภาษาหนึ่งภาษา จึงไม่ใช่แค่การสูญเสียแค่ภาษาแต่ยังรวมไปถึงการสูญเสียเรื่องภูมิปัญญาท้องถิ่น ไม่ว่าจะเป็นเรื่องอาหาร สิ่งแวดล้อม ฯลฯ
AI for Low Resource Languages: TYPHOON จากปัญญาประดิษฐ์เชี่ยวชาญภาษาไทยสู่ภาษาถิ่น
คุณัชญ์ พิพัฒนกุล Lead AI Scientist ของ SCB 10X ได้เล่าถึงเส้นทางที่สรุปภาพรวมที่ผ่านมาของ Typhoon และเน้นย้ำภารกิจเรื่องการทำ AI สำหรับประเทศไทยเพื่ออุดช่องโหว่ต่างๆ ที่มีอยู่ ไม่ว่าจะเป็นเรื่องของความถูกต้องแม่นยำ (Accuracy) การเข้าถึงได้โดยไม่ต้องใช้ต้นทุนสูง (Cost Efficiency) และรวมไปถึงเรื่องความสอดคล้องและเข้าใจในบริบทของคนไทยและประเทศไทย (Linguistic and Cultural Relevance)
โมเดลที่ผ่านมาของ Typhoon แสดงจุดเด่นในเรื่องความถูกต้องแม่นยำในภาษาไทยรวมถึงความเร็วและต้นทุนในการประมวลผลที่ราคาถูก ยกตัวอย่างเช่น โมเดล Typhoon ASR Real-time ที่ทดสอบแล้วว่าค่าใช้จ่ายในการประมวลผลจะมีราคาถูกกว่าการจ่ายค่า API ให้กับโมเดล Proprietary มากถึง 400 เท่า
แต่ก็ต้องยอมรับว่าทุกโมเดลที่ผ่านมาของ Typhoon เราเน้นไปที่ภาษาไทยกลางก่อนเป็นหลัก ยกตัวอย่างเช่น หากต้องการใช้ Typhoon ASR Real-time เพื่อถอดเสียงภาษาถิ่นในไทย ก็จะยังไม่ได้ประสิทธิภาพที่น่าพึงพอใจเมื่อเทียบกับภาษาไทยกลาง ทางทีมจึงได้ริเริ่มโครงการวิจัยฝึกฝน AI ด้วยภาษาถิ่นโดยเริ่มต้นจากภาษาอีสานเป็นภาษาแรก
เหตุผลที่เลือกภาษาอีสานเพราะเป็นภาษาถิ่นที่มีจำนวนผู้พูดมากที่สุด ภาคอีสานมีประชากรในสัดส่วนถึงหนึ่งในสามของประเทศและมีขนาดเศรษฐกิจที่ใหญ่
นอกจากนี้นวัตกรรมที่มีเป้าหมายในการสืบสานภาษาถิ่นและทำให้ AI เข้าถึงได้สำหรับทุกคนนั้นไม่ใช่เรื่องใหม่ มีความพยายามในการพัฒนา AI ให้เข้าใจภาษาท้องที่มาแล้วในหลากหลายประเทศ ไม่ว่าจะเป็นที่อินเดีย อินโดนีเซีย และประเทศในทวีปแอฟริกา เป็นต้น
มีงานวิจัยหลายชิ้นที่ระบุว่าการที่ AI สามารถสื่อสารและเข้าใจภาษาถิ่นได้นั้นจะมีประโยชน์หลายประการ เช่น ลดอัตราการเกิดข้อผิดพลาดหรือความเข้าใจผิด ลดความไม่เท่าเทียม รวมถึงยังเพิ่มความพึงพอใจในการใช้งานมากขึ้น
ทีม Typhoon มองตัวอย่างต่างๆ เหล่านี้และเห็นความเป็นไปได้ในการทำจริง
ทดลองสร้าง Voice AI Agent Pipeline ที่ประกอบไปด้วย ASR, LLM และ TTS
โน้ตจากผู้เขียน: เนื้อหาส่วนนี้เป็นเนื้อหาที่เขียนเพิ่ม ไม่ได้อยู่ในเนื้อหาวันงานหรือในวิดีโอทั้งหมด
ปีที่แล้วทีม Typhoon เคยปล่อย Typhoon Audio มาก่อน ซึ่งเป็นโมเดล Research Preview ในตระกูล Audio LLM เสียงตอบรับที่ได้รับมาคือ Audio LLM ที่รองรับไฟล์เสียงทั้งขาเข้าและขาออกในตัวเดียวได้เลยนั้นมีความซับซ้อนมากกว่าในการปรับจูนให้ตอบโจทย์กับโดเมนที่ต้องการ
แนวทางที่เราพบว่าช่วยให้ปรับจูนและปรับปรุงคุณภาพส่วนต่างๆ ได้ดีกว่าคือ แทนที่จะทำ Audio LLM หนึ่งตัว เราแยกส่วนออกมาเป็น Pipeline ที่ประกอบไปด้วย 1. ASR รับเสียงขาเข้า ถอดเป็นข้อความ 2. LLM ประมวลผลข้อความ 3. TTS นำข้อความมาแปลงเป็นเสียงพูด ซึ่งช่วยให้ได้โมเดลที่ขนาดไม่ใหญ่และปรับปรุงความเร็วส่วนต่างๆ ได้ง่ายกว่า
นอกจากนี้ความต้องการในการนำไปใช้จริงของโมเดลแยกเฉพาะส่วนนั้นก็ชัดเจน เช่น Typhoon ASR ที่สามารถนำมาใช้ถอดเสียงการประชุมและสายโทรเข้า หรือสร้างแคปชันให้วิดีโอได้ เป็นต้น
การทำงานกับภาษาถิ่นต้องเริ่มต้นจากการกำหนดขอบเขตและกลไกมาตรฐานทางภาษาที่ชัดเจน
ความท้าทายสำคัญของการทำงานกับภาษาถิ่น คือ ภาษาถิ่นเป็นภาษาพูดและยังไม่ได้มีการกำหนดมาตรฐานการเขียนที่ชัดเจน
พอไม่มีมาตรฐานการเขียนก็ไม่มีข้อมูลข้อความที่เป็นระบบ การสร้างโมเดล ASR ที่ต้องถอดเสียงเป็นข้อความ หรือการจะเทรนโมเดล LLM ก็เป็นเรื่องลำบาก
ขั้นตอนที่ยากและใช้เวลามากที่สุดของการทำ AI ภาษาถิ่น จึงเป็นขั้นตอนต่างๆ เหล่านี้ที่นักภาษาศาสตร์เข้ามามีบทบาทเป็นอย่างมาก ได้แก่
-
กำหนดนิยามของภาษาอีสาน - จำแนกสำเนียงต่าง ๆ ในถิ่นอีสาน และหาลักษณะสำคัญที่มีร่วมกันอย่างกว้างเพื่อให้ได้สำเนียงที่มีความครอบคลุม
-
สร้างระบบการสะกดคำและการถอดเสียง - กำหนดอักขรวิธีการสะกดคำที่มีหลักเกณฑ์ชัดเจน เป็นระบบ แต่ยังคงเป็นไปตามสัญชาตญาณของเจ้าของภาษา
-
สร้างวิธีเก็บข้อมูลเสียงพูด - บันทึกเสียงพูดแบบสนทนาจากเจ้าของภาษา ให้พูดออกมาอย่างเป็นธรรมชาติ ไม่ชี้นำด้วยการให้อ่าน
-
สร้างกระบวนการกำกับข้อมูล - เพื่อให้ได้ชุดข้อมูลที่มีคุณภาพสูง การกำกับข้อมูลมีความสม่ำเสมอ
เนื่องจากเนื้อหาส่วนนี้มีรายละเอียดค่อนข้างมาก จึงเป็นส่วนที่เราอยากแนะนำให้รับชมวิดีโอย้อนหลังช่วง Behind The Scene Panel Discussion ซึ่งเริ่มต้นตั้งแต่นาทีที่ 10 ในวิดีโอ หรือรับชมในหัวข้อนี้ที่พูดคุยกับคุณอดิศัย ณ ถลาง Senior Linguist, SCB 10X โดยเฉพาะ ซึ่งเริ่มต้นตั้งแต่นาทีที่ 14 เป็นต้นไป
ทดลองสร้างโมเดลและคำนึงถึงการใช้งานจริงในระดับ Production
ก่อนจะมาเป็นโมเดลรุ่นที่มีความสามารถดีเพียงพอต่อการเปิดตัวในแต่ละครั้ง ทีมงานจะทำการทดลองกับ Model Architecture หลายๆ ตัวที่แตกต่างกัน และทดสอบดูผลลัพธ์
ดร. วริทธิ์ ศิริโชติดำรงค์ Research Scientist, SCB 10X ได้เล่าถึงโมเดล ASR ที่มีสองรุ่น ทั้งรุ่น Whisper ที่เป็นโมเดล ASR
โอเพนซอร์สชั้นนำ และรุ่น Real-time ที่ทีมทดลองสร้างขึ้นจากสถาปัตยกรรม FastConformer Transducer ของ NVIDIA เพื่อให้ได้ประสิทธิภาพเรียลไทม์ที่ดี อันเป็นข้อจำกัดของโมเดลแบบ Whisper ในปัจจุบัน
สิทธิพงศ์ ศรีไพศาลมงคล Lead AI Engineer, SCB 10X แชร์ถึงการทดสอบมาแล้วหลายสถาปัตยกรรม TTS ตั้งแต่ Orpheus, Parler TTS, VITS เป็นต้น และสุดท้ายเลือก Orpheus
ภาพรวมในการตัดสินใจเลือกจะไม่เน้นเพียงแค่ความแม่นยำกับชุดทดสอบ (Benchmark) แต่จะเน้นที่ความเป็นไปได้จริงในการเอามาใช้ในงานระดับ Production ทั้งในแง่มุมเรื่องของการประหยัดค่าใช้จ่ายและความเร็ว โดยเฉพาะอย่างยิ่งโมเดลที่คาดหวังให้ทำงานได้แบบเรียลไทม์ทั้ง ASR และ TTS เพื่อต่อยอดไปสู่การสร้าง Voice AI ที่ไหลลื่น
นอกจากนี้การลองผิดลองถูกกับการสร้างโมเดลของทั้งสอง ทำให้ได้เรียนรู้ถึงข้อจำกัดของกระบวนการเก็บข้อมูลตั้งแต่ต้นว่าหากใช้ข้อมูลเสียงที่เป็นเสียงอ่าน จะทำให้ได้เสียงพูดที่ไม่ค่อยรื่นไหลเป็นธรรมชาติ ซึ่งเป็นฟีดแบ็กกลับไปยังทีมเก็บข้อมูลเพื่อให้ได้ข้อมูลที่มีคุณภาพและเหมาะสมกับการเทรนโมเดล
โอกาสของชุมชนและธุรกิจในภาคอีสาน
ตลอดการเสวนาที่ดำเนินรายการโดย ดร. ปรัชญา บุญขวัญ อาจารย์ประจำภาควิชาเทคโนโลยีสารสนเทศ คอมพิวเตอร์ และการสื่อสาร (ICT), สถาบันเทคโนโลยีนานาชาติสิรินธร (SIIT) มหาวิทยาลัยธรรมศาสตร์ ทางอาจารย์ซึ่งเป็นคนในสาย AI โดยตรงเองมองว่า NLP ภาษาอีสานมีความท้าทายสูง ระบบเสียงยาก หากทำได้สำเร็จก็จะเป็นจุดเริ่มต้นอันยิ่งใหญ่สู่ภาษาถิ่นอื่นๆ ได้
ผศ. ประเสริฐ วิจิตรนพรัตน์ รองคณบดีฝ่ายวิจัย นวัตกรรม บริการวิชาการ และสื่อสารองค์กร คณะเศรษฐศาสตร์ มหาวิทยาลัยขอนแก่น ได้กล่าวไว้อย่างน่าสนใจว่า คนอีสานเองมาเห็นอาจจะยังนึกไม่ออกว่า AI อีสานทำอะไรได้ เพราะความคุ้นชินกับการดำเนินชีวิตหรือธุรกิจ (Business as Usual)
แต่เมื่อตนได้ลองคิดดู ก็เห็นด้วยกับความสำคัญและบทบาทของ AI ภาษาถิ่นเพื่อช่วยในเรื่อง "การเพิ่มการเข้าถึงคน" ดังนั้นสินค้า บริการ หรือธุรกิจใดๆ ก็ตามที่ยังจำเป็นต้องสื่อสารกับคน ก็จะได้รับประโยชน์ในเรื่องนี้ โดยเฉพาะอย่างยิ่งกับคนอีสานที่อยู่แถบชานเมืองเป็นต้นไปที่คุ้นเคยกับการสื่อสารด้วยการ "พูด" เป็นหลัก
การพูดคุยโต้ตอบเป็นภาษาถิ่นได้ก็จะลดช่องโหว่ในการสื่อสาร ลดความเหลื่อมล้ำ และทำให้ได้รับการเปิดใจและเปิดรับมากขึ้น (Intimacy) เหมือนอย่างที่ ผศ.ดร. สุมิตรา สุรรัตน์เดชา เสริมเพิ่มเติมว่า "มากกว่าเข้าใจ คือการสื่อสารด้วย 'ภาษาที่ใกล้หัวใจ' เขาที่สุด"
ผศ. ประเสริฐ ยกตัวอย่างคำเช่น "หนหวย" ซึ่งหมายถึง "อึดอัด" คำแสดงความรู้สึกนึกคิดที่แท้จริงนี้ หากสามารถสื่อสารกันได้อย่างตรงไปตรงมา ก็จะทำให้คนเชื่อมโยงและสานสัมพันธ์ได้ดีขึ้น เช่นเดียวกันกับความสัมพันธ์ระหว่างผู้ให้บริการและผู้รับบริการ
วีรินท์ ฉันทโรจน์ Head of Innovation Lab, SCBX เล็งเห็นถึงความสำคัญของภาคอีสาน ทั้งเรื่องขนาดเศรษฐกิจและขนาดของจำนวนประชากร เท่านั้นไม่พอ คนอีสานยังมีบุคลิก ลักษณะ และการทำมาหากินที่ต่างจากคนกรุงเทพ คนกรุงเทพจำนวนมากเป็นคนที่ทำงานรับเงินเดือน ในขณะที่ภาคอีสานจะมีสัดส่วนของผู้ประกอบการรายย่อยมากกว่า โดยเฉพาะธุรกิจแบบดั้งเดิม
สำหรับกลุ่ม SCBX ที่ให้บริการทางการเงินเป็นหลัก เข้าใจว่าการเงินเป็นเรื่องที่เข้าใจไม่ง่าย ผลิตภัณฑ์ทางการเงินหลายตัวอาจเข้าใจยาก กำแพงเช่น "กลัวทำผิด" "กลัวกด(แอป)ผิด" ก็ยังพบเห็นอยู่เป็นประจำ นอกจากนี้คนอีสานยังมีความคุ้นชินกับบริการของหน่วยงานท้องถิ่นหรือหน่วยงานของรัฐมากกว่า ดังนั้นเครื่องมือทางภาษาจะสามารถช่วยลดกำแพงการสื่อสาร เพื่อให้ผลิตภัณฑ์ที่เข้าใจยากนั้นสามารถเข้าใจได้ง่ายขึ้น และเพื่อให้การสื่อสารให้เปิดใจทดลองสิ่งใหม่ๆ เป็นไปได้อย่างมีประสิทธิภาพ
ในระยะยาวนวัตกรรมที่ดีคือนวัตกรรมที่สามารถ 1. รองรับลูกค้าได้ดี - Personalize ได้ตรงใจ และสร้างความพึงพอใจของลูกค้า 2. สามารถใช้ภายในองค์กรได้ เช่น ใช้เป็นเครื่องมือในการฝึกอบรมพนักงาน 3. สามารถใช้งานในระดับนโยบายได้ เช่น นำ AI มาช่วยในงาน Market Conduct เพื่อป้องกันความเสี่ยง
ผศ. ประเสริฐ วิจิตรนพรัตน์ ยังย้ำถึงการนำไปใช้ที่ไกลกว่าภาคธุรกิจทั่วไป นั่นคือภาคการบริการของรัฐและภาคการศึกษาคือภาคที่จะมีโอกาสได้รับประโยชน์สูงจากเทคโนโลยีนี้ ดังนั้นการสร้างเครือข่ายระหว่างชุมชนและภาคต่างๆ ในพื้นที่ จะเป็นเรื่องสำคัญหลังจากนี้ในการทำให้เทคโนโลยีนี้สามารถใช้จริงในชุมชนได้และอยากเชิญชวนให้ชุมชนนำเทคโนโลยีนี้ไปต่อยอดต่อในอนาคต
ท้ายที่สุดคุณวีรินท์ ฉันทโรจน์ เน้นย้ำว่า AI เป็นจิ๊กซอว์สำคัญแต่ไม่ใช่ภาพที่สมบูรณ์โดยตัวมันเอง สุดท้ายนักพัฒนาต้องต่อยอดให้ใช้ได้จริง ภาคธุรกิจหรือภาคผู้สร้างนวัตกรรมต้องรับมือกับการเปลี่ยนแปลงกระบวนการ และการสื่อสารกับคน เพื่อทำให้จิ๊กซอว์ AI นี้กลายเป็นภาพจริงที่สมบูรณ์และช่วยสร้างอนาคตที่ดีขึ้นสำหรับทุกคน
มาร่วมกันใช้งาน Typhoon Isan
Typhoon Isan นั้นประกอบด้วยโมเดล ASR แบบโอเพนซอร์สและชุดข้อมูลต่างๆ รอให้คุณได้นำไปต่อยอดใช้งานกับธุรกิจและชุมชนของคุณอยู่ สำหรับรายละเอียดของ Release ทั้งหมดสามารถดูได้ที่รายชื่อ Typhoon Isan Release



