ในฐานะทีม R&D ด้าน LLM ของประเทศไทย พวกเรารู้สึกเป็นเกียรติอย่างยิ่งที่จะมาแชร์ให้กับทุกคนทราบว่ามีผลงานวิจัย 5 ชิ้นที่ทีม Typhoon มีส่วนร่วมและได้รับการตอบรับให้เผยแพร่ในงานประชุม Association for Computational Linguistics (ACL) 2025 ซึ่งเป็นงานประชุมวิชาการระดับนานาชาติด้าน AI โดยเฉพาะอย่างยิ่ง การประมวลผลภาษาธรรมชาติ (NLP) และภาษาศาสตร์คอมพิวเตอร์ที่ทรงเกียรติที่สุดงานหนึ่งของโลก
ACL เป็นเวทีที่รวมงานวิจัย AI แนวหน้าจากทั่วโลก โดยมีระบบ peer review ที่เข้มข้นและได้รับความสนใจสูงจากชุมชนวิจัยนานาชาติ เรารู้สึกเป็นเกียรติที่ได้มีส่วนร่วมกับงานในปีนี้ ผ่าน 3 ผลงานใน Main Conference, 1 ผลงานใน Findings และอีก 1 ผลงานใน Workshop เฉพาะทาง งานวิจัยเหล่านี้เป็นผลจากความร่วมมือกับหลายสถาบันชั้นนำ ได้แก่ VISTEC, Cambridge, Stanford และ SEACrowd
แม้แต่ละงานจะมีประเด็นเฉพาะของตนเอง แต่ทั้งหมดล้วนสะท้อนจุดมุ่งหมายร่วมกัน: การพัฒนา AI ที่ เข้าใจบริบท ครอบคลุมความหลากหลาย และนำไปใช้ได้จริง เราขอขอบคุณผู้ร่วมวิจัย ผู้เขียนร่วม และผู้รีวิวทุกท่านที่ทำให้สิ่งนี้เกิดขึ้นได้ ด้านล่างคือสรุปผลงานแต่ละชิ้นและสาระสำคัญที่นำเสนอ
1. SkillAggregation: Reference-free LLM-Dependent Aggregation

- ได้รับตอบรับใน Main Conference
- Paper link: https://arxiv.org/abs/2410.10215
- นักวิจัยจาก SCB 10X ที่ร่วมวิจัย: Guangzhi Sun และ พศวีร์ มานะกุล
งานวิจัยนี้เสนอวิธีใหม่ชื่อว่า SkillAggregation สำหรับรวมผลการประเมินจากหลาย LLM โดยไม่ต้องใช้ ground truth label แบบดั้งเดิม ซึ่งแตกต่างจากวิธีทั่วไปที่ให้น้ำหนัก LLM เท่ากันหรือขึ้นกับ task-specific วิธีของเราเรียนรู้ทักษะของ LLM แต่ละตัวตามบริบท ช่วยให้การตัดสินใจแม่นยำและปรับตัวได้ดียิ่งขึ้น
SkillAggregation พัฒนาต่อยอดจาก Crowdlayer โดยเพิ่มการประเมินทักษะตามบริบท และ regularization เพื่อลด overconfidence ผลการทดลองใน HaluEval-Dialogue, TruthfulQA และ Chatbot Arena แสดงให้เห็นว่าวิธีนี้ให้ผลลัพธ์ที่ดีกว่า baseline เดิม โดยเฉพาะเมื่อรวมโมเดลที่คุณภาพต่างกัน
2. Mind the Gap! Static and Interactive Evaluations of Large Audio Models

- ได้รับตอบรับใน Main Conference
- Paper link: https://arxiv.org/abs/2502.15919
- นักวิจัยจาก SCB 10X ที่ร่วมวิจัย: คุณัชญ์ พิพัฒนกุล และ พศวีร์ มานะกุล
งานนี้นำเสนอแพลตฟอร์มชื่อว่า TalkArena สำหรับประเมิน Large Audio Models (LAMs) ผ่านการโต้ตอบกับผู้ใช้จริง มากกว่าการใช้ benchmark แบบสถิติดั้งเดิม ผลงานนี้รวบรวมข้อมูลการโต้ตอบกว่า 7,500 ครั้งจากผู้ใช้ 484 คน พบว่า LAMs ถูกใช้ใน task ที่เน้นความรวดเร็ว เช่น ถาม-ตอบความรู้ มากกว่างานที่ต้องเข้าใจภาษาพูดเชิงลึก
งานวิจัยพบว่า Pipeline ง่ายๆ ที่ใช้ Whisper และ LLaMA กลับได้รับความนิยมเหนือกว่าโมเดลเชิงพาณิชย์ชั้นนำและพบว่า benchmark ปัจจุบันยังทำนายความต้องการจริงของผู้ใช้ได้ไม่ดีนัก จึงเสนอแนวทางใหม่ในการประเมิน LAMs ให้สอดคล้องกับประสบการณ์ผู้ใช้มากขึ้น
3. Crowdsource, Crawl, or Generate? Creating SEA-VL, a Multicultural Vision-Language Dataset for Southeast Asia

- ได้รับตอบรับใน Main Conference
- Paper link: https://arxiv.org/abs/2503.07920
- ผู้ร่วมให้ข้อมูลจาก SCB 10X: อดิศัย ณ ถลาง
งานนี้เสนอ SEA-VL dataset ที่ใหญ่และหลากหลายวัฒนธรรมที่สุดสำหรับภูมิภาคเอเชียตะวันออกเฉียงใต้ (SEA) โดยรวบรวมภาพ-คำบรรยายกว่า 1.28 ล้านคู่จาก 11 ประเทศ
วิธีการรวบรวมผสมผสาน crowdsourcing, web crawling และการสร้างภาพด้วย AI ผลการศึกษาแสดงว่า crowdsourcing ให้ข้อมูลที่แม่นยำที่สุด ขณะที่ web crawling คุ้มค่าที่สุด ส่วน image generation ยังจับความละเอียดอ่อนของวัฒนธรรมได้ไม่ดีพอ
ผลการประเมินจากมนุษย์ยืนยันความเกี่ยวข้องทางวัฒนธรรมของ dataset นี้ และชี้ให้เห็นช่องว่างของ AI ในการเข้าใจความหลากหลายของวัฒนธรรม
4. Towards Better Understanding of Program-of-Thought Reasoning in Cross-Lingual and Multilingual Environments

- ได้รับตอบรับใน Findings
- Paper link: https://arxiv.org/abs/2502.17956
- ผู้เขียนจาก SCB 10X: พศวีร์ มานะกุล (ในบทบาท co-advisor)
งานนี้ศึกษาการใช้เทคนิค Program-of-Thought (PoT) prompting เพื่อพัฒนาความสามารถในการให้เหตุผลในสภาพแวดล้อมที่มีหลายภาษา PoT แยกกระบวนการ reasoning เขียนเป็นโค้ด ออกจากการประมวลผลโดย interpreter ผลการทดลองชี้ว่า PoT ดีกว่า Chain-of-Thought (CoT) แบบเดิม โดยเฉพาะในภาษาที่ไม่ใช่ภาษาอังกฤษ
ทีมวิจัยยังพัฒนา Metric ชื่อ ICE-Score สำหรับวัดคุณภาพ reasoning และเสนอ Soft Self-Consistency เพื่อเพิ่มความแม่นยำตอน inference โดยรวม PoT แสดงให้เห็นว่าการ fine-tune และประเมินอย่างเหมาะสม สามารถยกระดับ reasoning ข้ามภาษาใน LLM ได้อย่างมีนัยสำคัญ
5. Shortcut Learning in Safety: The Impact of Keyword Bias in Safeguards

- ได้รับตอบรับใน LLM Security Workshop
- Paper link: https://openreview.net/forum?id=IOP5nuRx5S
งานนี้ศึกษาจุดอ่อนของระบบ safeguard ใน LLM ที่พึ่งพา keyword แบบผิวเผิน แทนที่จะเข้าใจความหมายเชิงลึกของคำถาม การเรียนรู้แบบ shortcut นี้ส่งผลให้โมเดลเปราะบาง โดยเฉพาะเมื่อต้องจัดการ input ที่แตกต่างจากข้อมูลฝึก การใช้ข้อมูลสังเคราะห์ซ้ำๆ อาจทำให้โมเดลเรียนรู้ผิดทางและเน้นแต่ keyword ทีมวิจัยชี้ว่าควรออกแบบ safeguard ที่เข้าใจความหมายจริงมากกว่าการพึ่งพาคำเฉพาะ
สรุป
ACL 2025 เป็นโอกาสอันดีที่ทำให้เราได้แสดงผลงานความร่วมมือของทีม Typhoon ในเวทีวิจัยระดับโลกและระดับภูมิภาคในหลายด้าน:
-
3 งานวิจัยที่ได้รับการตอบรับใน Main Conference ครอบคลุมการรวมผลของ LLM แบบไม่ต้องใช้ reference, การประเมินโมเดลเสียงแบบโต้ตอบกับผู้ใช้ และการสร้างชุดข้อมูลภาพ-ภาษาเพื่อสะท้อนวัฒนธรรมของเอเชียตะวันออกเฉียงใต้
-
1 งานใน Findings ช่วยต่อยอดความเข้าใจเรื่องการให้เหตุผลในหลายภาษา ผ่านเทคนิค Program-of-Thought prompting
-
1 งานใน LLM Security Workshop ชี้ให้เห็นประเด็นสำคัญเกี่ยวกับความเปราะบางของระบบ safeguard และปัญหา keyword bias
ทางเราขอขอบคุณทุกคนในชุมชนวิจัยของเราที่คอยสนับสนุน สร้างแรงบันดาลใจ และร่วมมือกันอย่างต่อเนื่อง เราภูมิใจที่ได้เห็นงานวิจัยที่มีรากฐานจากเอเชียตะวันออกเฉียงใต้ และขับเคลื่อนโดยนักวิจัยจากประเทศไทย มีบทบาทในเวทีการสนทนาเกี่ยวกับ NLP และ AI ระดับนานาชาติ และหวังว่าจะได้ร่วมกันผลักดันวงการ AI ของไทยไปข้างหน้าด้วยกัน
ติดตามรีวิวจากงาน ACL 2025 เร็วๆ นี้
ในฐานะตัวแทนจากทีม Typhoon ผู้เขียนกำลังจะเข้าร่วมงาน ACL 2025 ที่จะจัดขึ้นระหว่างวันที่ 27 กรกฎาคม – 1 สิงหาคม เราตั้งใจจะนำข้อมูลและประเด็นน่าสนใจจากงานมาแบ่งปันให้กับทุกคนหลังจากจบงาน ถ้าคุณเองก็มีแผนจะเข้าร่วมงานนี้ ทักมาพูดคุยหรือพบกันได้นะคะ
ร่วมเป็นส่วนหนึ่งของชุมชนของเรา
💡 ดูผลงานโอเพ่นซอร์สของเรา
Open-weight models: huggingface.co/scb10x
รายละเอียดอื่นๆ: opentyphoon.ai
💬 เข้าร่วมกลุ่มเพื่อพูดคุยกับทีมของเราใน Discord