Typhoon Logo
TYPHOON
ผลงานวิจัยร่วมของทีม Typhoon ได้รับการตอบรับในงานประชุม ACL 2025 ทั้งหมด 5 เปเปอร์

ผลงานวิจัยร่วมของทีม Typhoon ได้รับการตอบรับในงานประชุม ACL 2025 ทั้งหมด 5 เปเปอร์

Conference
Research
ACL
NLP

ผลงานเปเปอร์ที่ได้ร่วมวิจัย ได้แก่ 3 ผลงานใน Main Conference และ 1 ผลงานใน Findings พร้อมกับ 1 ผลงานใน Workshop

Oravee (Orn) Smithiphol

Oravee (Orn) Smithiphol

12 มิถุนายน 2568

ผลงานวิจัยร่วมของทีม Typhoon ได้รับการตอบรับในงานประชุม ACL 2025 ทั้งหมด 5 เปเปอร์

ในฐานะทีม R&D ด้าน LLM ของประเทศไทย พวกเรารู้สึกเป็นเกียรติอย่างยิ่งที่จะมาแชร์ให้กับทุกคนทราบว่ามีผลงานวิจัย 5 ชิ้นที่ทีม Typhoon มีส่วนร่วมและได้รับการตอบรับให้เผยแพร่ในงานประชุม Association for Computational Linguistics (ACL) 2025 ซึ่งเป็นงานประชุมวิชาการระดับนานาชาติด้าน AI โดยเฉพาะอย่างยิ่ง การประมวลผลภาษาธรรมชาติ (NLP) และภาษาศาสตร์คอมพิวเตอร์ที่ทรงเกียรติที่สุดงานหนึ่งของโลก

ACL เป็นเวทีที่รวมงานวิจัย AI แนวหน้าจากทั่วโลก โดยมีระบบ peer review ที่เข้มข้นและได้รับความสนใจสูงจากชุมชนวิจัยนานาชาติ เรารู้สึกเป็นเกียรติที่ได้มีส่วนร่วมกับงานในปีนี้ ผ่าน 3 ผลงานใน Main Conference, 1 ผลงานใน Findings และอีก 1 ผลงานใน Workshop เฉพาะทาง งานวิจัยเหล่านี้เป็นผลจากความร่วมมือกับหลายสถาบันชั้นนำ ได้แก่ VISTEC, Cambridge, Stanford และ SEACrowd

แม้แต่ละงานจะมีประเด็นเฉพาะของตนเอง แต่ทั้งหมดล้วนสะท้อนจุดมุ่งหมายร่วมกัน: การพัฒนา AI ที่ เข้าใจบริบท ครอบคลุมความหลากหลาย และนำไปใช้ได้จริง เราขอขอบคุณผู้ร่วมวิจัย ผู้เขียนร่วม และผู้รีวิวทุกท่านที่ทำให้สิ่งนี้เกิดขึ้นได้ ด้านล่างคือสรุปผลงานแต่ละชิ้นและสาระสำคัญที่นำเสนอ

1. SkillAggregation: Reference-free LLM-Dependent Aggregation

ACL Paper 1
  • ได้รับตอบรับใน Main Conference
  • Paper link: https://arxiv.org/abs/2410.10215
  • นักวิจัยจาก SCB 10X ที่ร่วมวิจัย: Guangzhi Sun และ พศวีร์ มานะกุล

งานวิจัยนี้เสนอวิธีใหม่ชื่อว่า SkillAggregation สำหรับรวมผลการประเมินจากหลาย LLM โดยไม่ต้องใช้ ground truth label แบบดั้งเดิม ซึ่งแตกต่างจากวิธีทั่วไปที่ให้น้ำหนัก LLM เท่ากันหรือขึ้นกับ task-specific วิธีของเราเรียนรู้ทักษะของ LLM แต่ละตัวตามบริบท ช่วยให้การตัดสินใจแม่นยำและปรับตัวได้ดียิ่งขึ้น

SkillAggregation พัฒนาต่อยอดจาก Crowdlayer โดยเพิ่มการประเมินทักษะตามบริบท และ regularization เพื่อลด overconfidence ผลการทดลองใน HaluEval-Dialogue, TruthfulQA และ Chatbot Arena แสดงให้เห็นว่าวิธีนี้ให้ผลลัพธ์ที่ดีกว่า baseline เดิม โดยเฉพาะเมื่อรวมโมเดลที่คุณภาพต่างกัน

2. Mind the Gap! Static and Interactive Evaluations of Large Audio Models

ACL Paper 2
  • ได้รับตอบรับใน Main Conference
  • Paper link: https://arxiv.org/abs/2502.15919
  • นักวิจัยจาก SCB 10X ที่ร่วมวิจัย: คุณัชญ์ พิพัฒนกุล และ พศวีร์ มานะกุล

งานนี้นำเสนอแพลตฟอร์มชื่อว่า TalkArena สำหรับประเมิน Large Audio Models (LAMs) ผ่านการโต้ตอบกับผู้ใช้จริง มากกว่าการใช้ benchmark แบบสถิติดั้งเดิม ผลงานนี้รวบรวมข้อมูลการโต้ตอบกว่า 7,500 ครั้งจากผู้ใช้ 484 คน พบว่า LAMs ถูกใช้ใน task ที่เน้นความรวดเร็ว เช่น ถาม-ตอบความรู้ มากกว่างานที่ต้องเข้าใจภาษาพูดเชิงลึก

งานวิจัยพบว่า Pipeline ง่ายๆ ที่ใช้ Whisper และ LLaMA กลับได้รับความนิยมเหนือกว่าโมเดลเชิงพาณิชย์ชั้นนำและพบว่า benchmark ปัจจุบันยังทำนายความต้องการจริงของผู้ใช้ได้ไม่ดีนัก จึงเสนอแนวทางใหม่ในการประเมิน LAMs ให้สอดคล้องกับประสบการณ์ผู้ใช้มากขึ้น

3. Crowdsource, Crawl, or Generate? Creating SEA-VL, a Multicultural Vision-Language Dataset for Southeast Asia

ACL Paper 3
  • ได้รับตอบรับใน Main Conference
  • Paper link: https://arxiv.org/abs/2503.07920
  • ผู้ร่วมให้ข้อมูลจาก SCB 10X: อดิศัย ณ ถลาง

งานนี้เสนอ SEA-VL dataset ที่ใหญ่และหลากหลายวัฒนธรรมที่สุดสำหรับภูมิภาคเอเชียตะวันออกเฉียงใต้ (SEA) โดยรวบรวมภาพ-คำบรรยายกว่า 1.28 ล้านคู่จาก 11 ประเทศ

วิธีการรวบรวมผสมผสาน crowdsourcing, web crawling และการสร้างภาพด้วย AI ผลการศึกษาแสดงว่า crowdsourcing ให้ข้อมูลที่แม่นยำที่สุด ขณะที่ web crawling คุ้มค่าที่สุด ส่วน image generation ยังจับความละเอียดอ่อนของวัฒนธรรมได้ไม่ดีพอ

ผลการประเมินจากมนุษย์ยืนยันความเกี่ยวข้องทางวัฒนธรรมของ dataset นี้ และชี้ให้เห็นช่องว่างของ AI ในการเข้าใจความหลากหลายของวัฒนธรรม

4. Towards Better Understanding of Program-of-Thought Reasoning in Cross-Lingual and Multilingual Environments

ACL Paper 4
  • ได้รับตอบรับใน Findings
  • Paper link: https://arxiv.org/abs/2502.17956
  • ผู้เขียนจาก SCB 10X: พศวีร์ มานะกุล (ในบทบาท co-advisor)

งานนี้ศึกษาการใช้เทคนิค Program-of-Thought (PoT) prompting เพื่อพัฒนาความสามารถในการให้เหตุผลในสภาพแวดล้อมที่มีหลายภาษา PoT แยกกระบวนการ reasoning เขียนเป็นโค้ด ออกจากการประมวลผลโดย interpreter ผลการทดลองชี้ว่า PoT ดีกว่า Chain-of-Thought (CoT) แบบเดิม โดยเฉพาะในภาษาที่ไม่ใช่ภาษาอังกฤษ

ทีมวิจัยยังพัฒนา Metric ชื่อ ICE-Score สำหรับวัดคุณภาพ reasoning และเสนอ Soft Self-Consistency เพื่อเพิ่มความแม่นยำตอน inference โดยรวม PoT แสดงให้เห็นว่าการ fine-tune และประเมินอย่างเหมาะสม สามารถยกระดับ reasoning ข้ามภาษาใน LLM ได้อย่างมีนัยสำคัญ

5. Shortcut Learning in Safety: The Impact of Keyword Bias in Safeguards

ACL Paper 5

งานนี้ศึกษาจุดอ่อนของระบบ safeguard ใน LLM ที่พึ่งพา keyword แบบผิวเผิน แทนที่จะเข้าใจความหมายเชิงลึกของคำถาม การเรียนรู้แบบ shortcut นี้ส่งผลให้โมเดลเปราะบาง โดยเฉพาะเมื่อต้องจัดการ input ที่แตกต่างจากข้อมูลฝึก การใช้ข้อมูลสังเคราะห์ซ้ำๆ อาจทำให้โมเดลเรียนรู้ผิดทางและเน้นแต่ keyword ทีมวิจัยชี้ว่าควรออกแบบ safeguard ที่เข้าใจความหมายจริงมากกว่าการพึ่งพาคำเฉพาะ

สรุป

ACL 2025 เป็นโอกาสอันดีที่ทำให้เราได้แสดงผลงานความร่วมมือของทีม Typhoon ในเวทีวิจัยระดับโลกและระดับภูมิภาคในหลายด้าน:

  • 3 งานวิจัยที่ได้รับการตอบรับใน Main Conference ครอบคลุมการรวมผลของ LLM แบบไม่ต้องใช้ reference, การประเมินโมเดลเสียงแบบโต้ตอบกับผู้ใช้ และการสร้างชุดข้อมูลภาพ-ภาษาเพื่อสะท้อนวัฒนธรรมของเอเชียตะวันออกเฉียงใต้

  • 1 งานใน Findings ช่วยต่อยอดความเข้าใจเรื่องการให้เหตุผลในหลายภาษา ผ่านเทคนิค Program-of-Thought prompting

  • 1 งานใน LLM Security Workshop ชี้ให้เห็นประเด็นสำคัญเกี่ยวกับความเปราะบางของระบบ safeguard และปัญหา keyword bias

ทางเราขอขอบคุณทุกคนในชุมชนวิจัยของเราที่คอยสนับสนุน สร้างแรงบันดาลใจ และร่วมมือกันอย่างต่อเนื่อง เราภูมิใจที่ได้เห็นงานวิจัยที่มีรากฐานจากเอเชียตะวันออกเฉียงใต้ และขับเคลื่อนโดยนักวิจัยจากประเทศไทย มีบทบาทในเวทีการสนทนาเกี่ยวกับ NLP และ AI ระดับนานาชาติ และหวังว่าจะได้ร่วมกันผลักดันวงการ AI ของไทยไปข้างหน้าด้วยกัน

ติดตามรีวิวจากงาน ACL 2025 เร็วๆ นี้

ในฐานะตัวแทนจากทีม Typhoon ผู้เขียนกำลังจะเข้าร่วมงาน ACL 2025 ที่จะจัดขึ้นระหว่างวันที่ 27 กรกฎาคม – 1 สิงหาคม เราตั้งใจจะนำข้อมูลและประเด็นน่าสนใจจากงานมาแบ่งปันให้กับทุกคนหลังจากจบงาน ถ้าคุณเองก็มีแผนจะเข้าร่วมงานนี้ ทักมาพูดคุยหรือพบกันได้นะคะ

ร่วมเป็นส่วนหนึ่งของชุมชนของเรา

💡 ดูผลงานโอเพ่นซอร์สของเรา

Open-weight models: huggingface.co/scb10x

รายละเอียดอื่นๆ: opentyphoon.ai

💬 เข้าร่วมกลุ่มเพื่อพูดคุยกับทีมของเราใน Discord