Typhoon Logo
TYPHOON
ผลงานวิจัยของ Typhoon ได้รับการตอบรับเข้า Main Conference และ Workshop ที่ EMNLP 2025

ผลงานวิจัยของ Typhoon ได้รับการตอบรับเข้า Main Conference และ Workshop ที่ EMNLP 2025

Conference
Research
EMNLP
NLP

ผลงานวิจัย 4 ผลงาน ได้รับการตอบรับที่ EMNLP 2025 ได้แก่ 2 ผลงานใน Main Conference (A*) และอีก 2 ผลงานใน Workshop ผลงานวิจัยเหล่านี้ครอบคลุมทั้ง NLP ภาษาไทย การเงิน และการทำบทบาทสมมติของ LLMs.

Oravee (Orn) Smithiphol

Oravee (Orn) Smithiphol

01 ตุลาคม 2568

ผลงานวิจัยของ Typhoon ได้รับการตอบรับเข้า Main Conference และ Workshop ที่ EMNLP 2025

พวกเรายินดีอย่างยิ่งที่จะมาแจ้งข่าวดีว่างานวิจัยทั้งหมด 4 ผลงานที่ทีม Typhoon ได้ร่วมเขียนนั้นได้รับการตอบรับเข้าสู่การนำเสนอใน Main Conference และ Workshop ของ EMNLP 2025 ซึ่งเป็นการประชุมวิชาการระดับ A* และเป็นหนึ่งในเวทีที่ทรงเกียรติที่สุดในสายงานประมวลผลภาษาธรรมชาติ (NLP)

นี่ถือเป็นอีกหนึ่งก้าวสำคัญของทีมเรา ที่สะท้อนถึงพันธกิจในการผลักดันงานวิจัยด้าน AI ที่ใช้ได้จริงทั้งในประเทศไทยและภูมิภาค

งานวิจัยที่ได้รับการตอบรับ ได้แก่

Main Conference

ThaiInstruct: An Instruction-Following Dataset for Culturally-Aware, Multitask, and Multi-domain Evaluation in Thai

📄 อ่านงานวิจัย

แม้ว่าโมเดลภาษาใหญ่ (LLMs) จะมีความสามารถโดดเด่นในการทำงานแบบ instruction-following ในภาษาอังกฤษ แต่ประสิทธิภาพในภาษาที่มีทรัพยากรจำกัดอย่างภาษาไทยยังไม่ถูกสำรวจมากนัก โดย benchmark ที่มีอยู่มักอ้างอิงจากการแปลซึ่งไม่สามารถสะท้อนถึงบริบททางวัฒนธรรมและความเฉพาะด้านที่จำเป็นต่อการใช้งานจริงในภาษาไทยได้

แนวคิด

ThaiInstruct เป็นชุดข้อมูลภาษาไทยขนาดใหญ่ที่สร้างขึ้นโดยมนุษย์ชุดแรก ออกแบบมาเพื่อการประเมินผลและ instruction tuning โดยเฉพาะ

การออกแบบชุดข้อมูล

  • สาขา (Domains) ประกอบไปด้วย กฎหมาย การแพทย์ การเงิน การค้าปลีก
  • ประเภทงาน (Task types) ประกอบไปด้วย Classification, Summarization, Open QA, Closed QA, MCQ, Brainstorming, Creative Writing
  • ความครอบคลุม รวมทั้งโจทย์ทั่วไปและโจทย์ที่เฉพาะทางวัฒนธรรม
  • การควบคุมคุณภาพ ผ่านกระบวนการหลายขั้นตอน ร่วมกับ annotator ผู้เชี่ยวชาญในสาขาและนักวิจัยด้าน AI

ผลการทดลอง:

  1. การประเมินแบบ Zero-shot พบว่าโมเดลยังมีช่องว่างของประสิทธิภาพโดยเฉพาะในงานที่มีมิติทางวัฒนธรรมหรือวิชาชีพ
  2. Instruction tuning ด้วย ThaiInstruct ให้ผลลัพธ์เหนือกว่าการใช้ข้อมูลที่แปลมาจากภาษาอื่น ทั้งในงาน in-domain และ out-of-domain
  3. ยืนยันว่าการใช้มีข้อมูลที่สะท้อนบริบทจริงของภาษาและวัฒนธรรมเป็นสิ่งจำเป็นต่อการทำให้ LLMs สอดคล้องกับสภาพแวดล้อมที่หลากหลาย

Prior Prompt Engineering for Reinforcement Fine-Tuning

📄 อ่านงานวิจัย

งานวิจัยนี้นำเสนอแนวคิด Prior Prompt Engineering (pPE) มิติใหม่ของการทำ reinforcement fine-tuning (RFT) กับโมเดลภาษา โดยแทนที่จะมุ่งเน้นเพียงแค่การพัฒนาอัลกอริทึม การออกแบบ reward หรือการคัดเลือกข้อมูล (ตามแนวทางเดิม ๆ) งานนี้สำรวจว่าจะเกิดอะไรขึ้นถ้าเราใช้ “prior prompts” ที่ใส่ไว้ตั้งแต่ช่วงการเทรนเพื่อกำหนดพฤติกรรมของโมเดลโดยตรง

แนวคิด

  • ปกติแล้วที่ขั้น inference จะใช้ prompt engineering (iPE) เช่น “คิดทีละขั้นตอน” เพื่อชี้นำพฤติกรรมการตอบ

  • งานวิจัยนี้เสนอให้ใช้แนวทางเดียวกันตั้งแต่ ขั้น training (pPE) เพื่อให้โมเดลซึมซับพฤติกรรมที่ต้องการระหว่าง RFT ไม่ใช่แค่ตอน inference

วิธีการ

  • แปลง 5 กลยุทธ์ inference-time prompt engineering มาเป็น prior prompt สำหรับการเทรน ได้แก่:

    1. Reasoning (Chain-of-Thought)
    2. Planning (Plan-and-Solve)
    3. Code-based reasoning (Program-of-Thought)
    4. Knowledge recall (Generated Knowledge)
    5. Null-example utilization (Null-Shot)
  • ประเมินผลบน benchmark ทั้ง in-domain และ out-of-domain (AIME2024, HumanEval+, GPQA-Diamond)

ผลการทดลอง

  • โมเดลที่ผ่านการเทรนด้วย pPE ทำผลงานเหนือกว่าการใช้ iPE เพียงอย่างเดียว
  • Null-example pPE ให้ผลลัพธ์ดีที่สุด โดยเฉพาะบน AIME2024 และ GPQA-Diamond ซึ่งเหนือกว่าแม้แต่ reasoning prompts
  • การวิเคราะห์พฤติกรรมพบว่า แต่ละกลยุทธ์ pPE ส่งผลให้โมเดลมี “ลักษณะการตอบ” ที่แตกต่างกันชัดเจน

Workshops

FinCoT: Grounding Chain-of-Thought in Expert Financial Reasoning

📄 อ่านงานวิจัย

ได้รับการตอบรับที่ FinNLP Workshop @ EMNLP 2025

การวิเคราะห์ให้เหตุผลในด้านการเงินมักต้องการมากกว่าการใช้ Chain of Thoughts (CoT) ทั่วไป งานวิจัยที่ผ่านมามักเน้นแค่ standard prompting และ unstructured CoT แต่ structured CoT ที่อิงความรู้จากผู้เชี่ยวชาญ ยังแทบไม่ถูกศึกษา

แนวคิดหลัก:

FinCoT เป็นการนำเสนอเฟรมเวิร์กการทำ structured CoT ที่ฝังแบบแผนการให้เหตุผลจากผู้เชี่ยวชาญด้านการเงิน เพื่อชี้นำการตอบคำถามของ LLM

วิธีการ:

  • ระบุและเปรียบเทียบรูปแบบการ prompting ในงานด้านการเงิน 3 แบบ ได้แก่:

    • Standard prompting (zero-shot)

    • Unstructured CoT (การให้เหตุผลแบบอิสระ ไม่เป็นโครงสร้าง)

    • Structured CoT (การให้เหตุผลแบบมีขั้นตอนชัดเจน)

  • พัฒนา FinCoT โดยฝังแบบแผนการให้เหตุผลจากผู้เชี่ยวชาญด้านการเงิน เข้าไปใน Structured CoT prompts

  • ทำการประเมินบน 10 โดเมนการเงิน CFA โดยทดสอบบนทั้งโมเดลทั่วไปและโมเดลเฉพาะทางด้านการเงิน

ผลการทดลอง:

  • FinCoT เพิ่มความแม่นยำของ Qwen3-8B-Base จาก 63.2% → 80.5%

  • FinCoT เพิ่มความแม่นยำของ Fin-R1 (7B) จาก 65.7% → 75.7%

  • ลดความยาวของ output ได้สูงสุดถึง 8.9 เท่า (โมเดลทั่วไป) และ 1.16 เท่า (โมเดลเฉพาะทางการเงิน)

  • มีประสิทธิภาพสูงสุดกับโมเดลที่ยังไม่เคยถูกเทรนเพิ่มเติมในโดเมนการเงินมาก่อน


Talk Less, Call Right: Enhancing Role-Play LLM Agents with Automatic Prompt Optimization and Role Prompting

📄 อ่านงานวิจัย

ได้รับการตอบรับที่ WordPlay Workshop @ EMNLP 2025

ในการสนทนาแบบสวมบทบาท (role-playing) นั้น LLM agents ที่เชื่อมกับเครื่องมือ (tool-augmented) มักจะมีปัญหาพูดมากเกินไป (over-speak) คือให้คำตอบยาวเกินความจำเป็น และ ไม่ทำหน้าที่ตามบทบาท (under-act) เช่น ใช้เครื่องมือไม่ถูกต้องหรือไม่สอดคล้องกับ persona

งานวิจัยนี้สำรวจว่าการออกแบบ prompt จะช่วยให้ agent ที่ทำ role-play มีประสิทธิภาพ กระชับ และน่าเชื่อถือมากขึ้นได้อย่างไร

แนวคิดหลัก:

งานวิจัยนี้ทดสอบและเปรียบเทียบ 4 วิธีการ prompt เพื่อแก้ปัญหา over-speak และ under-act ได้แก่:

  1. Basic role prompting

  2. Human-crafted role prompting

  3. Automatic Prompt Optimization (APO)

  4. Rule-based Role Prompting (RRP)

วิธีการและผลลัพธ์:

  • RRP ให้ผลลัพธ์ดีที่สุด โดยใช้ 2 เทคนิคใหม่:

    • การออกแบบ Character-card & Scene-contract

    • การบังคับใช้ Function calling อย่างเข้มงวด

  • RRP ทำคะแนนได้ 0.571 สูงกว่า baseline แบบ zero-shot ที่ 0.519

  • เมื่อเทียบกับ APO และวิธีอื่น ๆ RRP มีประสิทธิภาพกว่าในการสร้างบทสนทนาที่ กระชับ และ ใช้เครื่องมือได้ถูกต้อง

เปิดเผยแบบ Open-source:

เราได้เปิดเผย prompt ที่ทำผลงานได้ดีที่สุด พร้อมทั้ง เครื่องมือ APO เพื่อสนับสนุนการพัฒนา persona-grounded dialogue agents ในอนาคต

📂 Source code

ผลงานและยอมรับเพิ่มเติม:

ผลงานนี้ยังเป็นผลงานที่ทีมได้รับการติดอันดับ Top 10 (อันดับที่ 8) บน API Track ของการแข่งขัน Commonsense Persona-Grounded Dialogue Challenge (CPDC) 2025 🏆

📊 Leaderboard อ้างอิง

ก้าวต่อไป

เราภูมิใจในความพยายามร่วมกันกับพาร์ทเนอร์อย่าง SCBX, VISTEC และ AI Singapore ที่ช่วยกันผลักดันขอบเขตของงานวิจัย NLP ให้ก้าวไกลยิ่งขึ้น

หากคุณเข้าร่วมงาน EMNLP 2025 ในเดือนพฤศจิกายนนี้ มาพบกันและแลกเปลี่ยนกันได้ที่ sessions ของพวกเรา