ผลงานวิจัยของ Typhoon ได้รับการตอบรับเข้า Main Conference และ Workshop ที่ EMNLP 2025

พวกเรายินดีอย่างยิ่งที่จะมาแจ้งข่าวดีว่างานวิจัยทั้งหมด 4 ผลงานที่ทีม Typhoon ได้ร่วมเขียนนั้นได้รับการตอบรับเข้าสู่การนำเสนอใน Main Conference และ Workshop ของ EMNLP 2025 ซึ่งเป็นการประชุมวิชาการระดับ A* และเป็นหนึ่งในเวทีที่ทรงเกียรติที่สุดในสายงานประมวลผลภาษาธรรมชาติ (NLP)

นี่ถือเป็นอีกหนึ่งก้าวสำคัญของทีมเรา ที่สะท้อนถึงพันธกิจในการผลักดันงานวิจัยด้าน AI ที่ใช้ได้จริงทั้งในประเทศไทยและภูมิภาค

งานวิจัยที่ได้รับการตอบรับ ได้แก่

Main Conference

ThaiInstruct: An Instruction-Following Dataset for Culturally-Aware, Multitask, and Multi-domain Evaluation in Thai

📄 อ่านงานวิจัย

แม้ว่าโมเดลภาษาใหญ่ (LLMs) จะมีความสามารถโดดเด่นในการทำงานแบบ instruction-following ในภาษาอังกฤษ แต่ประสิทธิภาพในภาษาที่มีทรัพยากรจำกัดอย่างภาษาไทยยังไม่ถูกสำรวจมากนัก โดย benchmark ที่มีอยู่มักอ้างอิงจากการแปลซึ่งไม่สามารถสะท้อนถึงบริบททางวัฒนธรรมและความเฉพาะด้านที่จำเป็นต่อการใช้งานจริงในภาษาไทยได้

แนวคิด

ThaiInstruct เป็นชุดข้อมูลภาษาไทยขนาดใหญ่ที่สร้างขึ้นโดยมนุษย์ชุดแรก ออกแบบมาเพื่อการประเมินผลและ instruction tuning โดยเฉพาะ

การออกแบบชุดข้อมูล

สาขา (Domains) ประกอบไปด้วย กฎหมาย การแพทย์ การเงิน การค้าปลีก
ประเภทงาน (Task types) ประกอบไปด้วย Classification, Summarization, Open QA, Closed QA, MCQ, Brainstorming, Creative Writing
ความครอบคลุม รวมทั้งโจทย์ทั่วไปและโจทย์ที่เฉพาะทางวัฒนธรรม
การควบคุมคุณภาพ ผ่านกระบวนการหลายขั้นตอน ร่วมกับ annotator ผู้เชี่ยวชาญในสาขาและนักวิจัยด้าน AI

ผลการทดลอง:

การประเมินแบบ Zero-shot พบว่าโมเดลยังมีช่องว่างของประสิทธิภาพโดยเฉพาะในงานที่มีมิติทางวัฒนธรรมหรือวิชาชีพ
Instruction tuning ด้วย ThaiInstruct ให้ผลลัพธ์เหนือกว่าการใช้ข้อมูลที่แปลมาจากภาษาอื่น ทั้งในงาน in-domain และ out-of-domain
ยืนยันว่าการใช้มีข้อมูลที่สะท้อนบริบทจริงของภาษาและวัฒนธรรมเป็นสิ่งจำเป็นต่อการทำให้ LLMs สอดคล้องกับสภาพแวดล้อมที่หลากหลาย

Prior Prompt Engineering for Reinforcement Fine-Tuning

📄 อ่านงานวิจัย

งานวิจัยนี้นำเสนอแนวคิด Prior Prompt Engineering (pPE) มิติใหม่ของการทำ reinforcement fine-tuning (RFT) กับโมเดลภาษา โดยแทนที่จะมุ่งเน้นเพียงแค่การพัฒนาอัลกอริทึม การออกแบบ reward หรือการคัดเลือกข้อมูล (ตามแนวทางเดิม ๆ) งานนี้สำรวจว่าจะเกิดอะไรขึ้นถ้าเราใช้ “prior prompts” ที่ใส่ไว้ตั้งแต่ช่วงการเทรนเพื่อกำหนดพฤติกรรมของโมเดลโดยตรง

แนวคิด

ปกติแล้วที่ขั้น inference จะใช้ prompt engineering (iPE) เช่น “คิดทีละขั้นตอน” เพื่อชี้นำพฤติกรรมการตอบ
งานวิจัยนี้เสนอให้ใช้แนวทางเดียวกันตั้งแต่ ขั้น training (pPE) เพื่อให้โมเดลซึมซับพฤติกรรมที่ต้องการระหว่าง RFT ไม่ใช่แค่ตอน inference

วิธีการ

แปลง 5 กลยุทธ์ inference-time prompt engineering มาเป็น prior prompt สำหรับการเทรน ได้แก่:
1. Reasoning (Chain-of-Thought)
2. Planning (Plan-and-Solve)
3. Code-based reasoning (Program-of-Thought)
4. Knowledge recall (Generated Knowledge)
5. Null-example utilization (Null-Shot)
ประเมินผลบน benchmark ทั้ง in-domain และ out-of-domain (AIME2024, HumanEval+, GPQA-Diamond)

ผลการทดลอง

โมเดลที่ผ่านการเทรนด้วย pPE ทำผลงานเหนือกว่าการใช้ iPE เพียงอย่างเดียว
Null-example pPE ให้ผลลัพธ์ดีที่สุด โดยเฉพาะบน AIME2024 และ GPQA-Diamond ซึ่งเหนือกว่าแม้แต่ reasoning prompts
การวิเคราะห์พฤติกรรมพบว่า แต่ละกลยุทธ์ pPE ส่งผลให้โมเดลมี “ลักษณะการตอบ” ที่แตกต่างกันชัดเจน

Workshops

FinCoT: Grounding Chain-of-Thought in Expert Financial Reasoning

📄 อ่านงานวิจัย

ได้รับการตอบรับที่ FinNLP Workshop @ EMNLP 2025

การวิเคราะห์ให้เหตุผลในด้านการเงินมักต้องการมากกว่าการใช้ Chain of Thoughts (CoT) ทั่วไป งานวิจัยที่ผ่านมามักเน้นแค่ standard prompting และ unstructured CoT แต่ structured CoT ที่อิงความรู้จากผู้เชี่ยวชาญ ยังแทบไม่ถูกศึกษา

แนวคิดหลัก:

FinCoT เป็นการนำเสนอเฟรมเวิร์กการทำ structured CoT ที่ฝังแบบแผนการให้เหตุผลจากผู้เชี่ยวชาญด้านการเงิน เพื่อชี้นำการตอบคำถามของ LLM

วิธีการ:

ระบุและเปรียบเทียบรูปแบบการ prompting ในงานด้านการเงิน 3 แบบ ได้แก่:
- Standard prompting (zero-shot)
- Unstructured CoT (การให้เหตุผลแบบอิสระ ไม่เป็นโครงสร้าง)
- Structured CoT (การให้เหตุผลแบบมีขั้นตอนชัดเจน)
พัฒนา FinCoT โดยฝังแบบแผนการให้เหตุผลจากผู้เชี่ยวชาญด้านการเงิน เข้าไปใน Structured CoT prompts
ทำการประเมินบน 10 โดเมนการเงิน CFA โดยทดสอบบนทั้งโมเดลทั่วไปและโมเดลเฉพาะทางด้านการเงิน

ผลการทดลอง:

FinCoT เพิ่มความแม่นยำของ Qwen3-8B-Base จาก 63.2% → 80.5%
FinCoT เพิ่มความแม่นยำของ Fin-R1 (7B) จาก 65.7% → 75.7%
ลดความยาวของ output ได้สูงสุดถึง 8.9 เท่า (โมเดลทั่วไป) และ 1.16 เท่า (โมเดลเฉพาะทางการเงิน)
มีประสิทธิภาพสูงสุดกับโมเดลที่ยังไม่เคยถูกเทรนเพิ่มเติมในโดเมนการเงินมาก่อน

Talk Less, Call Right: Enhancing Role-Play LLM Agents with Automatic Prompt Optimization and Role Prompting

📄 อ่านงานวิจัย

ได้รับการตอบรับที่ WordPlay Workshop @ EMNLP 2025

ในการสนทนาแบบสวมบทบาท (role-playing) นั้น LLM agents ที่เชื่อมกับเครื่องมือ (tool-augmented) มักจะมีปัญหาพูดมากเกินไป (over-speak) คือให้คำตอบยาวเกินความจำเป็น และ ไม่ทำหน้าที่ตามบทบาท (under-act) เช่น ใช้เครื่องมือไม่ถูกต้องหรือไม่สอดคล้องกับ persona

งานวิจัยนี้สำรวจว่าการออกแบบ prompt จะช่วยให้ agent ที่ทำ role-play มีประสิทธิภาพ กระชับ และน่าเชื่อถือมากขึ้นได้อย่างไร

แนวคิดหลัก:

งานวิจัยนี้ทดสอบและเปรียบเทียบ 4 วิธีการ prompt เพื่อแก้ปัญหา over-speak และ under-act ได้แก่:

Basic role prompting
Human-crafted role prompting
Automatic Prompt Optimization (APO)
Rule-based Role Prompting (RRP)

วิธีการและผลลัพธ์:

RRP ให้ผลลัพธ์ดีที่สุด โดยใช้ 2 เทคนิคใหม่:
- การออกแบบ Character-card & Scene-contract
- การบังคับใช้ Function calling อย่างเข้มงวด
RRP ทำคะแนนได้ 0.571 สูงกว่า baseline แบบ zero-shot ที่ 0.519
เมื่อเทียบกับ APO และวิธีอื่น ๆ RRP มีประสิทธิภาพกว่าในการสร้างบทสนทนาที่ กระชับ และ ใช้เครื่องมือได้ถูกต้อง

เปิดเผยแบบ Open-source:

เราได้เปิดเผย prompt ที่ทำผลงานได้ดีที่สุด พร้อมทั้ง เครื่องมือ APO เพื่อสนับสนุนการพัฒนา persona-grounded dialogue agents ในอนาคต

📂 Source code

ผลงานและยอมรับเพิ่มเติม:

ผลงานนี้ยังเป็นผลงานที่ทีมได้รับการติดอันดับ Top 10 (อันดับที่ 8) บน API Track ของการแข่งขัน Commonsense Persona-Grounded Dialogue Challenge (CPDC) 2025 🏆

📊 Leaderboard อ้างอิง

ก้าวต่อไป

เราภูมิใจในความพยายามร่วมกันกับพาร์ทเนอร์อย่าง SCBX, VISTEC และ AI Singapore ที่ช่วยกันผลักดันขอบเขตของงานวิจัย NLP ให้ก้าวไกลยิ่งขึ้น

หากคุณเข้าร่วมงาน EMNLP 2025 ในเดือนพฤศจิกายนนี้ มาพบกันและแลกเปลี่ยนกันได้ที่ sessions ของพวกเรา

ผลงานวิจัยของ Typhoon ได้รับการตอบรับเข้า Main Conference และ Workshop ที่ EMNLP 2025

สารบัญ

Main Conference

ThaiInstruct: An Instruction-Following Dataset for Culturally-Aware, Multitask, and Multi-domain Evaluation in Thai

Prior Prompt Engineering for Reinforcement Fine-Tuning

Workshops

FinCoT: Grounding Chain-of-Thought in Expert Financial Reasoning

Talk Less, Call Right: Enhancing Role-Play LLM Agents with Automatic Prompt Optimization and Role Prompting

ก้าวต่อไป

RISA แชทบอทติวข้อสอบที่พัฒนาขึ้นโดยมี Typhoon AI อยู่เบื้องหลังกับเป้าหมายพลิกโฉมการศึกษาไทย

สรุปไฮไลต์จากงาน Typhoon Community Meetup พร้อมกรณีศึกษาการนำ Typhoon ไปใช้จริงในธุรกิจ