พวกเรายินดีอย่างยิ่งที่จะมาแจ้งข่าวดีว่างานวิจัยทั้งหมด 4 ผลงานที่ทีม Typhoon ได้ร่วมเขียนนั้นได้รับการตอบรับเข้าสู่การนำเสนอใน Main Conference และ Workshop ของ EMNLP 2025 ซึ่งเป็นการประชุมวิชาการระดับ A* และเป็นหนึ่งในเวทีที่ทรงเกียรติที่สุดในสายงานประมวลผลภาษาธรรมชาติ (NLP)
นี่ถือเป็นอีกหนึ่งก้าวสำคัญของทีมเรา ที่สะท้อนถึงพันธกิจในการผลักดันงานวิจัยด้าน AI ที่ใช้ได้จริงทั้งในประเทศไทยและภูมิภาค
งานวิจัยที่ได้รับการตอบรับ ได้แก่
Main Conference
ThaiInstruct: An Instruction-Following Dataset for Culturally-Aware, Multitask, and Multi-domain Evaluation in Thai

แม้ว่าโมเดลภาษาใหญ่ (LLMs) จะมีความสามารถโดดเด่นในการทำงานแบบ instruction-following ในภาษาอังกฤษ แต่ประสิทธิภาพในภาษาที่มีทรัพยากรจำกัดอย่างภาษาไทยยังไม่ถูกสำรวจมากนัก โดย benchmark ที่มีอยู่มักอ้างอิงจากการแปลซึ่งไม่สามารถสะท้อนถึงบริบททางวัฒนธรรมและความเฉพาะด้านที่จำเป็นต่อการใช้งานจริงในภาษาไทยได้
แนวคิด
ThaiInstruct เป็นชุดข้อมูลภาษาไทยขนาดใหญ่ที่สร้างขึ้นโดยมนุษย์ชุดแรก ออกแบบมาเพื่อการประเมินผลและ instruction tuning โดยเฉพาะ
การออกแบบชุดข้อมูล
- สาขา (Domains) ประกอบไปด้วย กฎหมาย การแพทย์ การเงิน การค้าปลีก
- ประเภทงาน (Task types) ประกอบไปด้วย Classification, Summarization, Open QA, Closed QA, MCQ, Brainstorming, Creative Writing
- ความครอบคลุม รวมทั้งโจทย์ทั่วไปและโจทย์ที่เฉพาะทางวัฒนธรรม
- การควบคุมคุณภาพ ผ่านกระบวนการหลายขั้นตอน ร่วมกับ annotator ผู้เชี่ยวชาญในสาขาและนักวิจัยด้าน AI
ผลการทดลอง:
- การประเมินแบบ Zero-shot พบว่าโมเดลยังมีช่องว่างของประสิทธิภาพโดยเฉพาะในงานที่มีมิติทางวัฒนธรรมหรือวิชาชีพ
- Instruction tuning ด้วย ThaiInstruct ให้ผลลัพธ์เหนือกว่าการใช้ข้อมูลที่แปลมาจากภาษาอื่น ทั้งในงาน in-domain และ out-of-domain
- ยืนยันว่าการใช้มีข้อมูลที่สะท้อนบริบทจริงของภาษาและวัฒนธรรมเป็นสิ่งจำเป็นต่อการทำให้ LLMs สอดคล้องกับสภาพแวดล้อมที่หลากหลาย
Prior Prompt Engineering for Reinforcement Fine-Tuning

งานวิจัยนี้นำเสนอแนวคิด Prior Prompt Engineering (pPE) มิติใหม่ของการทำ reinforcement fine-tuning (RFT) กับโมเดลภาษา โดยแทนที่จะมุ่งเน้นเพียงแค่การพัฒนาอัลกอริทึม การออกแบบ reward หรือการคัดเลือกข้อมูล (ตามแนวทางเดิม ๆ) งานนี้สำรวจว่าจะเกิดอะไรขึ้นถ้าเราใช้ “prior prompts” ที่ใส่ไว้ตั้งแต่ช่วงการเทรนเพื่อกำหนดพฤติกรรมของโมเดลโดยตรง
แนวคิด
-
ปกติแล้วที่ขั้น inference จะใช้ prompt engineering (iPE) เช่น “คิดทีละขั้นตอน” เพื่อชี้นำพฤติกรรมการตอบ
-
งานวิจัยนี้เสนอให้ใช้แนวทางเดียวกันตั้งแต่ ขั้น training (pPE) เพื่อให้โมเดลซึมซับพฤติกรรมที่ต้องการระหว่าง RFT ไม่ใช่แค่ตอน inference
วิธีการ
-
แปลง 5 กลยุทธ์ inference-time prompt engineering มาเป็น prior prompt สำหรับการเทรน ได้แก่:
- Reasoning (Chain-of-Thought)
- Planning (Plan-and-Solve)
- Code-based reasoning (Program-of-Thought)
- Knowledge recall (Generated Knowledge)
- Null-example utilization (Null-Shot)
-
ประเมินผลบน benchmark ทั้ง in-domain และ out-of-domain (AIME2024, HumanEval+, GPQA-Diamond)
ผลการทดลอง
- โมเดลที่ผ่านการเทรนด้วย pPE ทำผลงานเหนือกว่าการใช้ iPE เพียงอย่างเดียว
- Null-example pPE ให้ผลลัพธ์ดีที่สุด โดยเฉพาะบน AIME2024 และ GPQA-Diamond ซึ่งเหนือกว่าแม้แต่ reasoning prompts
- การวิเคราะห์พฤติกรรมพบว่า แต่ละกลยุทธ์ pPE ส่งผลให้โมเดลมี “ลักษณะการตอบ” ที่แตกต่างกันชัดเจน
Workshops
FinCoT: Grounding Chain-of-Thought in Expert Financial Reasoning

ได้รับการตอบรับที่ FinNLP Workshop @ EMNLP 2025
การวิเคราะห์ให้เหตุผลในด้านการเงินมักต้องการมากกว่าการใช้ Chain of Thoughts (CoT) ทั่วไป งานวิจัยที่ผ่านมามักเน้นแค่ standard prompting และ unstructured CoT แต่ structured CoT ที่อิงความรู้จากผู้เชี่ยวชาญ ยังแทบไม่ถูกศึกษา
แนวคิดหลัก:
FinCoT เป็นการนำเสนอเฟรมเวิร์กการทำ structured CoT ที่ฝังแบบแผนการให้เหตุผลจากผู้เชี่ยวชาญด้านการเงิน เพื่อชี้นำการตอบคำถามของ LLM
วิธีการ:
-
ระบุและเปรียบเทียบรูปแบบการ prompting ในงานด้านการเงิน 3 แบบ ได้แก่:
-
Standard prompting (zero-shot)
-
Unstructured CoT (การให้เหตุผลแบบอิสระ ไม่เป็นโครงสร้าง)
-
Structured CoT (การให้เหตุผลแบบมีขั้นตอนชัดเจน)
-
-
พัฒนา FinCoT โดยฝังแบบแผนการให้เหตุผลจากผู้เชี่ยวชาญด้านการเงิน เข้าไปใน Structured CoT prompts
-
ทำการประเมินบน 10 โดเมนการเงิน CFA โดยทดสอบบนทั้งโมเดลทั่วไปและโมเดลเฉพาะทางด้านการเงิน
ผลการทดลอง:
-
FinCoT เพิ่มความแม่นยำของ Qwen3-8B-Base จาก 63.2% → 80.5%
-
FinCoT เพิ่มความแม่นยำของ Fin-R1 (7B) จาก 65.7% → 75.7%
-
ลดความยาวของ output ได้สูงสุดถึง 8.9 เท่า (โมเดลทั่วไป) และ 1.16 เท่า (โมเดลเฉพาะทางการเงิน)
-
มีประสิทธิภาพสูงสุดกับโมเดลที่ยังไม่เคยถูกเทรนเพิ่มเติมในโดเมนการเงินมาก่อน
Talk Less, Call Right: Enhancing Role-Play LLM Agents with Automatic Prompt Optimization and Role Prompting

ได้รับการตอบรับที่ WordPlay Workshop @ EMNLP 2025
ในการสนทนาแบบสวมบทบาท (role-playing) นั้น LLM agents ที่เชื่อมกับเครื่องมือ (tool-augmented) มักจะมีปัญหาพูดมากเกินไป (over-speak) คือให้คำตอบยาวเกินความจำเป็น และ ไม่ทำหน้าที่ตามบทบาท (under-act) เช่น ใช้เครื่องมือไม่ถูกต้องหรือไม่สอดคล้องกับ persona
งานวิจัยนี้สำรวจว่าการออกแบบ prompt จะช่วยให้ agent ที่ทำ role-play มีประสิทธิภาพ กระชับ และน่าเชื่อถือมากขึ้นได้อย่างไร
แนวคิดหลัก:
งานวิจัยนี้ทดสอบและเปรียบเทียบ 4 วิธีการ prompt เพื่อแก้ปัญหา over-speak และ under-act ได้แก่:
-
Basic role prompting
-
Human-crafted role prompting
-
Automatic Prompt Optimization (APO)
-
Rule-based Role Prompting (RRP)
วิธีการและผลลัพธ์:
-
RRP ให้ผลลัพธ์ดีที่สุด โดยใช้ 2 เทคนิคใหม่:
-
การออกแบบ Character-card & Scene-contract
-
การบังคับใช้ Function calling อย่างเข้มงวด
-
-
RRP ทำคะแนนได้ 0.571 สูงกว่า baseline แบบ zero-shot ที่ 0.519
-
เมื่อเทียบกับ APO และวิธีอื่น ๆ RRP มีประสิทธิภาพกว่าในการสร้างบทสนทนาที่ กระชับ และ ใช้เครื่องมือได้ถูกต้อง
เปิดเผยแบบ Open-source:
เราได้เปิดเผย prompt ที่ทำผลงานได้ดีที่สุด พร้อมทั้ง เครื่องมือ APO เพื่อสนับสนุนการพัฒนา persona-grounded dialogue agents ในอนาคต
ผลงานและยอมรับเพิ่มเติม:
ผลงานนี้ยังเป็นผลงานที่ทีมได้รับการติดอันดับ Top 10 (อันดับที่ 8) บน API Track ของการแข่งขัน Commonsense Persona-Grounded Dialogue Challenge (CPDC) 2025 🏆

ก้าวต่อไป
เราภูมิใจในความพยายามร่วมกันกับพาร์ทเนอร์อย่าง SCBX, VISTEC และ AI Singapore ที่ช่วยกันผลักดันขอบเขตของงานวิจัย NLP ให้ก้าวไกลยิ่งขึ้น
หากคุณเข้าร่วมงาน EMNLP 2025 ในเดือนพฤศจิกายนนี้ มาพบกันและแลกเปลี่ยนกันได้ที่ sessions ของพวกเรา



