พวกเรายินดีอย่างยิ่งที่จะมาแจ้งข่าวดีว่างานวิจัยที่ทีม Typhoon ได้ร่วมเขียนนั้นได้รับการตอบรับเข้าสู่การนำเสนอใน Main Conference ของ EMNLP 2025 ซึ่งเป็นการประชุมวิชาการระดับ A* และเป็นหนึ่งในเวทีที่ทรงเกียรติที่สุดในสายงานประมวลผลภาษาธรรมชาติ (NLP)
นี่ถือเป็นอีกหนึ่งก้าวสำคัญของทีมเรา ที่สะท้อนถึงพันธกิจในการผลักดันงานวิจัยด้าน AI ที่ใช้ได้จริงทั้งในประเทศไทยและภูมิภาค
งานวิจัยที่ได้รับการตอบรับ ได้แก่
ThaiInstruct: An Instruction-Following Dataset for Culturally-Aware, Multitask, and Multi-domain Evaluation in Thai

แม้ว่าโมเดลภาษาใหญ่ (LLMs) จะมีความสามารถโดดเด่นในการทำงานแบบ instruction-following ในภาษาอังกฤษ แต่ประสิทธิภาพในภาษาที่มีทรัพยากรจำกัดอย่างภาษาไทยยังไม่ถูกสำรวจมากนัก โดย benchmark ที่มีอยู่มักอ้างอิงจากการแปลซึ่งไม่สามารถสะท้อนถึงบริบททางวัฒนธรรมและความเฉพาะด้านที่จำเป็นต่อการใช้งานจริงในภาษาไทยได้
แนวคิด
ThaiInstruct เป็นชุดข้อมูลภาษาไทยขนาดใหญ่ที่สร้างขึ้นโดยมนุษย์ชุดแรก ออกแบบมาเพื่อการประเมินผลและ instruction tuning โดยเฉพาะ
การออกแบบชุดข้อมูล
- สาขา (Domains) ประกอบไปด้วย กฎหมาย การแพทย์ การเงิน การค้าปลีก
- ประเภทงาน (Task types) ประกอบไปด้วย Classification, Summarization, Open QA, Closed QA, MCQ, Brainstorming, Creative Writing
- ความครอบคลุม รวมทั้งโจทย์ทั่วไปและโจทย์ที่เฉพาะทางวัฒนธรรม
- การควบคุมคุณภาพ ผ่านกระบวนการหลายขั้นตอน ร่วมกับ annotator ผู้เชี่ยวชาญในสาขาและนักวิจัยด้าน AI
ผลการทดลอง:
- การประเมินแบบ Zero-shot พบว่าโมเดลยังมีช่องว่างของประสิทธิภาพโดยเฉพาะในงานที่มีมิติทางวัฒนธรรมหรือวิชาชีพ
- Instruction tuning ด้วย ThaiInstruct ให้ผลลัพธ์เหนือกว่าการใช้ข้อมูลที่แปลมาจากภาษาอื่น ทั้งในงาน in-domain และ out-of-domain
- ยืนยันว่าการใช้มีข้อมูลที่สะท้อนบริบทจริงของภาษาและวัฒนธรรมเป็นสิ่งจำเป็นต่อการทำให้ LLMs สอดคล้องกับสภาพแวดล้อมที่หลากหลาย
Prior Prompt Engineering for Reinforcement Fine-Tuning

งานวิจัยนี้นำเสนอแนวคิด Prior Prompt Engineering (pPE) มิติใหม่ของการทำ reinforcement fine-tuning (RFT) กับโมเดลภาษา โดยแทนที่จะมุ่งเน้นเพียงแค่การพัฒนาอัลกอริทึม การออกแบบ reward หรือการคัดเลือกข้อมูล (ตามแนวทางเดิม ๆ) งานนี้สำรวจว่าจะเกิดอะไรขึ้นถ้าเราใช้ “prior prompts” ที่ใส่ไว้ตั้งแต่ช่วงการเทรนเพื่อกำหนดพฤติกรรมของโมเดลโดยตรง
แนวคิด
-
ปกติแล้วที่ขั้น inference จะใช้ prompt engineering (iPE) เช่น “คิดทีละขั้นตอน” เพื่อชี้นำพฤติกรรมการตอบ
-
งานวิจัยนี้เสนอให้ใช้แนวทางเดียวกันตั้งแต่ ขั้น training (pPE) เพื่อให้โมเดลซึมซับพฤติกรรมที่ต้องการระหว่าง RFT ไม่ใช่แค่ตอน inference
วิธีการ
-
แปลง 5 กลยุทธ์ inference-time prompt engineering มาเป็น prior prompt สำหรับการเทรน ได้แก่:
- Reasoning (Chain-of-Thought)
- Planning (Plan-and-Solve)
- Code-based reasoning (Program-of-Thought)
- Knowledge recall (Generated Knowledge)
- Null-example utilization (Null-Shot)
-
ประเมินผลบน benchmark ทั้ง in-domain และ out-of-domain (AIME2024, HumanEval+, GPQA-Diamond)
ผลการทดลอง
- โมเดลที่ผ่านการเทรนด้วย pPE ทำผลงานเหนือกว่าการใช้ iPE เพียงอย่างเดียว
- Null-example pPE ให้ผลลัพธ์ดีที่สุด โดยเฉพาะบน AIME2024 และ GPQA-Diamond ซึ่งเหนือกว่าแม้แต่ reasoning prompts
- การวิเคราะห์พฤติกรรมพบว่า แต่ละกลยุทธ์ pPE ส่งผลให้โมเดลมี “ลักษณะการตอบ” ที่แตกต่างกันชัดเจน
เตรียมลุ้นกับงานวิจัยที่กำลังรอประกาศผล
งานวิจัยทั้งสองนี้ได้เข้าสู่ EMNLP Main Conference (A*) อย่างเป็นทางการแล้ว ทั้งนี้ทีมงานยังรอผลจากการส่งผลงานไปยัง workshop ต่าง ๆ อยู่ เราหวังว่าจะได้ประกาศข่าวดีเพิ่มเติมอีกเร็วๆ นี้
นี่เป็นความภาคภูมิใจของทีม Typhoon และเราขอขอบคุณผู้ร่วมงานวิจัยและชุมชน NLP ที่ร่วมกันผลักดันขอบเขตของงานวิจัย AI แบบเปิดไปข้างหน้า
หากคุณเข้าร่วมงาน EMNLP 2025 มาหาเราได้เลยที่ session งานวิจัยของเรา