Typhoon Logo
TYPHOON
ผลงานวิจัยของ Typhoon ได้รับการตอบรับเข้า Main Conference ที่ EMNLP 2025

ผลงานวิจัยของ Typhoon ได้รับการตอบรับเข้า Main Conference ที่ EMNLP 2025

Conference
Research
EMNLP
NLP

งานวิจัยของเรานำเสนอ ThaiInstruct ชุดข้อมูลภาษาไทยสำหรับ instruction-following ที่สะท้อนวัฒนธรรมจริงและ Prior Prompt Engineering แนวทางใหม่ในการปรับจูนแบบ reinforcement ที่ช่วยกำหนดพฤติกรรมของโมเดลได้อย่างมีประสิทธิภาพยิ่งขึ้น

Oravee (Orn) Smithiphol

Oravee (Orn) Smithiphol

01 กันยายน 2568

ผลงานวิจัยของ Typhoon ได้รับการตอบรับเข้า Main Conference ที่ EMNLP 2025

พวกเรายินดีอย่างยิ่งที่จะมาแจ้งข่าวดีว่างานวิจัยที่ทีม Typhoon ได้ร่วมเขียนนั้นได้รับการตอบรับเข้าสู่การนำเสนอใน Main Conference ของ EMNLP 2025 ซึ่งเป็นการประชุมวิชาการระดับ A* และเป็นหนึ่งในเวทีที่ทรงเกียรติที่สุดในสายงานประมวลผลภาษาธรรมชาติ (NLP)

นี่ถือเป็นอีกหนึ่งก้าวสำคัญของทีมเรา ที่สะท้อนถึงพันธกิจในการผลักดันงานวิจัยด้าน AI ที่ใช้ได้จริงทั้งในประเทศไทยและภูมิภาค

งานวิจัยที่ได้รับการตอบรับ ได้แก่

ThaiInstruct: An Instruction-Following Dataset for Culturally-Aware, Multitask, and Multi-domain Evaluation in Thai

📄 อ่านงานวิจัย

แม้ว่าโมเดลภาษาใหญ่ (LLMs) จะมีความสามารถโดดเด่นในการทำงานแบบ instruction-following ในภาษาอังกฤษ แต่ประสิทธิภาพในภาษาที่มีทรัพยากรจำกัดอย่างภาษาไทยยังไม่ถูกสำรวจมากนัก โดย benchmark ที่มีอยู่มักอ้างอิงจากการแปลซึ่งไม่สามารถสะท้อนถึงบริบททางวัฒนธรรมและความเฉพาะด้านที่จำเป็นต่อการใช้งานจริงในภาษาไทยได้

แนวคิด

ThaiInstruct เป็นชุดข้อมูลภาษาไทยขนาดใหญ่ที่สร้างขึ้นโดยมนุษย์ชุดแรก ออกแบบมาเพื่อการประเมินผลและ instruction tuning โดยเฉพาะ

การออกแบบชุดข้อมูล

  • สาขา (Domains) ประกอบไปด้วย กฎหมาย การแพทย์ การเงิน การค้าปลีก
  • ประเภทงาน (Task types) ประกอบไปด้วย Classification, Summarization, Open QA, Closed QA, MCQ, Brainstorming, Creative Writing
  • ความครอบคลุม รวมทั้งโจทย์ทั่วไปและโจทย์ที่เฉพาะทางวัฒนธรรม
  • การควบคุมคุณภาพ ผ่านกระบวนการหลายขั้นตอน ร่วมกับ annotator ผู้เชี่ยวชาญในสาขาและนักวิจัยด้าน AI

ผลการทดลอง:

  1. การประเมินแบบ Zero-shot พบว่าโมเดลยังมีช่องว่างของประสิทธิภาพโดยเฉพาะในงานที่มีมิติทางวัฒนธรรมหรือวิชาชีพ
  2. Instruction tuning ด้วย ThaiInstruct ให้ผลลัพธ์เหนือกว่าการใช้ข้อมูลที่แปลมาจากภาษาอื่น ทั้งในงาน in-domain และ out-of-domain
  3. ยืนยันว่าการใช้มีข้อมูลที่สะท้อนบริบทจริงของภาษาและวัฒนธรรมเป็นสิ่งจำเป็นต่อการทำให้ LLMs สอดคล้องกับสภาพแวดล้อมที่หลากหลาย

Prior Prompt Engineering for Reinforcement Fine-Tuning

📄 อ่านงานวิจัย

งานวิจัยนี้นำเสนอแนวคิด Prior Prompt Engineering (pPE) มิติใหม่ของการทำ reinforcement fine-tuning (RFT) กับโมเดลภาษา โดยแทนที่จะมุ่งเน้นเพียงแค่การพัฒนาอัลกอริทึม การออกแบบ reward หรือการคัดเลือกข้อมูล (ตามแนวทางเดิม ๆ) งานนี้สำรวจว่าจะเกิดอะไรขึ้นถ้าเราใช้ “prior prompts” ที่ใส่ไว้ตั้งแต่ช่วงการเทรนเพื่อกำหนดพฤติกรรมของโมเดลโดยตรง

แนวคิด

  • ปกติแล้วที่ขั้น inference จะใช้ prompt engineering (iPE) เช่น “คิดทีละขั้นตอน” เพื่อชี้นำพฤติกรรมการตอบ

  • งานวิจัยนี้เสนอให้ใช้แนวทางเดียวกันตั้งแต่ ขั้น training (pPE) เพื่อให้โมเดลซึมซับพฤติกรรมที่ต้องการระหว่าง RFT ไม่ใช่แค่ตอน inference

วิธีการ

  • แปลง 5 กลยุทธ์ inference-time prompt engineering มาเป็น prior prompt สำหรับการเทรน ได้แก่:

    1. Reasoning (Chain-of-Thought)
    2. Planning (Plan-and-Solve)
    3. Code-based reasoning (Program-of-Thought)
    4. Knowledge recall (Generated Knowledge)
    5. Null-example utilization (Null-Shot)
  • ประเมินผลบน benchmark ทั้ง in-domain และ out-of-domain (AIME2024, HumanEval+, GPQA-Diamond)

ผลการทดลอง

  • โมเดลที่ผ่านการเทรนด้วย pPE ทำผลงานเหนือกว่าการใช้ iPE เพียงอย่างเดียว
  • Null-example pPE ให้ผลลัพธ์ดีที่สุด โดยเฉพาะบน AIME2024 และ GPQA-Diamond ซึ่งเหนือกว่าแม้แต่ reasoning prompts
  • การวิเคราะห์พฤติกรรมพบว่า แต่ละกลยุทธ์ pPE ส่งผลให้โมเดลมี “ลักษณะการตอบ” ที่แตกต่างกันชัดเจน

เตรียมลุ้นกับงานวิจัยที่กำลังรอประกาศผล

งานวิจัยทั้งสองนี้ได้เข้าสู่ EMNLP Main Conference (A*) อย่างเป็นทางการแล้ว ทั้งนี้ทีมงานยังรอผลจากการส่งผลงานไปยัง workshop ต่าง ๆ อยู่ เราหวังว่าจะได้ประกาศข่าวดีเพิ่มเติมอีกเร็วๆ นี้

นี่เป็นความภาคภูมิใจของทีม Typhoon และเราขอขอบคุณผู้ร่วมงานวิจัยและชุมชน NLP ที่ร่วมกันผลักดันขอบเขตของงานวิจัย AI แบบเปิดไปข้างหน้า

หากคุณเข้าร่วมงาน EMNLP 2025 มาหาเราได้เลยที่ session งานวิจัยของเรา