Typhoon Logo
TYPHOON
Typhoon 2.5: โมเดลโอเพนซอร์สที่ยกระดับ Agentic AI ภาษาไทย พร้อมพลัง ความเร็ว และความคุ้มค่ากว่าเดิม

Typhoon 2.5: โมเดลโอเพนซอร์สที่ยกระดับ Agentic AI ภาษาไทย พร้อมพลัง ความเร็ว และความคุ้มค่ากว่าเดิม

New Release
Typhoon 2.5

โมเดลใหม่ที่มีพัฒนาการด้านการทำงานแบบ AI Agent พร้อมภาษาไทยที่เป็นธรรมชาติมากขึ้น และประสิทธิภาพเหนือชั้น ทั้งหมดนี้ในรูปแบบโอเพนซอร์ส ที่คุณสามารถนำไปใช้ได้ตั้งแต่ระดับอุปกรณ์ขนาดเล็กไปจนถึงระบบขนาดใหญ่ระดับองค์กร

Kunat Pipatanakul

Kunat Pipatanakul

20 ตุลาคม 2568

Typhoon 2.5: โมเดลโอเพนซอร์สที่ยกระดับ Agentic AI ภาษาไทย พร้อมพลัง ความเร็ว และความคุ้มค่ากว่าเดิม

บทนำ

ขอแนะนำ Typhoon 2.5 โมเดลภาษาข้อความแบบโอเพนซอร์สรุ่นล่าสุดของเรา รุ่นนี้ถือเป็นการก้าวกระโดดครั้งใหญ่ในสามด้านหลักคือ

🔹 ความสามารถเชิงปฏิบัติการของเอเจนต์ (Agentic Capability): ใช้งานเครื่องมืออย่างชาญฉลาด มีการให้เหตุผลหลายขั้นตอน และผสานเข้ากับเวิร์กโฟลว์ได้อย่างไร้รอยต่อ

🔹 ประสิทธิภาพในการขยายการใช้งาน (Scalable Performance & Efficiency): ประสิทธิภาพสูง รองรับการประมวลผลจำนวนมาก พร้อมต้นทุนต่อโทเคนที่ต่ำกว่า

🔹 ความคล่องแคล่วทางภาษา (Fluency That Feels Natural): สร้างข้อความที่ไม่เพียงถูกต้อง แต่ยังเป็นธรรมชาติ เข้าใจบริบททางวัฒนธรรม และตอบสนองได้ดีแม้เปลี่ยนรูปแบบคำสั่ง

แม้ว่าโมเดลแบบปิด (proprietary) จะยังคงครองตลาด AI แต่ก็มีไม่ได้มีความเปิดกว้างและยากต่อการเข้าถึงในการปรับแต่งและด้านราคา ในทางกลับกัน โมเดลโอเพนซอร์สมีข้อได้เปรียบชัดเจน ทั้งความโปร่งใส ความยืดหยุ่น และต้นทุนที่ต่ำกว่า แต่หลายโมเดลก็ยังตามไม่ทันในด้านการใช้งานจริง

นั่นคือเหตุผลที่เราได้พัฒนา Typhoon 2.5 โมเดลโอเพนซอร์สที่ออกแบบมาเพื่อเชื่อมช่องว่างนี้ โมเดลนี้มอบการรวมเข้ากับเวิร์กโฟลว์เอเจนต์ได้อย่างไร้รอยต่อ ทำงานได้อย่างมีประสิทธิภาพและคุ้มต้นทุน และสนับสนุนการโต้ตอบที่เป็นธรรมชาติที่คล่องแคล่วเหมือนมนุษย์

ไฮไลต์สำคัญ

  • เน้นเบาหรือเน้นแกร่ง สองรุ่นที่คุณเลือกได้

    4B: เบา ใช้ทรัพยากรต่ำ ทำงานบนอุปกรณ์ Edge ได้อย่างรื่นไหล

    30B (A3B): มาตรฐานระดับโปรดักชันด้วยประสิทธิภาพ MoE ให้พลังเทียบเท่าโมเดล 30B แต่ใช้ทรัพยากรการประมวลผลน้อยใกล้เคียงกับ 3B

  • ประโยชน์แบบโอเพนซอร์สกับประสิทธิภาพระดับโปร

    ความสามารถภาพรวมเทียบเคียงกับโมเดลชั้นนำอย่าง GPT-4o และ Claude Sonnet 4 ขณะที่ยังคงความโปร่งใส ควบคุมได้ และคุ้มค่า

  • ภาษาที่ถูกต้องแม่นยำและเป็นธรรมชาติ

    พัฒนาการใช้ภาษาให้เป็นธรรมชาติใกล้เคียงกับคนไทยตัวจริงมากยิ่งขึ้น

  • ประสิทธิภาพสูง ต้นทุนต่ำ

    GPU H100 หนึ่งเครื่องสามารถประมวลผลกว่า 3,000 โทเคนต่อวินาที พร้อมคำขอพร้อมกัน 64 รายการ ลดต้นทุนการสรุปผลเหลือ เพียง $0.10 ต่อหนึ่งล้านโทเคน

  • ออกแบบมาให้รองรับ Agentic AI

    แม่นยำและเชื่อถือได้มากขึ้นสำหรับงานอัตโนมัติ สามารถเรียกใช้งานฟังก์ชันภายนอก และทำงานร่วมกับเครื่องมืออย่าง n8n, LangChain หรือเครื่องมืออื่นๆ ได้อย่างราบรื่น

  • พัฒนาบน Qwen3 Instruct 2507

    สร้างบนพื้นฐานโอเพนซอร์สล่าสุดที่สามารถปฏิบัติตามคำสั่งได้อย่างความแม่นยำ

🤖 ออกแบบมาเพื่อการทำงานแบบ Agentic

อนาคตของ LLM ไม่ได้หยุดอยู่แค่การ “สนทนาโต้ตอบ” แต่มุ่งไปสู่การ ลงมือทำ (Action) และ Typhoon 2.5 ถูกสร้างมาเพื่อให้ ลงมือทำ ไม่ใช่แค่ ตอบกลับ เพียงเท่านั้น

พัฒนาการที่เพิ่มขึ้นกว่า Typhoon รุ่นก่อนๆ เพื่อให้ Typhoon 2.5 ไม่ใช่เพียงแค่แชตบอต แต่เป็น เอเจนต์ที่ไว้วางใจได้

  • การให้เหตุผลหลายขั้นตอน (Multi-step reasoning): วางแผน เชื่อมโยง และดำเนินงานผ่านเครื่องมือต่าง ๆ ได้อย่างต่อเนื่อง
  • Function Calling ที่ชาญฉลาดยิ่งขึ้น: ให้ผลลัพธ์ที่มีโครงสร้าง (Structured Output) ที่ถูกต้องและเชื่อถือได้มากกว่าเดิม
  • ผสานเข้ากับเวิร์กโฟลว์ได้อย่างราบรื่น: รองรับการทำงานร่วมกับ n8n, LangGraph หรือระบบ orchestration อื่นๆ ที่คุณกำหนดเอง
  • ใช้งานได้จริงยิ่งขึ้นในโลกธุรกิจ: ตั้งแต่การประยุกต์ใช้ทำรายงานประจำสัปดาห์ ไปจนถึงระบบอัตโนมัติของฝ่ายบริการลูกค้า Typhoon 2.5 สามารถเข้ามาช่วยจัดการแบบครบวงจร

ประสิทธิภาพสูง พร้อมต้นทุนที่ต่ำ

หนึ่งในก้าวกระโดดที่น่าตื่นเต้นของ Typhoon 2.5 อยู่ที่ประสิทธิภาพในการทำงานที่เหนือกว่าเดิมอย่างมาก

  • ประมวลผลได้กว่า 3,000 โทเคนต่อวินาที บน GPU H100 เพียงตัวเดียว ที่ 64 คำขอพร้อมกัน
  • ต้นทุนการใช้งานต่ำเพียง $0.10 ต่อหนึ่งล้านโทเคน

📊 ผลลัพธ์เทียบกับ Typhoon รุ่นก่อนและโมเดลอื่น:

Typhoon 2.5 Throughput

ประมวลผลได้มากขึ้น แม้ GPU จะเท่าเดิม โดย Typhoon 2.5 ประมวลผลได้กว่า 3,000 โทเคนต่อวินาที บน H100 เดียว เพิ่มขึ้นราว 40% เมื่อเทียบกับ Typhoon 2.1

Typhoon 2.5 Inference Cost

ต้นทุนการประมวลผลเพียง $0.10 ต่อหนึ่งล้านโทเคน ถูกกว่า Typhoon 2.1 ถึง 33%, ถูกกว่า GPT-5 Mini ถึง 91%, และ ถูกกว่า Gemini 2.5 Flash ถึง 93%

💡 ประโยชน์ต่อธุรกิจทุกขนาด:

Typhoon 2.5 ไม่ได้แค่ทำให้โมเดลพูดได้ลื่นไหลและมีพฤติกรรมเชิงเอเจนต์ที่ดีขึ้นเท่านั้น แต่ยังทำราคาเพื่อให้เข้าถึงได้สำหรับโครงการทุกขนาด และเห็นการประหยัดที่ชัดเจนกับการใช้งานปริมาณมาก (Large-scale deployment) ไม่ว่าจะเป็นการให้บริการแชตบอตนับพันเซสชัน การรันเอเจนต์วิจัย หรือการขับเคลื่อนระบบอัตโนมัติในองค์กร ทุกวินาทีของ GPU ของคุณจะคุ้มค่ามากขึ้นกว่าที่เคย

🧮 อ้างอิงวิธีการคำนวณ

🗣️ ภาษาไทยที่เป็นธรรมชาติมากขึ้น

AI ที่ยอดเยี่ยมไม่ใช่แค่ตอบถูกแต่ต้องอ่าน/ฟังแล้วไม่ขัดหูและเป็นธรรมชาติ แม้หลายโมเดลจะให้คำตอบที่ถูกต้องได้ แต่ภาษามักจะฟังดูเหมือนการแปลตรง แข็งทื่อ ไม่เป็นธรรมชาติ หรือขาดบริบททางวัฒนธรรม

Typhoon 2.5 เข้ามาเปลี่ยนสิ่งนี้ ด้วยการนิยาม “ความคล่องแคล่ว” ให้กว้างกว่าความถูกต้อง แต่ครอบคลุมถึงจังหวะของภาษา น้ำเสียง และการเลือกใช้คำที่เหมาะสมตามบริบท

เราดึงเอาประสบการณ์การทำโมเดลนักแปลอย่าง Typhoon Translate มาพัฒนา Typhoon 2.5 ด้วยการใช้ การติดป้ายข้อมูลโดยมนุษย์ (Human-in-the-loop labeling) และ กระบวนการประเมินที่เน้นความคล่องแคล่วทางภาษา (Fluency-focused evaluation)

เรากำลังเดินหน้าพัฒนาให้ดีขึ้นอย่างต่อเนื่อง และรู้สึกตื่นเต้นที่จะได้แบ่งปันความก้าวหน้าด้านนี้ให้กับทุกคน

ตัวอย่างคำสั่ง (Example Prompt):

TEXT

คำตอบจาก Typhoon 2.5:

TEXT

คำตอบจาก Claude 4:

TEXT

การประเมินความสามารถ (Evaluation Methodology)

เราได้ประเมิน Typhoon 2.5 ครอบคลุมหลายด้านตั้งแต่

  • ความสามารถในการทำตามคำสั่ง (Instruction-Following)
  • การให้เหตุผลเชิง Agentic
  • การใช้งานจริงในโลกธุรกิจ
  • ความคล่องแคล่วของภาษา (Fluency)

โดยผสานทั้ง การทดสอบเชิงวิชาการ และ การจำลองสถานการณ์การใช้งานจริง (Production-style simulations)

📘 1. ความสามารถทั่วไปในการทำตามคำสั่งและการให้เหตุผลเชิง Agentic

  • MT-Bench (English & Thai)

    เป็นกรอบการประเมินแบบ LLM-as-judge ที่วัดความถูกต้องและการปฏิบัติตามคำสั่งในงานปลายเปิด (Open-ended tasks)

    เราได้ทดสอบ Typhoon 2.5 ทั้งบนชุดข้อมูล LMSYS English benchmark และ ชุดข้อมูลภาษาไทยที่ปรับแต่งโดยเฉพาะ ครอบคลุมหลากหลายโดเมน เช่น ความรู้ทั่วไปเกี่ยวกับไทย คณิตศาสตร์ บทบาทสมมติ และงานเขียนเชิงสร้างสรรค์

  • ความแม่นยำในการทำตามคำสั่ง — IFEval & IFBench (English & Thai)

    เป็นการประเมินว่าระบบสามารถทำตามคำสั่งได้ถูกต้องในสถานการณ์ที่ตรวจสอบได้จริงเพียงใด โดยเรารายงานผลโดยเฉลี่ยจากทั้งสองชุดข้อมูล:

    • IFEval: ประเมินความสอดคล้องของข้อเท็จจริงจากกว่า 500 กรณีทดสอบ
    • IFBench: แบบประเมินรุ่นใหม่ที่มีความซับซ้อนมากขึ้น ด้วยเงื่อนไขที่ซ้อนกันหลายชั้น
  • ความสามารถด้าน Agentic และการใช้เครื่องมือ — HotpotQA

    เป็นแบบทดสอบคำถามหลายขั้นตอน (Multi-hop QA) ที่ต้องอาศัยการสืบค้นและสังเคราะห์ข้อมูลจากหลายแหล่งใน Wikipedia เราใช้แบบประเมินนี้เพื่อทดสอบความสามารถของ Typhoon 2.5 ในการ..

    • ตัดสินใจว่าเมื่อไรควรเรียกใช้เครื่องมือภายนอก (เช่น search API) และเมื่อไรควรตอบเอง
    • วางแผนและเชื่อมโยงการเรียกใช้เครื่องมือด้วย query ที่มีโครงสร้างดี
    • หยุดในเวลาที่เหมาะสม ดึงข้อมูลที่เกี่ยวข้อง และสังเคราะห์คำตอบที่ถูกต้องโดยไม่เกิดการ “หลอนข้อมูล” (hallucination)

    การประเมินนี้ดำเนินการบน ชุดข้อมูลขนาดกลาง จำนวน 100 คำถามต่อภาษา (อังกฤษและไทย) เพื่อสะท้อนกระบวนการทำงานจริงในการค้นคว้าข้อมูล

ผลการประเมิน Instruction-Following และ Agentic

Typhoon 2.5 แสดงให้เห็นถึงการพัฒนาเหนือกว่า Typhoon 2.1 และโมเดลโอเพนซอร์สระดับแนวหน้ารุ่นอื่น ๆ ทั้งในด้านการทำตามคำสั่งทั่วไปและการให้เหตุผลเชิง Agentic โดยรุ่นขนาดใหญ่ (30B A3B) สามารถแข่งขันได้กับโมเดลเชิงพาณิชย์ (Proprietary models) พร้อมยังคงข้อดีของโอเพนซอร์ส เช่น ความเป็นส่วนตัว การปรับแต่งได้ และต้นทุนต่ำ ขณะเดียวกันรุ่นขนาดเล็ก (4B) ก็เป็นโมเดลที่ทำผลงานได้ดีที่สุดในภาษาไทยในกลุ่มโอเพนซอร์ส

กราฟสรุปประสิทธิภาพเฉลี่ยของโมเดลเทียบกับต้นทุน

Typhoon 2.5 Cost-Performance

Typhoon 2.5 (Qwen3-30B-A3B) ทำผลงานได้ใกล้เคียงกับ Gemini 2.5 Flash แต่มีต้นทุนถูกกว่าถึง 14 เท่าในบรรดาโมเดลโอเพนซอร์ส Typhoon 2.5 ยังทำคะแนนได้ดีกว่าคู่แข่งในระดับราคาเดียวกัน (ดีกว่าราว 5.3% ที่ต้นทุน $0.10 ต่อหนึ่งล้านโทเคน) จึงนับว่าเป็นหนึ่งในโมเดลที่คุ้มค่าที่สุดสำหรับการใช้งานจริงทั้งภาษาไทยและภาษาอังกฤษ

ตารางสรุปผลลัพธ์ของแต่ละผลการประเมิน

Typhoon 2.5 30b benchmark

สรุปผลการประเมิน Typhoon2.5 30B A3B ในแต่ละด้าน

หมายเหตุ: Typhoon 2.1-gemma3-12b และ gemma3-12b-it ไม่สามารถเรียกใช้เครื่องมือ (Tool calling) ได้อย่างเสถียร จึงรายงานผลโดยใช้วิธี ReAct-style agent พร้อม manual parsing

Typhoon 2.5 4b benchmark

สรุปผลการประเมิน Typhoon2.5 4B ในแต่ละด้าน

หมายเหตุ: Typhoon 2.1-gemma3-4b และ gemma3-4b-it ไม่สามารถเรียกใช้เครื่องมือ (Tool calling) ได้อย่างเสถียร จึงรายงานผลโดยใช้วิธี ReAct-style agent พร้อม manual parsing เช่นเดียวกัน

🛎️ 2. การจำลองงานบริการลูกค้า (Tau-Bench)

นอกเหนือจากการทดสอบเชิงวิชาการ เราได้ทดสอบ Typhoon 2.5 ในสภาพแวดล้อมที่ใกล้เคียงกับการใช้งานจริง โดยใช้ Tau-Bench ซึ่งจำลองงานบริการลูกค้า (Customer Support) ในธุรกิจค้าปลีก

เราได้สุ่มตัวอย่างสถานการณ์สมจริงจำนวน 50 กรณีต่อภาษา (อังกฤษและไทย) โดยให้ GPT-4o ทำหน้าที่เป็น ลูกค้า เพื่อสร้างบทสนทนาแบบหลายรอบที่เป็นธรรมชาติ ทั้งในภาษาอังกฤษและภาษาไทย

สิ่งที่เราทดสอบ

  • งานที่ซับซ้อนและต้องคำนึงถึงนโยบายของธุรกิจ: เช่น นโยบายการเปลี่ยนหรือยกเลิกคำสั่งซื้อ การคืนสินค้า/ขอคืนเงิน การเปลี่ยนที่อยู่ และการแนะนำสินค้า
  • ความน่าเชื่อถือของเอเจนต์: รู้ว่าเมื่อไรควรเรียกใช้เครื่องมือ (tools), การสร้าง query ที่ถูกต้อง, การติดตามสถานะการสนทนาแบบหลายรอบ และหลีกเลี่ยงการ “หลอนข้อมูล” (hallucination)
  • ความสำเร็จแบบวัดผลจนจบ: วัดจาก อัตราการแก้ไขปัญหาสำเร็จ (resolution rate) และ ความถูกต้องของการทำงานครบขั้นตอน (task completion accuracy) ดูว่าเอเจนต์สามารถทำงานครบขั้นตอน ถูกต้อง และกรอกข้อมูลตรงตามที่ต้องหรือไม่

เหตุผลที่สิ่งนี้สำคัญ

  • สถานการณ์เหล่านี้สะท้อนทักษะที่เจ้าหน้าที่บริการลูกค้าจริงต้องมี ได้แก่ การให้เหตุผลแบบหลายขั้นตอน (multi-step reasoning) การประสานเครื่องมือหลายอย่าง (tool orchestration) และ การปฏิบัติตามนโยบาย (policy compliance) และทั้งหมดนี้ยังต้องทำได้สำเร็จโดยใช้ภาษาไทยได้อย่างเหมาสมเป็นธรรมชาติ

ตัวอย่างโดยย่อ: การจำลองบทสนทนาภาษาไทย + การเรียกใช้เครื่องมือ

JSON
  • ลำดับการทำงาน (Trace):
    ทำความเข้าใจเจตนา/ความต้องการ → ยืนยันข้อมูล → ดึงข้อมูล → เสนอทางเลือก → ยืนยัน → ดำเนินการ → ยืนยันผลลัพธ์
  • แต่ละ tool_call คือขั้นตอนการทำงานที่ชัดเจน (เช่น get_user_details, get_order_details, exchange_delivered_order_items)
  • เอเจนต์สามารถรักษา สถานะของข้อมูล (state) เช่น สินค้าที่เลือก, SKU, ราคา
    รวมถึงจัดการกับการแก้ไขคำสั่งของผู้ใช้ และสร้างการยืนยันผลลัพธ์สุดท้ายที่ถูกต้องตามนโยบาย เป็นภาษาไทยได้อย่างครบถ้วน

การตั้งค่าการประเมินผล (Evaluation setup)

  • ใช้ 50 สถานการณ์ต่อภาษา โดยมี GPT-4o จำลองบทบาทของลูกค้า
  • ประเมินตาม อัตราการแก้ไขปัญหาสำเร็จ (resolution success) และ ความถูกต้องของการทำงานครบขั้นตอน (task completion accuracy) เพื่อสะท้อนเกณฑ์การประเมินของเจ้าหน้าที่บริการลูกค้าจริงในระบบผลิต (production systems)
Typhoon 2.5 Agentic eval

ผลลัพธ์สำคัญ (Takeaway): จากการทดสอบบน Tau-Bench ในสถานการณ์ค้าปลีก Typhoon 2.5 แสดงประสิทธิภาพที่สมดุลระหว่างภาษาไทย (50) และภาษาอังกฤษ (60) โดยมีค่าเฉลี่ยรวมที่ 55 ซึ่งดีกว่า Typhoon รุ่นก่อนหน้าและโมเดลฐานของ Qwen อย่างมีนัยสำคัญ และเข้าใกล้ระดับความน่าเชื่อถือของโมเดลเชิงพาณิชย์ชั้นนำอย่าง Claude Sonnet 4 และ GPT-4o ที่สำคัญคือ Typhoon 2.5 แสดงความสามารถแบบหลายภาษาได้สม่ำเสมอกว่า โดยเฉพาะในภาษาไทย ซึ่งถือเป็นจุดแตกต่างสำคัญสำหรับการใช้งานในบริบทท้องถิ่น

🗣️ 3. ก้าวสู่ความเป็นธรรมชาติระดับ SOTA (State of the Art)

ระหว่างการพัฒนา Typhoon 2.5 เราได้ให้ความสำคัญกับ ความคล่องแคล่วทางภาษา (fluency) ซึ่งเป็นความท้าทายหลักของโมเดลภาษา โดยแนวทางของเราพบความก้าวหน้าชัดเจน ถึงแม้จะผ่านการฝึกด้วยชุดข้อมูลที่ไม่ใหญ่มาก แต่ผลลัพธ์ที่ได้มีลักษณะเป็นภาษาที่เป็นธรรมชาติมากขึ้นโดยเฉพาะในภาษาไทย

ผลการทดสอบเชิงมาตรฐานสะท้อนความก้าวหน้านี้ได้ชัดเจน อย่างไรก็ตาม ความคล่องแคล่วยังต้องทดสอบในบริบทที่หลากหลาย เช่น ข้อความทั่วไปและสถานการณ์ที่อยู่นอกโดเมน เพื่อยืนยันประสิทธิภาพในระดับการใช้งานจริง

สิ่งที่เราทดสอบ: เราได้สร้างตัวชี้วัดใหม่ที่เรียกว่า Fluency Win Rate ซึ่งเป็นกระบวนการสร้างตัวทำนายความคล่องแคล่ว (fluency predictor) ที่จำลองการตัดสินของเจ้าของภาษาไทยว่า “ประโยคไหนฟังดูเป็นธรรมชาติกว่า”

Fluency Win Rate ทำงานอย่างไร?

เราสร้างกระบวนการประเมินแบบสามขั้นตอน เพื่อวัดความคล่องแคล่วนอกเหนือจากความถูกต้องของเนื้อหา:

  1. การให้คะแนนโดยมนุษย์ (Human-in-the-loop labeling): นักภาษาศาสตร์ของเราให้คะแนนคำตอบตามระดับความคล่องแคล่ว น้ำเสียง และความเหมาะสมของการใช้คำในบริบท
  2. โมเดล Fluency Predictor: โมเดลจำแนกที่ผ่านการปรับจูนแบบ RFT โดยใช้ข้อมูลที่ผ่านการให้คะแนนจากมนุษย์ เพื่อขยายการประเมินผลในระดับขนาดใหญ่
  3. การทดสอบ Benchmark: นำโมเดลไปประเมินผลกับชุดข้อมูลจาก WangchanInstruct และ IFEval-TH

การตรวจสอบความถูกต้อง (Validation): จากการทดสอบแบบ blind test พบว่า Fluency Predictor มีความสอดคล้องกับผู้เชี่ยวชาญถึง 82% (n=300) ซึ่งใกล้เคียงกับระดับความเห็นพ้องของมนุษย์จริง (77%)

ผลลัพธ์ (Results): เรารายงานผลในรูปแบบ win rate โดยให้โมเดลแข่งขันกันแบบตัวต่อตัว ซึ่ง Typhoon 2.5 ทำคะแนนเหนือกว่าโมเดลฐานอย่าง Claude Sonnet 4 ในการสร้างภาษาที่ลื่นไหลและเป็นธรรมชาติมากกว่าอย่างชัดเจน

Typhoon 2.5 30b fluency eval

ผลการทดสอบความคล่องแคล่วทางภาษาไทยของ Typhoon2.5 30B A3B
Typhoon 2.5 4b fluency eval

ผลการทดสอบความคล่องแคล่วทางภาษาไทยของ Typhoon2.5 4B

แม้ว่า Typhoon 2.5 จะสะท้อนถึงความก้าวหน้าครั้งสำคัญสู่ความเป็นธรรมชาติระดับสูง (State-of-the-Art Fluency) แต่ “ความคล่องแคล่วทางภาษา” ก็ยังคงเป็น ปัญหาที่ยังไม่ถูกแก้ไขอย่างสมบูรณ์

เรายังพบกรณีขอบ (edge cases) หรือกรณีแยกย่อยต่างๆ ที่โมเดลทำงานได้ไม่สม่ำเสมอ อีกทั้งการสร้างรูปแบบการสนทนาแบบไทยโดยธรรมชาติ ยังคงเป็นความท้าทายที่ต้องพัฒนาอีกอย่างต่อเนื่อง

เวอร์ชันนี้จึงเป็นจุดเริ่มต้นของการทดลองด้านความคล่องแคล่วทางภาษา (fluency-focused experiments) ซึ่งแสดงให้เห็นพัฒนาการที่มีนัยสำคัญ แต่การขยายเทคนิคเหล่านี้ในวงกว้างยังจำเป็นเพื่อให้ Typhoon สร้างข้อความที่เป็นธรรมชาติและคล้ายมนุษย์ได้อย่างสม่ำเสมอในทุกโดเมน

บทสรุป

เราหวังว่า Typhoon 2.5 จะแสดงให้เห็นถึงนิยามบทใหม่ของศักยภาพที่โมเดลโอเพนซอร์สสามารถทำได้ ทั้งด้วยความสามารถเชิงเอเจนต์ที่แข็งแกร่งยิ่งขึ้น การสื่อสารภาษาไทยที่เป็นธรรมชาติมากขึ้น และประสิทธิภาพระดับการใช้งานจริง (production-grade efficiency)

ที่ Typhoon เราเชื่อว่า AI ควรจะ ทรงพลัง เชื่อถือได้ และคำนึงถึงมนุษย์เป็นศูนย์กลาง (human-centered) การเปิดตัวครั้งนี้เป็นอีกหนึ่งก้าวสำคัญในเส้นทางของเรา และเรายินดีรับฟังข้อเสนอแนะจากคุณ เพื่อร่วมกันกำหนดทิศทางของ Typhoon รุ่นต่อไป

ข้อจำกัดและแนวทางในอนาคต (Limitations & Future Work)

  • เช่นเดียวกับ LLM อื่น ๆ Typhoon 2.5 ยังมีขอบเขตจำกัด ดังนั้นการประเมินแบบมีมนุษย์ร่วม (human-in-the-loop evaluation) และการทดสอบเฉพาะโดเมนยังคงมีความจำเป็น เพื่อจัดการความเสี่ยงและรับรองความปลอดภัยก่อนนำไปใช้งานจริง

  • ยังไม่เหมาะสำหรับงานที่ต้องใช้เหตุผลเชิงลึก (deep reasoning): Typhoon 2.5 ถูกออกแบบมาให้เน้น ความเร็ว เสถียรภาพ และความคุ้มค่า สำหรับเวิร์กโฟลว์ทั่วไป จึงยังไม่เหมาะกับงานที่ต้องใช้การวางแผนระยะยาวหรือการให้เหตุผลซับซ้อน ความสามารถเหล่านี้จะถูกพัฒนาเพิ่มเติมในเวอร์ชันถัดไปหรือโหมดเฉพาะทาง

    หากคุณกำลังทำงานในภารกิจที่ซับซ้อน มีความเสี่ยงสูง และต้องการความแม่นยำระดับลึก เราอยากได้ยิน Use Case จากคุณเพิ่มเติม

  • การขยายความสามารถด้าน Fluency: Typhoon 2.5 เป็นก้าวแรกของการมุ่งเน้นพัฒนา “ความคล่องแคล่วทางภาษา” ให้ดีขึ้น แต่เนื่องจากยังมีกรณีขอบ (edge cases) อยู่มากที่เรายังทำได้ไม่ครอบคลุม และการทำให้สอดคล้องกับรูปแบบการสื่อสารภาษาไทยโดยธรรมชาติยังเป็นความท้าทายที่ต้องพัฒนาอย่างต่อเนื่อง

เรามุ่งมั่นสู่ การพัฒนาอย่างต่อเนื่อง (continuous improvement) และ ความคิดเห็นจากคุณคือสิ่งสำคัญที่สุด ถ้าคุณอยากเป็นส่วนในการพัฒนาโอเพนซอร์สของไทยไปด้วยกัน มาเข้าร่วมพูดคุยและแลกเปลี่ยนกับเราได้ที่ Typhoon Discord

🚀 ทดลองใช้ Typhoon 2.5 ได้แล้ววันนี้

สัมผัสประสบการณ์ของ Typhoon 2.5 ได้บนหลากหลายแพลตฟอร์มและเวิร์กโฟลว์ที่คุณใช้อยู่

  • 🌐 Web Playground — ทดลองใช้งานได้ทันทีผ่านเบราว์เซอร์

  • 🔌 Typhoon API — ผสานเข้ากับแอปพลิเคชันของคุณได้โดยตรง

  • 🤗 Hugging Face — เรียกใช้งานหรือฝึกโมเดลต่อได้จาก Hub โดยตรง

  • 💻 Ollama — รันโมเดลบนเครื่องของคุณได้ด้วยคำสั่งบรรทัดเดียว

  • 🔄 Your Workflow — ผสานเข้ากับเครื่องมือ orchestration ที่คุณใช้อยู่

    สำหรับ n8n อ่านได้ที่ คู่มือการเชื่อมต่อ Typhoon + n8n

Typhoon 2.5 โมเดลที่ทั้งเปิดกว้าง คล่องแคล่ว และลงมือทำได้จริง พร้อมให้คุณได้ใช้งานแล้ว