Typhoon-S: สูตรการสร้าง Sovereign LLM ที่ใช้งานได้จริง

ในช่วงไม่กี่ปีที่ผ่านมา บทสนทนาเกี่ยวกับ AI ได้เปลี่ยนไปอย่างชัดเจน คำถามไม่ได้อยู่แค่ว่า ใครสร้างโมเดลที่ใหญ่ที่สุดได้ แต่ขยับไปสู่คำถามที่สำคัญกว่า นั่นคือ ใครเป็นผู้ควบคุมระบบ AI โมเดลถูกฝึกอย่างไร และ AI เหล่านั้นตอบโจทย์ความต้องการของท้องถิ่นจริงหรือไม่

สำหรับหลายประเทศ องค์กร และอุตสาหกรรมที่อยู่ภายใต้กฎระเบียบ การพึ่งพาโมเดล AI จากต่างประเทศที่ไม่โปร่งใสกำลังกลายเป็นสิ่งที่ยอมรับได้ยากขึ้นเรื่อย ๆ ทั้งต้นทุน การกำกับดูแลข้อมูล ความสอดคล้องทางวัฒนธรรม และความรับผิดชอบทางกฎหมาย ล้วนชี้ไปในทิศทางเดียวกันว่า

AI จำเป็นต้องมีความเป็น Sovereign — เข้าใจได้ ควบคุมได้ และปรับใช้ได้โดยผู้ที่นำไปใช้งานจริง

ที่ Typhoon ความเชื่อนี้เป็นเข็มทิศของเรามาตั้งแต่วันแรก

ตลอดเวลากว่าสองปีนับตั้งแต่ก่อตั้ง Typhoon เราดำเนินงานด้วยเป้าหมายที่เรียบง่ายแต่ชัดเจน:
การทำให้ประเทศไทยดีขึ้นด้วยงานวิจัยด้าน AI

ในปี 2024 เราได้เปิดตัวงานวิจัยรุ่นทดลองหลายชุด ตั้งแต่ Typhoon Vision และ Audio ไปจนถึง Typhoon T1, R1 และ Typhoon 2 โมเดลเหล่านี้นับเป็นกลุ่มแรก ๆ ในเอเชียตะวันออกเฉียงใต้ และพิสูจน์ให้เห็นว่าเราสามารถสร้างงานวิจัย AI ระดับโลกได้จากที่นี่

แม้ทิศทางของเราจะพัฒนาไปสู่โมเดลเชิงงานเฉพาะ เช่น Typhoon OCR, Translate และ ASR
แต่สิ่งที่กำหนดตัวตนของเราบนเวที AI โลกยังคงเหมือนเดิม นั่นคือ ความมุ่งมั่นต่อ Sovereignty

เราไม่ได้เพียงสร้างโมเดล แต่เรากำลังผลักดันโลกที่ AI ถูกออกแบบให้ สอดคล้องกับท้องถิ่น และอยู่ภายใต้การควบคุมของผู้ใช้งาน

เราจึงมุ่งมั่นในการเผยแพร่งานวิจัยและรายงานเชิงเทคนิคแบบเปิด เพื่อช่วยให้ชุมชนทั่วโลกสามารถสร้างระบบ AI ที่มีความเป็น Sovereign ที่ทั้งแม่นยำ สอดคล้องทางวัฒนธรรม และใช้ทรัพยากรอย่างมีประสิทธิภาพ

วันนี้ เรารู้สึกตื่นเต้นที่จะเปิดตัว Typhoon-S (Sovereign)

นี่ไม่ใช่แค่โมเดลอีกตัวหนึ่ง แต่คือ Blueprint เชิงปฏิบัติ สำหรับการสร้าง LLM ที่มีประสิทธิภาพสูง ตอบโจทย์ทั้งภูมิภาคและโดเมนเฉพาะ ภายใต้ข้อจำกัดด้านทรัพยากร และพิสูจน์ว่างานวิจัย AI ระดับโลกไม่จำเป็นต้องใช้เงินลงทุนระดับล้านล้านดอลลาร์

TL;DR: เราเปิดทุกอย่าง

เพื่อทำลายกำแพงด้านทรัพยากร และเปิดโอกาสให้ชุมชนทั่วโลก
เราได้ทำการ Open-source โครงการ Typhoon-S ทั้งหมด

📜 Technical Report:
- รายงานเชิงลึกเกี่ยวกับสูตร post-training แบบมินิมอล (SFT + OPD)
  และวิธี InK-GRPO สำหรับการทำ domain specialization
💻 Code:
- โค้ดอ้างอิงสำหรับ pipeline การฝึกโมเดล
  ตั้งแต่ on-policy logits distillation พร้อม dynamic model swapping
  ไปจนถึง InK-GRPO สำหรับ sovereign และ long-tail domain adaptation
📊 Datasets:
- Typhoon-S-Instruct Dataset (Thai AutoIF และ cross-lingual alignment) รวมถึง Typhoon-S-Sovereign Dataset สำหรับการฝึกและประเมิน Sovereign Capability
🤖 Models:
- Typhoon-S-ThaiLLM-8B-Instruct โมเดลภาษาทำตามคำสั่ง สร้างบนโมเดลฐาน ThaiLLM-8B ซึ่งแสดงผลลัพธ์เหนือกว่าโมเดลสากลบนงานภาษาไทยโดยตรง
- Typhoon-S-4B-Legal-Agent แสดงให้เห็นว่า sovereignty เชิงโดเมนสามารถเอาชนะโมเดลทั่วไปขนาดใหญ่ได้

ปัญหา: Resource Gatekeeping

LLM ชั้นนำในปัจจุบันถูกพัฒนาโดยองค์กรเพียงไม่กี่แห่ง ซึ่งมีงบประมาณลงทุนมหาศาล และข้อมูลที่เน้นภาษาอังกฤษหรือจีนเป็นหลัก

การกระจุกตัวนี้ก่อให้เกิด resource gatekeeping แม้หลายโมเดลจะถูกเรียกว่า “open” แต่สูตรการฝึกมักพึ่งพา pipeline ที่มีต้นทุนสูง ข้อมูล proprietary จำนวนมาก หรือ reinforcement learning ที่ทีมขนาดเล็กไม่สามารถเข้าถึงได้

นี่คืออุปสรรคเชิงโครงสร้างที่สำคัญ สำหรับ Sovereign AI ซึ่งต้องการให้ประเทศหรือองค์กรสามารถควบคุมขั้นตอนการพัฒนา โมเดล ข้อมูล และการนำไปใช้งาน

ในทางปฏิบัติ Sovereign AI จำเป็นต้องพึ่งสองปัจจัยหลัก:

Adoptability
ความสามารถในการเปลี่ยน base model ให้กลายเป็นผู้ช่วยอเนกประสงค์ ที่เข้าใจคำสั่ง ให้เหตุผล และใช้เครื่องมือได้ เพื่อให้ผู้ใช้สามารถใช้งานได้จริง โดยไม่ต้องพึ่งงบระดับ Big Tech
Sovereign Capability
ความสามารถในการทำงานเฉพาะทางที่มีความสำคัญสูง เช่น การให้เหตุผลด้านกฎหมาย หรือบริบททางวัฒนธรรม ซึ่งมักขาดหายจากข้อมูลสากล

ทำให้ Sovereign Model ใช้งานได้จริง (Base → Instruct)

หนึ่งในความท้าทายหลักของ Sovereign AI คือ Adoptability

คำถามคือเราจะเปลี่ยน base model ของประเทศหรือภูมิภาค ให้กลายเป็น assistant ที่ใช้งานได้จริง โดยไม่ต้องใช้ pipeline ราคาแพงแบบ frontier lab ได้อย่างไร

คำตอบของเราคือการเริ่มจากโมเดลฐานที่มี sovereignty ตั้งแต่ต้นอย่างโมเดล ThaiLLM-8B ซึ่งผ่านการ continued pretraining บนข้อมูลภาษาไทยกว่า 64B tokens

จากนั้น เราใช้สูตร post-training แบบมินิมอล ประกอบด้วย SFT (Supervised Fine-Tuning) และ OPD (On-Policy Distillation) เพื่อเพิ่มความสามารถด้าน assistant โดยไม่ทำลายความสามารถด้านภาษาและวัฒนธรรมไทย

ผลลัพธ์: Sovereign vs Global บน benchmark ภาษาไทยแท้

Task Category	Benchmark	Qwen3-8B (Global)	Typhoon-S-8B (Sovereign)	Winner
Thai Conversational	MT-Bench TH	7.08	7.89	Typhoon-S
Thai Instruction Following	IFEval TH	80.47	76.45	Qwen3-8B
Cultural Knowledge	OpenThaiEval (OTE)	63.66	67.06	Typhoon-S
Linguistic Robustness	Thai Code-Switching	95.40	96.60	Typhoon-S
Thai Agentic QA	HotpotQA TH	23.00	37.00	Typhoon-S

ตารางนี้เปรียบเทียบ Typhoon-S-8B กับ Qwen3-8B บน benchmark ที่ถูกเขียนขึ้นโดยตรงในภาษาไทย ไม่ใช่แปลจากภาษาอื่น

Typhoon-S แสดงให้เห็นว่าการควบคุมและการสอดคล้องกับบริบทสามารถสร้างข้อได้เปรียบเชิงประสิทธิภาพได้

ผลักขอบเขต Sovereign Capability

Sovereign AI ต้องมากกว่า assistant ทั่วไป โดยเฉพาะในโดเมนสำคัญกับท้องถิ่น เช่น กฎหมาย การแพทย์ และนโยบายสาธารณะ

นวัตกรรมของเรา: InK-GRPO

Reinforcement Learning ปกติช่วยขยายรูปแบบการให้เหตุผล แต่แทบไม่สามารถใส่ “ความรู้ใหม่” ได้

InK-GRPO (Injected Knowledge GRPO) คือวิธีการของเราในการแก้ปัญหานี้ด้วยการทำการฝึกโมเดล ด้วย objective เพิ่มเติม ด้วยการทำ next-token prediction ไปคู่ขนานระหว่างการทำ RL เพื่อให้โมเดลเรียนรู้ทั้ง เหตุผล และ เนื้อหา ไปพร้อมกัน

ผลบน NitiBench แสดงให้เห็นว่า InK-GRPO ให้ความแม่นยำสูงกว่า RL ปกติ

Agentic Sovereignty: เมื่อ 4B เอาชนะ Frontier Model

งาน sovereign ส่วนใหญ่ต้องการมากกว่าการตอบคำถามครั้งเดียว แต่ต้องมี agent ที่ค้นหา อ้างอิง และให้เหตุผลหลายขั้น

ด้วย Agentic RFT บน RAG environment โมเดล Typhoon-S ขนาด 4B สามารถเอาชนะโมเดลระดับ GPT-5 ในสภาพแวดล้อมเดียวกันได้

สิ่งนี้ยืนยันว่า domain-specific sovereignty สามารถเอาชนะ brute-force scale ได้จริง

สร้างอนาคต Sovereign AI ไปด้วยกัน

เราเปิดสูตร รายงาน ชุดข้อมูล และโมเดลทั้งหมด เพื่อช่วยให้คอมมูนิตี้สามารถสร้าง Sovereign LLM ของตนเองได้

📜 Technical Report:
- รายงานเชิงลึกเกี่ยวกับสูตร post-training แบบมินิมอล (SFT + OPD)
  และวิธี InK-GRPO สำหรับการทำ domain specialization
💻 Code:
- โค้ดอ้างอิงสำหรับ pipeline การฝึกโมเดล
  ตั้งแต่ on-policy logits distillation พร้อม dynamic model swapping
  ไปจนถึง InK-GRPO สำหรับ sovereign และ long-tail domain adaptation
📊 Datasets:
- Typhoon-S-Instruct Dataset (Thai AutoIF และ cross-lingual alignment) รวมถึง Typhoon-S-Sovereign Dataset สำหรับการฝึกและประเมิน Sovereign Capability
🤖 Models:
- Typhoon-S-ThaiLLM-8B-Instruct โมเดลภาษาทำตามคำสั่ง สร้างบนโมเดลฐาน ThaiLLM-8B ซึ่งแสดงผลลัพธ์เหนือกว่าโมเดลสากลบนงานภาษาไทยโดยตรง
- Typhoon-S-4B-Legal-Agent แสดงให้เห็นว่า sovereignty เชิงโดเมนสามารถเอาชนะโมเดลทั่วไปขนาดใหญ่ได้

ข้อจำกัดและงานในอนาคต

Post-training: งานวิจัยในปัจจุบันของเรามุ่งเน้นเฉพาะขั้นตอน post-training เท่านั้น เนื่องจากการทำ pre-training และ mid-training ยังอยู่นอกขอบเขตทรัพยากรที่เรามี
Scaling: การทดลองทั้งหมดในงานนี้จำกัดอยู่ที่คลัสเตอร์ขนาด 8×H100 GPUs และเราตั้งตารอที่จะเห็นว่าแนวทางเหล่านี้จะสามารถขยายไปสู่คลัสเตอร์ขนาดใหญ่ขึ้นได้อย่างไร
Generalization: แม้เราจะใช้ภาษาไทยเป็นกรณีศึกษาหลัก แต่สูตร OPD และ InK-GRPO ไม่ได้ผูกติดกับภาษาใดภาษาหนึ่ง และสามารถนำไปประยุกต์ใช้กับภาษาอื่นได้

เราเชื่อว่า AI คุณภาพสูงไม่จำเป็นต้องใช้ทรัพยากรมหาศาล หากมีพื้นฐานและสูตรที่ถูกต้ององค์กรไทยเองสามารถสร้างระบบที่ สอดคล้องกับผู้ใช้ กฎหมาย และวัฒนธรรมของตนเองได้