ในช่วงไม่กี่ปีที่ผ่านมา บทสนทนาเกี่ยวกับ AI ได้เปลี่ยนไปอย่างชัดเจน คำถามไม่ได้อยู่แค่ว่า ใครสร้างโมเดลที่ใหญ่ที่สุดได้ แต่ขยับไปสู่คำถามที่สำคัญกว่า นั่นคือ ใครเป็นผู้ควบคุมระบบ AI โมเดลถูกฝึกอย่างไร และ AI เหล่านั้นตอบโจทย์ความต้องการของท้องถิ่นจริงหรือไม่
สำหรับหลายประเทศ องค์กร และอุตสาหกรรมที่อยู่ภายใต้กฎระเบียบ การพึ่งพาโมเดล AI จากต่างประเทศที่ไม่โปร่งใสกำลังกลายเป็นสิ่งที่ยอมรับได้ยากขึ้นเรื่อย ๆ ทั้งต้นทุน การกำกับดูแลข้อมูล ความสอดคล้องทางวัฒนธรรม และความรับผิดชอบทางกฎหมาย ล้วนชี้ไปในทิศทางเดียวกันว่า
AI จำเป็นต้องมีความเป็น Sovereign — เข้าใจได้ ควบคุมได้ และปรับใช้ได้โดยผู้ที่นำไปใช้งานจริง
ที่ Typhoon ความเชื่อนี้เป็นเข็มทิศของเรามาตั้งแต่วันแรก
ตลอดเวลากว่าสองปีนับตั้งแต่ก่อตั้ง Typhoon เราดำเนินงานด้วยเป้าหมายที่เรียบง่ายแต่ชัดเจน:
การทำให้ประเทศไทยดีขึ้นด้วยงานวิจัยด้าน AI
ในปี 2024 เราได้เปิดตัวงานวิจัยรุ่นทดลองหลายชุด ตั้งแต่ Typhoon Vision และ Audio ไปจนถึง Typhoon T1, R1 และ Typhoon 2 โมเดลเหล่านี้นับเป็นกลุ่มแรก ๆ ในเอเชียตะวันออกเฉียงใต้ และพิสูจน์ให้เห็นว่าเราสามารถสร้างงานวิจัย AI ระดับโลกได้จากที่นี่
แม้ทิศทางของเราจะพัฒนาไปสู่โมเดลเชิงงานเฉพาะ เช่น Typhoon OCR, Translate และ ASR
แต่สิ่งที่กำหนดตัวตนของเราบนเวที AI โลกยังคงเหมือนเดิม นั่นคือ ความมุ่งมั่นต่อ Sovereignty
เราไม่ได้เพียงสร้างโมเดล แต่เรากำลังผลักดันโลกที่ AI ถูกออกแบบให้ สอดคล้องกับท้องถิ่น และอยู่ภายใต้การควบคุมของผู้ใช้งาน
เราจึงมุ่งมั่นในการเผยแพร่งานวิจัยและรายงานเชิงเทคนิคแบบเปิด เพื่อช่วยให้ชุมชนทั่วโลกสามารถสร้างระบบ AI ที่มีความเป็น Sovereign ที่ทั้งแม่นยำ สอดคล้องทางวัฒนธรรม และใช้ทรัพยากรอย่างมีประสิทธิภาพ

วันนี้ เรารู้สึกตื่นเต้นที่จะเปิดตัว Typhoon-S (Sovereign)
นี่ไม่ใช่แค่โมเดลอีกตัวหนึ่ง แต่คือ Blueprint เชิงปฏิบัติ สำหรับการสร้าง LLM ที่มีประสิทธิภาพสูง ตอบโจทย์ทั้งภูมิภาคและโดเมนเฉพาะ ภายใต้ข้อจำกัดด้านทรัพยากร และพิสูจน์ว่างานวิจัย AI ระดับโลกไม่จำเป็นต้องใช้เงินลงทุนระดับล้านล้านดอลลาร์
TL;DR: เราเปิดทุกอย่าง
เพื่อทำลายกำแพงด้านทรัพยากร และเปิดโอกาสให้ชุมชนทั่วโลก
เราได้ทำการ Open-source โครงการ Typhoon-S ทั้งหมด
- 📜 Technical Report:
- รายงานเชิงลึกเกี่ยวกับสูตร post-training แบบมินิมอล (SFT + OPD)
และวิธี InK-GRPO สำหรับการทำ domain specialization
- รายงานเชิงลึกเกี่ยวกับสูตร post-training แบบมินิมอล (SFT + OPD)
- 💻 Code:
- โค้ดอ้างอิงสำหรับ pipeline การฝึกโมเดล
ตั้งแต่ on-policy logits distillation พร้อม dynamic model swapping
ไปจนถึง InK-GRPO สำหรับ sovereign และ long-tail domain adaptation
- โค้ดอ้างอิงสำหรับ pipeline การฝึกโมเดล
- 📊 Datasets:
- Typhoon-S-Instruct Dataset (Thai AutoIF และ cross-lingual alignment) รวมถึง Typhoon-S-Sovereign Dataset สำหรับการฝึกและประเมิน Sovereign Capability
- 🤖 Models:
- Typhoon-S-ThaiLLM-8B-Instruct โมเดลภาษาทำตามคำสั่ง สร้างบนโมเดลฐาน ThaiLLM-8B ซึ่งแสดงผลลัพธ์เหนือกว่าโมเดลสากลบนงานภาษาไทยโดยตรง
- Typhoon-S-4B-Legal-Agent แสดงให้เห็นว่า sovereignty เชิงโดเมนสามารถเอาชนะโมเดลทั่วไปขนาดใหญ่ได้
ปัญหา: Resource Gatekeeping
LLM ชั้นนำในปัจจุบันถูกพัฒนาโดยองค์กรเพียงไม่กี่แห่ง ซึ่งมีงบประมาณลงทุนมหาศาล และข้อมูลที่เน้นภาษาอังกฤษหรือจีนเป็นหลัก
การกระจุกตัวนี้ก่อให้เกิด resource gatekeeping แม้หลายโมเดลจะถูกเรียกว่า “open” แต่สูตรการฝึกมักพึ่งพา pipeline ที่มีต้นทุนสูง ข้อมูล proprietary จำนวนมาก หรือ reinforcement learning ที่ทีมขนาดเล็กไม่สามารถเข้าถึงได้
นี่คืออุปสรรคเชิงโครงสร้างที่สำคัญ สำหรับ Sovereign AI ซึ่งต้องการให้ประเทศหรือองค์กรสามารถควบคุมขั้นตอนการพัฒนา โมเดล ข้อมูล และการนำไปใช้งาน
ในทางปฏิบัติ Sovereign AI จำเป็นต้องพึ่งสองปัจจัยหลัก:
-
Adoptability
ความสามารถในการเปลี่ยน base model ให้กลายเป็นผู้ช่วยอเนกประสงค์ ที่เข้าใจคำสั่ง ให้เหตุผล และใช้เครื่องมือได้ เพื่อให้ผู้ใช้สามารถใช้งานได้จริง โดยไม่ต้องพึ่งงบระดับ Big Tech -
Sovereign Capability
ความสามารถในการทำงานเฉพาะทางที่มีความสำคัญสูง เช่น การให้เหตุผลด้านกฎหมาย หรือบริบททางวัฒนธรรม ซึ่งมักขาดหายจากข้อมูลสากล
ทำให้ Sovereign Model ใช้งานได้จริง (Base → Instruct)
หนึ่งในความท้าทายหลักของ Sovereign AI คือ Adoptability
คำถามคือเราจะเปลี่ยน base model ของประเทศหรือภูมิภาค ให้กลายเป็น assistant ที่ใช้งานได้จริง โดยไม่ต้องใช้ pipeline ราคาแพงแบบ frontier lab ได้อย่างไร
คำตอบของเราคือการเริ่มจากโมเดลฐานที่มี sovereignty ตั้งแต่ต้นอย่างโมเดล ThaiLLM-8B ซึ่งผ่านการ continued pretraining บนข้อมูลภาษาไทยกว่า 64B tokens
จากนั้น เราใช้สูตร post-training แบบมินิมอล ประกอบด้วย SFT (Supervised Fine-Tuning) และ OPD (On-Policy Distillation) เพื่อเพิ่มความสามารถด้าน assistant โดยไม่ทำลายความสามารถด้านภาษาและวัฒนธรรมไทย
ผลลัพธ์: Sovereign vs Global บน benchmark ภาษาไทยแท้
| Task Category | Benchmark | Qwen3-8B (Global) | Typhoon-S-8B (Sovereign) | Winner |
|---|---|---|---|---|
| Thai Conversational | MT-Bench TH | 7.08 | 7.89 | Typhoon-S |
| Thai Instruction Following | IFEval TH | 80.47 | 76.45 | Qwen3-8B |
| Cultural Knowledge | OpenThaiEval (OTE) | 63.66 | 67.06 | Typhoon-S |
| Linguistic Robustness | Thai Code-Switching | 95.40 | 96.60 | Typhoon-S |
| Thai Agentic QA | HotpotQA TH | 23.00 | 37.00 | Typhoon-S |
ตารางนี้เปรียบเทียบ Typhoon-S-8B กับ Qwen3-8B บน benchmark ที่ถูกเขียนขึ้นโดยตรงในภาษาไทย ไม่ใช่แปลจากภาษาอื่น
Typhoon-S แสดงให้เห็นว่าการควบคุมและการสอดคล้องกับบริบทสามารถสร้างข้อได้เปรียบเชิงประสิทธิภาพได้
ผลักขอบเขต Sovereign Capability
Sovereign AI ต้องมากกว่า assistant ทั่วไป โดยเฉพาะในโดเมนสำคัญกับท้องถิ่น เช่น กฎหมาย การแพทย์ และนโยบายสาธารณะ
นวัตกรรมของเรา: InK-GRPO
Reinforcement Learning ปกติช่วยขยายรูปแบบการให้เหตุผล แต่แทบไม่สามารถใส่ “ความรู้ใหม่” ได้
InK-GRPO (Injected Knowledge GRPO) คือวิธีการของเราในการแก้ปัญหานี้ด้วยการทำการฝึกโมเดล ด้วย objective เพิ่มเติม ด้วยการทำ next-token prediction ไปคู่ขนานระหว่างการทำ RL เพื่อให้โมเดลเรียนรู้ทั้ง เหตุผล และ เนื้อหา ไปพร้อมกัน
ผลบน NitiBench แสดงให้เห็นว่า InK-GRPO ให้ความแม่นยำสูงกว่า RL ปกติ
Agentic Sovereignty: เมื่อ 4B เอาชนะ Frontier Model
งาน sovereign ส่วนใหญ่ต้องการมากกว่าการตอบคำถามครั้งเดียว แต่ต้องมี agent ที่ค้นหา อ้างอิง และให้เหตุผลหลายขั้น
ด้วย Agentic RFT บน RAG environment โมเดล Typhoon-S ขนาด 4B สามารถเอาชนะโมเดลระดับ GPT-5 ในสภาพแวดล้อมเดียวกันได้
สิ่งนี้ยืนยันว่า domain-specific sovereignty สามารถเอาชนะ brute-force scale ได้จริง
สร้างอนาคต Sovereign AI ไปด้วยกัน
เราเปิดสูตร รายงาน ชุดข้อมูล และโมเดลทั้งหมด เพื่อช่วยให้คอมมูนิตี้สามารถสร้าง Sovereign LLM ของตนเองได้
- 📜 Technical Report:
- รายงานเชิงลึกเกี่ยวกับสูตร post-training แบบมินิมอล (SFT + OPD)
และวิธี InK-GRPO สำหรับการทำ domain specialization
- รายงานเชิงลึกเกี่ยวกับสูตร post-training แบบมินิมอล (SFT + OPD)
- 💻 Code:
- โค้ดอ้างอิงสำหรับ pipeline การฝึกโมเดล
ตั้งแต่ on-policy logits distillation พร้อม dynamic model swapping
ไปจนถึง InK-GRPO สำหรับ sovereign และ long-tail domain adaptation
- โค้ดอ้างอิงสำหรับ pipeline การฝึกโมเดล
- 📊 Datasets:
- Typhoon-S-Instruct Dataset (Thai AutoIF และ cross-lingual alignment) รวมถึง Typhoon-S-Sovereign Dataset สำหรับการฝึกและประเมิน Sovereign Capability
- 🤖 Models:
- Typhoon-S-ThaiLLM-8B-Instruct โมเดลภาษาทำตามคำสั่ง สร้างบนโมเดลฐาน ThaiLLM-8B ซึ่งแสดงผลลัพธ์เหนือกว่าโมเดลสากลบนงานภาษาไทยโดยตรง
- Typhoon-S-4B-Legal-Agent แสดงให้เห็นว่า sovereignty เชิงโดเมนสามารถเอาชนะโมเดลทั่วไปขนาดใหญ่ได้
ข้อจำกัดและงานในอนาคต
-
Post-training: งานวิจัยในปัจจุบันของเรามุ่งเน้นเฉพาะขั้นตอน post-training เท่านั้น เนื่องจากการทำ pre-training และ mid-training ยังอยู่นอกขอบเขตทรัพยากรที่เรามี
-
Scaling: การทดลองทั้งหมดในงานนี้จำกัดอยู่ที่คลัสเตอร์ขนาด 8×H100 GPUs และเราตั้งตารอที่จะเห็นว่าแนวทางเหล่านี้จะสามารถขยายไปสู่คลัสเตอร์ขนาดใหญ่ขึ้นได้อย่างไร
-
Generalization: แม้เราจะใช้ภาษาไทยเป็นกรณีศึกษาหลัก แต่สูตร OPD และ InK-GRPO ไม่ได้ผูกติดกับภาษาใดภาษาหนึ่ง และสามารถนำไปประยุกต์ใช้กับภาษาอื่นได้
เราเชื่อว่า AI คุณภาพสูงไม่จำเป็นต้องใช้ทรัพยากรมหาศาล หากมีพื้นฐานและสูตรที่ถูกต้ององค์กรไทยเองสามารถสร้างระบบที่ สอดคล้องกับผู้ใช้ กฎหมาย และวัฒนธรรมของตนเองได้

