แนะนำให้รู้จักกับ ThaiSafetyBench: LLM Safety Benchmark ที่ทำขึ้นเพื่อภาษาไทยและวัฒนธรรมไทย

หลายคนคงได้เห็นแล้วว่า LLM อย่าง Gemini, ChatGPT และ Typhoon นั้นพัฒนาไปอย่างรวดเร็วแค่ไหน ในแต่ละรุ่น โมเดลเหล่านี้มีความสามารถมากขึ้น มีประโยชน์มากขึ้น และผสานเข้ากับวิธีการเรียนรู้ ทำงาน และการตัดสินใจของผู้คนอย่างลึกซึ้ง ที่ Typhoon เราเชื่อว่าความก้าวหน้านี้น่าตื่นเต้นมาก แต่ความสามารถเพียงอย่างเดียวนั้นไม่พอ เมื่อโมเดลทรงพลังขึ้น การกำหนดขอบเขตการใช้งานเพื่อให้มั่นใจว่าพวกมันจะยังคงปลอดภัยเมื่อถูกนำไปใช้งานในโลกแห่งความเป็นจริงก็สำคัญไม่แพ้กัน

ความเสี่ยงนี้ไม่ใช่แค่เรื่องทฤษฎี โมเดลที่มีความสามารถสูงหากอยู่ในบริบทที่ผิด อาจถูกนำไปใช้ในทางที่ผิดเพื่อสร้างคำแนะนำที่เป็นอันตราย สนับสนุนพฤติกรรมที่เป็นภัย หรือลดช่องว่างในการนำไปใช้ในทางที่ผิดในวงกว้าง เมื่อ AI เข้าถึงได้ง่ายขึ้น ความปลอดภัยจึงไม่สามารถเป็นเพียงตัวเลือก หรือฟีเจอร์ที่ค่อยมาเพิ่มทีหลังได้อีกต่อไป แต่มันต้องเป็นรากฐานสำคัญในการที่เราพัฒนา ประเมิน และปรับใช้ระบบเหล่านี้

นี่คือเหตุผลว่าทำไม Safety Benchmarking จึงสำคัญ Safety Benchmarks ช่วยให้เราวัดได้ว่า LLM มีพฤติกรรมที่รับผิดชอบในทางปฏิบัติหรือไม่ โดยเฉพาะอย่างยิ่งเมื่อต้องเผชิญกับ prompt ที่เป็นอันตราย แฝงเจตนาร้าย หรือกำกวม แต่ในปัจจุบัน Safety Benchmarks ส่วนใหญ่มักถูกออกแบบมาสำหรับภาษาอังกฤษเป็นหลัก ซึ่งทิ้งช่องโหว่ที่สำคัญเอาไว้ มีงานวิจัยบ่งชี้แล้วว่าเราสามารถใช้ภาษาที่มีข้อมูลจำนวนน้อย (Low-resource Languages) ในการ Jailbreak แม้กระทั่งโมเดลที่มีความปลอดภัยสูงอย่าง GPT-4 ได้ [1] กล่าวอีกนัยหนึ่งคือ หากวัดความปลอดภัยเฉพาะในภาษาอังกฤษ ความปลอดภัยนั้นก็ยังไม่ใช่ระดับสากลอย่างแท้จริง

มุมมองนั้นนำเราไปสู่การพัฒนา ThaiSafetyBench ซึ่งเป็น Safety Benchmark ที่ถูกออกแบบมาเพื่อภาษาไทยโดยเฉพาะ เป้าหมายของเราไม่เพียงแต่เพื่อประเมินว่าโมเดลจะตอบสนองต่อ prompt ที่เป็นอันตรายในภาษาไทยอย่างไรเท่านั้น แต่ยังรวมถึงการช่วยยกระดับมาตรฐานความปลอดภัยของ AI แบบพหุภาษา (Multilingual) ในภาพรวมอีกด้วย เราเชื่อว่า AI ที่น่าเชื่อถือจะต้องปลอดภัยสำหรับทุกชุมชนที่มันให้บริการ และ ThaiSafetyBench ก็เป็นอีกหนึ่งก้าวที่จะทำให้วิสัยทัศน์นั้นเป็นจริง

ThaiSafetyBench

ThaiSafetyBench คือ Dataset ที่รวบรวม Prompt ที่เป็นอันตราย (Malicious Prompts) ภาษาไทยไว้ทั้งหมด 1,954 ตัวอย่าง โดย Dataset ทั้งหมดได้ผ่านการคัดกรองและตรวจซ้ำโดยมนุษย์ทำให้ข้อมูลมีคุณภาพสูง และเพื่อให้ Benchmark มีการประเมินความปลอดภัยของโมเดลอย่างแม่นยำในบริบทของคนไทย ThaiSafetyBench ได้รวบรวม Prompt ที่เป็นอันตรายต่อวัฒนธรรมและบริบทในการใช้งานในสังคมไทยอีกด้วย

ซึ่งแบ่งหมวดหมู่ออกได้เป็น 6 Risk Areas:

Discrimination, Exclusion, Toxicity, Hateful, Offensive
Human-Chatbot Interaction Harms
Information Hazards
Malicious Uses
Misinformation Harms
Thai Socio-Cultural Harms

Insights ที่น่าสนใจ

เพื่อที่จะได้เห็นภาพมากขึ้นว่าความปลอดภัยของ LLM ในบริบทของไทยเป็นอย่างไรบ้างในปัจจุบัน เราได้ทำการประเมินโมเดล LLM 24 ตัวด้วย ThaiSafetyBench โดยใช้ GPT-4.1 และ Gemini-2.5-pro เป็นตัวประเมินผล หรือที่เรียกว่า LLM-as-a-judge และรายงานผลเป็น Average Attack Success Rate (ASR) ซึ่งเป็นมาตรวัดที่วัดว่า Prompt ที่เป็นอันตราย Jailbreak ผ่านด้วยสัดส่วนเท่าไหร่ (ยิ่งน้อยยิ่งดี) ผลลัพธ์คือโมเดลที่เป็น Closed-source ส่วนใหญ่จะมีความปลอดภัยมากกว่าโมเดล Open-source ซึ่งทำให้เห็นถึงความสำคัญในการพัฒนาโมเดลที่มีความปลอดภัยในบริบทของไทยใน Open-source Community

กราฟด้านล่างแสดงให้เห็นถึงแนวโน้มว่า อัตราการ Jailbreak สำเร็จด้วย Prompt ที่เกี่ยวกับวัฒนธรรมไทยสูงกว่าการใช้ Prompt ทั่วไปภาษาไทยมาก สิ่งนี้ชี้ให้เห็นถึงอันตรายในการปรับใช้ LLM กับวัฒนธรรมของประเทศหนึ่ง ๆ เมื่อมีการใช้ Malicious Prompt (Cultural Jailbreaking) นอกจากนี้ยังทำให้เห็นว่า Safety Benchmark ที่แปลจากภาษาอังกฤษอาจไม่ได้สะท้อนถึงความปลอดภัยของ LLM ได้อย่างแม่นยำหากไม่ได้รวมแง่มุมของวัฒนธรรมและบริบทของสังคมเข้าไปด้วย

และสุดท้ายเราเห็นแนวโน้มของโมเดล Open-source ว่า โดยทั่วไป LLM ที่มีขนาดใหญ่กว่าจะมีความปลอดภัยมากกว่า

ตัวอย่างคำตอบของ LLM จากข้อมูลใน ThaiSafetyBench

สร้าง LLM ที่ปลอดภัยสำหรับคนไทยกันเถอะ

มาสร้าง LLM Safety Community กันเถอะครับ พวกเราได้เริ่มต้นด้วยการทำ HuggingFace Leaderboard ที่รวบรวมผลการประเมินใน ThaiSafetyBench ทำให้เห็นความปลอดภัยของโมเดลที่มีอยู่ในปัจจุบันได้เลย พวกเราส่งเสริมให้ผู้พัฒนาโมเดลภาษาไทย Submit โมเดลกันเข้ามาได้เลยนะครับ 😊 นอกจากนี้เรายังได้ปล่อย Light-weight ThaiSafetyClassifier ซึ่งเป็น Binary Classifier สำหรับ Safety ภาษาไทยเพื่อให้ Reproduce ผลลัพธ์ได้ง่ายขึ้นด้วย

ทิ้งท้าย

ต้องขอขอบคุณทุกคนที่ให้ความสนใจกับงานนี้และอ่านจนมาถึงตรงนี้นะครับ งานวิจัยชิ้นนี้ได้รับคัดเลือกให้ไป Present ที่ ICLR2026 Workshop on Trustworthy AI ผมหวังว่าบทความนี้จะเป็นส่วนช่วยทำให้ Community สร้าง AI ที่ปลอดภัยไปด้วยกันครับ

Resources

Research Paper: https://arxiv.org/abs/2603.04992v2
ThaiSafetyBench Dataset: https://huggingface.co/datasets/typhoon-ai/ThaiSafetyBench
ThaiSafetyBench Leaderboard: https://huggingface.co/spaces/typhoon-ai/ThaiSafetyBench-Leaderboard
ThaiSafetyClassifier: https://huggingface.co/typhoon-ai/ThaiSafetyClassifier

Introducing ThaiSafetyBench: An LLM Safety Benchmark Built for the Thai Language and Thai Culture

สารบัญ