กรณีศึกษา TDRI กับการใช้ Typhoon AI เพิ่มประสิทธิภาพการทำ Big Data วิจัยตลาดแรงงานของประเทศไทย

ความท้าทายที่เจอในงานวิจัยตลาดแรงงาน

การวิจัยความต้องการในตลาดแรงงานถือเป็นกระดุมเม็ดแรกที่สำคัญในการเตรียมกำลังคนและกำหนดนโยบายให้ทันต่อการเปลี่ยนแปลงด้านความต้องการแรงงานที่ไม่หยุดนิ่ง อันเกิดจากปัจจัยมากมายทั้งจากเศรษฐกิจและการเปลี่ยนแปลงทางเทคโนโลยี

สถาบันวิจัยเพื่อการพัฒนาประเทศไทย (TDRI) จึงได้รับการสนับสนุนจาก หน่วยบริหารและจัดการทุนด้านการพัฒนากำลังคน และทุนด้านการพัฒนาสถาบันอุดมศึกษา การวิจัยและการสร้างนวัตกรรม หรือ บพค. เพื่อดำเนินโครงการเก็บรวบรวมและวิเคราะห์ประกาศรับสมัครงานจากเว็บไซต์หลากหลายแหล่ง โดยมีเป้าหมายเพื่อมอบข้อมูลเชิงลึกที่ขับเคลื่อนด้วยข้อมูลให้ภาคการศึกษาใช้ปรับปรุงหลักสูตรและการเรียนการสอน สนับสนุนนักกำหนดนโยบายด้วยข้อมูลและหลักฐานเพื่อออกแบบนโยบายแรงงานที่เจาะจงและเหมาะสม อีกทั้งยังเป็นการช่วยให้ผู้ที่กำลังเข้าสู่ตลาดแรงงานเตรียมความพร้อมต่อทักษะที่เปลี่ยนแปลงอยู่เสมอ

ในอดีตการวิจัยตลาดแรงงานของไทยมักใช้วิธีการทำการสำรวจ (Survey) ซึ่งมีข้อจำกัดมากมาย ไม่ว่าจะเป็น

Survey นั้นเป็นการสำรวจจากกลุ่มตัวอย่าง ซึ่งอาจไม่สะท้อนครอบคลุมความต้องการที่แท้จริงทั้งหมดของตลาด
ใช้เวลาทำนาน ต้นทุนสูง ทำไม่ได้บ่อย หมดอายุไว ข้อมูลไม่อัปเดต
ข้อมูลที่ได้มาไม่ละเอียดเพียงพอ เช่น ได้ข้อมูลอาชีพมา แต่ไม่มีลิสต์ข้อมูลทักษะ ทำให้ขาดรายละเอียดที่มีประโยชน์ต่อการออกแบบนโยบาย

เพื่ออุดช่องว่างเหล่านี้ ในปี 2024 TDRI จึงหันมาให้ความสำคัญกับข้อมูลจากประกาศรับสมัครงานจริง ซึ่งสะท้อนความต้องการจริงของนายจ้างได้ชัดเจนกว่า อย่างไรก็ตาม วิธีนี้ก็มาพร้อมกับความท้าทายใหม่ๆ คือปริมาณข้อมูลที่มหาศาล กระจายอยู่ในหลายแพลตฟอร์ม และมีโครงสร้างไม่ชัดเจน

คุณนรินทร์ ธนนิธาพร นักวิจัยทีม Big Data ของ TDRI ได้มาร่วมพูดคุยกับเราเพื่ออธิบายว่าทีมของเขารับมือกับความท้าทายเหล่านี้อย่างไร และแบ่งปันกระบวนการเบื้องหลังการทำงาน ซึ่งคุณจะได้เรียนรู้ไปด้วยกันในบทความนี้

Typhoon LLM ช่วยพลิกโฉมการทำงานวิจัยนี้อย่างไร

เนื่องจากการลงประกาศรับสมัครงานตามแพลตฟอร์มต่างๆ เปิดให้ลงเป็นข้อความยาวๆ ที่ไม่มีโครงสร้างชัดเจน (Unstructured Data) การดึงข้อมูลและวิเคราะห์ด้วยวิธีดั้งเดิม เช่น การค้นหาด้วยคีย์เวิร์ดหรือ RegEx จึงทำได้ยาก แต่ Large Language Models (LLMs) นั้นสามารถจัดการกับการวิเคราะห์ข้อมูลแบบนี้ได้ดีมาก เพราะ LLM มีความสามารถสูงในด้านการจำแนกประเภท (classification) และการระบุชื่อเอนทิตี (Named Entity Recognition: NER) รวมถึงสามารถจัดการกับข้อมูลที่ไม่เคยพบมาก่อน (out-of-sample) ได้อย่างไม่มีปัญหา

เมื่อเทียบกับวิธีการเดิมๆ Typhoon LLM เข้ามามีบทบาทช่วยให้การทำงานวิจัยนี้มีประสิทธิภาพขึ้นในหลากหลายด้าน ไม่ว่าจะเป็น

ต้นทุนต่ำกว่า ทั้งเรื่องค่าใช้จ่ายของ API ที่ถูกกว่า LLM เชิงพาณิชย์ของต่างประเทศ อีกทั้งยังประหยัดต้นทุนเมื่อเทียบกับวิธีการแบบเก่าเพราะไม่จำเป็นต้องมีชุดข้อมูลฝึกสอน (training dataset) ขนาดใหญ่
ความยืดหยุ่นสูง สามารถทำงานได้ดีแม้กับข้อมูลใหม่ที่ไม่เคยพบมาก่อน
ความเข้าใจบริบท สามารถช่วยตีความคำที่กำกวมได้และจัดประเภทได้แม่นยำ เช่น การแยกความหมายของคำว่า “ai” เมื่อปรากฏบนทักษะด้านออกแบบกราฟิก สามารถเข้าใจบริบทได้ว่าเป็นทักษะ Adobe Illustrator (.ai) ไม่ใช่ปัญญาประดิษฐ์ (artificial intelligence)
ความเร็ว สามารถสเกลในปริมาณมากได้ง่ายและเร็ว ซึ่งตอบโจทย์ปริมาณในการประมวลประกาศงานออนไลน์ตามแพลตฟอร์มชั้นนำซึ่งมีอยู่ที่ประมาณ 200,000 ประกาศต่อไตรมาส

เบื้องหลังกระบวนการทำวิจัย

สรุปขั้นตอนการทำงานวิจัยในระดับภาพใหญ่ได้ดังนี้

ขั้นตอนที่ 1+2: ในทุกๆ วันจะทำการดึงประกาศรับสมัครงานออนไลน์ใหม่ๆ จากประมาณ 20 เว็บไซต์เข้ามาในระบบ

ขั้นตอนที่ 3+4: ทำความสะอาดข้อมูลและเก็บข้อมูลใน NoSQL Database แยกประเภทเบื้องต้น เช่น Job Title, Job Description

ขั้นตอนที่ 5+6: ใช้ Typhoon LLM ในการสังเคราะห์ข้อมูล

ขั้นตอนที่ 7+8: รวบรวม วิเคราะห์ และเผยแพร่ข้อมูลในรูปแบบที่เป็นประโยชน์ต่อการใช้งาน

สรุปแผนผังประเภทของข้อมูลทั้งหมดที่ทำการจำแนกและสังเคราะห์

แผนผังนี้แสดงการทำงานที่ละเอียดขึ้น เช่น ขั้นตอนย่อยๆ อย่างการตรวจสอบชื่อบริษัทกับฐานข้อมูลของกรมพัฒนาธุรกิจการค้า (DBD) เพื่อกำหนดรหัส TSIC ที่ถูกต้อง

สำหรับประกาศงานแต่ละรายการ Typhoon จะช่วย...

จำแนกกลุ่มอาชีพตาม 23 หมวดหมู่ O*NET อย่างเป็นทางการ
ดึงทักษะสำคัญจากรายละเอียดงาน
ระบุและดึงข้อมูลประสบการณ์ที่ต้องการ (ถ้ามี)
ตรวจสอบว่าตำแหน่งงานนั้นอยู่ในกลุ่ม STEM (Science, Technology, Engineering, Mathematics) หรือไม่

ตัวอย่างเช่น ประกาศงานต่อไปนี้

Typhoon LLM สามารถทำการสังเคราะห์และจัดกลุ่มข้อมูลให้ดังนี้

Field	Value
job_title	Full Stack Engineer - Typhoon Team (Contract - End of 1 Jan 2026)
province	Bangkok
degree	Bachelor
experience_year	Not specified
occupation_group	Computer and Mathematical
tsic_code	64201
skills_required	Full Stack Development, Web Application Development, API Development, Python, JavaScript, React, Next.js, Node.js, SQL, NoSQL, Cloud Platforms, Google Cloud, Cloud-Native Technologies, Open Source Development, AI Research, AI Application Development, Problem Solving, Collaboration, Communication, English, Thai
is_STEM	STEM occupations

ทำไม TDRI ถึงเลือกใช้ Typhoon

ทางทีมมีปัจจัยสำคัญที่พิจารณา ได้แก่ เรื่องราคา และเรื่องความแม่นยำ

สำหรับเรื่องราคา ณ วันที่เตรียมวางแผนทำโครงการนี้ ทางทีมได้ทำการวางแผนประเมินราคาค่าใช้จ่าย และอธิบายที่เป็นแบบเปิด อย่าง Typhoon 2 และ Meta Llama 3.3 มีโมเดลการคิดราคาอยู่ที่ $0.88 ต่อ 1 ล้าน tokens ถือว่าคุ้มค่าและเหมาะกับการประมวลผลขนาดใหญ่ต่อเนื่อง ในทางกลับกัน โมเดลเชิงพาณิชย์อื่น ๆ เช่น GPT-4 หรือ Claude แม้จะให้ประสิทธิภาพที่ดี แต่มีราคาสูงกว่ามาก ทำให้ไม่เหมาะกับโครงการที่ต้องประมวลผลประกาศงานหลายแสนรายการต่อไตรมาส

ต้นทุนต่อ 1 ล้าน tokens (ณ เดือนกรกฎาคม 2568):

Model	Cost per 1M tokens
Typhoon 2 70B Instruct (via together.ai)	$0.88
Meta Llama 3.3 70B Instruct Turbo (via together.ai)	$0.88
GPT-4.1	$2.00 Input / $8.00 Output
GPT-4.1 mini	$0.40 Input / $1.60 Output
Claude Opus 4	$15.00 Input / $75.00 Output
Claude Sonnet 4	$3.00 Input / $15.00 Output
Claude Haiku 3.5	$0.80 Input / $4.00 Output

หมายเหตุจากทีมงาน: Typhoon 2 ถูกใช้ในงานวิจัยในช่วงเริ่มต้น ทั้งนี้ในช่วงเวลาที่เราเผยแพร่กรณีศึกษานี้ เรามีโมเดลรุ่นใหม่คือ Typhoon 2.1 Gemma เปิดให้ใช้งานผ่าน Together.ai แล้ว ในราคาที่ถูกลงกว่าเดิมเพียง $0.20 ต่อ 1 ล้าน tokens และทีม TDRI กำลังย้ายไปใช้งานอยู่

ปัจจัยสำคัญต่อมาคือด้านความแม่นยำ Typhoon ทำผลงานได้ดีกว่า Llama ในการจำแนกอาชีพกลุ่ม STEM ซึ่งเป็นองค์ประกอบสำคัญต่อการวิเคราะห์ด้านการศึกษาและนโยบาย เพื่อเปรียบเทียบทั้งสองโมเดล ทีม TDRI ได้สร้างชุดทดสอบจากประกาศงานที่มีการติดป้ายกำกับกลุ่มอาชีพตาม O*NET และนำมาทดสอบระหว่าง Typhoon และ Llama ผลลัพธ์พบว่าทั้งสองโมเดลทำผลงานโดยรวมใกล้เคียงกัน แต่ Typhoon มีความแม่นยำสูงกว่าอย่างชัดเจนในการจำแนกอาชีพ STEM ซึ่งเป็นเหตุผลสำคัญที่ทำให้ TDRI เลือกใช้ Typhoon

ผลงานและแผนในอนาคต

ผลการวิเคราะห์ตลาดแรงงานนี้ได้รับการนำไปเผยแพร่ นำเสนอ เป็นเครื่องมือสำหรับผู้กำหนดนโยบายและสถาบันการศึกษา เพื่อช่วยออกแบบนโยบายและหลักสูตรให้สอดคล้องกับความต้องการที่แท้จริงของตลาดแรงงาน ผลการวิจัยนี้ยังได้เผยแพร่สู่สาธารณชนในวงกว้าง ผ่านรายการ คิดยกกำลังสอง รายการ Key Message ของ The Standard และแพลตฟอร์มออนไลน์ jobdata.tdri.or.th ซึ่งเปิดให้บุคคลที่สนใจสามารถเข้าไปดูข้อมูลได้ และยังมีบทความให้ติดตามใน TDRI blog

คุณนรินทร์เล่าว่า TDRI ได้นำ Typhoon ไปประยุกต์ใช้ในหลายโครงการอื่นๆ แสดงให้เห็นถึงศักยภาพและการประยุกต์ใช้ที่ใช้งานได้อีกในหลากหลายโครงการ เช่น ในโครงการร่วมกับ สถานเอกอัครราชทูตสาธารณรัฐเกาหลีประจำประเทศไทย ทีมงานใช้ Typhoon ในการจัดกลุ่มและวิเคราะห์โพสต์บนโซเชียลมีเดียที่กล่าวถึงประเทศเกาหลีใต้ เพื่อค้นหาหัวข้อสนทนาสำคัญและวิเคราะห์แนวโน้มความรู้สึก ซึ่งข้อมูลเชิงลึกเหล่านี้ถูกนำไปใช้ในการกำหนดกลยุทธ์ด้านการทูตสาธารณะของสถานทูต

นอกจากนี้ ทีมยังได้นำวิธีนี้ไปใช้กับข้อมูลโซเชียลมีเดียที่กล่าวถึง Thai PBS เพื่อใช้เป็นข้อมูลพื้นฐานในการประเมินผลการดำเนินงานของสถานีโทรทัศน์สาธารณะในปี พ.ศ. 2566

สำหรับโครงการวิจัยตลาดแรงงานนี้ยังคงมีการดำเนินการอย่างต่อเนื่อง ในอนาคต TDRI มีแผนที่จะพัฒนาการจำแนกตำแหน่งงานให้ละเอียดมากขึ้น จากเดิมที่จำแนกในระดับกลุ่มอาชีพ กำลังจะพัฒนาให้สามารถระบุเป็นตำแหน่งงานเฉพาะ เช่น แยก “Data Analyst” ออกจากกลุ่มกว้าง “Computer and Mathematical” ได้อย่างชัดเจน ความละเอียดในระดับนี้จะช่วยให้ผู้กำหนดนโยบาย สถาบันการศึกษา และผู้หางาน ได้รับข้อมูลเชิงลึกที่มีคุณค่ายิ่งกว่าเดิม

คำแนะนำส่งท้าย

สำหรับนักวิจัยหรือผู้ที่สนใจนำ LLM ไปใช้งานจริง คุณนรินทร์ได้ฝากคำแนะนำว่า คุณภาพของผลลัพธ์จะขึ้นอยู่กับคุณภาพของข้อมูลนำเข้าเสมอ หลักการ “garbage in, garbage out” ในการทำ Data Analysis ยังคงเป็นเรื่องสำคัญกับการใช้ LLM เพราะหากข้อมูลนำเข้าไม่สะอาด ไม่ครบถ้วน หรือไม่ถูกต้อง ผลลัพธ์การสังเคราะห์ข้อมูลที่ได้จาก LLM ก็จะไม่ดีตามไปด้วย

คุณนรินทร์เน้นย้ำถึงความสำคัญของการเตรียมข้อมูลให้สะอาดและพร้อมใช้งาน และย้ำว่า “อย่าด่วนเชื่อผลลัพธ์ของ LLM ทันทีโดยไม่ตรวจสอบ” LLM สามารถสร้างข้อความที่ลื่นไหลและน่าเชื่อถือ แต่ก็ไม่ใช่คำตอบที่ถูกต้องเสมอไป และอาจเกิดข้อผิดพลาดหรือ “hallucination” ได้ โดยเฉพาะในบริบทเฉพาะทาง

ผมมองว่า LLM เป็นผู้ช่วยที่ทรงพลัง ไม่ใช่ผู้เชี่ยวชาญที่ปราศจากข้อผิดพลาด ดังนั้นเราควรยังมีคนมาทำการตรวจทานผลลัพธ์ เพื่อให้มั่นใจในความถูกต้องและความน่าเชื่อถือมากยิ่งขึ้น

ในมุมมองต่อบทบาทของ Typhoon ที่มีต่อระบบนิเวศ คุณนรินทร์มองว่าการที่โมเดลเป็นโอเพนซอร์สถือเป็นข้อได้เปรียบสำคัญต่อระบบนิเวศ AI ของไทย เพราะช่วยสร้างความโปร่งใส ส่งเสริมการแลกเปลี่ยนความรู้ และเปิดโอกาสให้เกิดความร่วมมือที่มีคุณค่าระหว่างหลายภาคส่วน รวมถึงอยากเห็นภาคส่วนต่างๆ นำโมเดล Typhoon ไปใช้งานและสร้างประโยชน์ต่างๆ ตามที่ต้องการ

เราหวังว่าเรื่องราวจาก TDRI นี้จะเป็นแรงบันดาลใจและชี้แนะแนวทางให้คุณได้เห็นวิธีใช้ประโยชน์จาก Typhoon ไม่ว่าจะเป็นการใช้งานใน Workflow การทำวิจัย หรือการสร้างผลลัพธ์ที่มีความหมายต่อวงการของคุณเอง

สำหรับผู้ที่สนใจบทสัมภาษณ์ของคุณนรินทร์เพิ่มเติม สามารถอ่านบล็อกโพสต์สรุปจากเวทีเสวนาในหัวข้อ AI Advantages for Thai Enterprises: Local Models in Action

สุดท้ายนี้ หากคุณเองก็มีกรณีศึกษาการใช้งาน Typhoon มาร่วมกันบอกเล่าเรื่องราวของคุณกับเราได้นะคะ ฝากรายละเอียดให้เราติดต่อกลับได้ในแบบฟอร์มนี้ หรือส่งข้อความถึงเราทาง Discord ได้เลยค่ะ