ฮาวทู: รันโมเดล Typhoon ใช้บนเครื่องเองไม่ต้องผ่านคลาวด์ ง่ายๆ ด้วย Ollama และ Web OpenUI

โมเดลของ Typhoon ได้เปิดให้ใช้งานได้แล้วผ่านแพลตฟอร์ม Ollama ตอนที่เราประกาศออกไป หลายๆ คนมองว่านี่แหละ คือสิ่งที่รอคอย! แต่หลายคนก็อาจจะยังไม่เข้าใจว่าประโยชน์ของแพลตฟอร์มนี้คืออะไร และใช้งานยังไง

วันนี้เราเลยได้ทำบล็อกนี้ขึ้นเพื่อสอนการรันโมเดลภาษา Typhoon บนเครื่องของคุณ ว่ามันสามารถทำได้ง่ายมากๆ โดยไม่จำเป็นต้องพึ่งพาบริการคลาวด์เลย

ประโยชน์ของการรัน LLMs บนเครื่องโลคอล แทนที่จะใช้คลาวด์

ประโยชน์หลักๆ ได้แก่:

ประหยัดต้นทุน: ในหลายๆ เคส คอมพิวเตอร์โน้ตบุ๊กนั้นถือว่าเพียงพอแล้วสำหรับการใช้งานพื้นฐาน Typhoon เป็นโมเดล Open Source ที่ใช้งานฟรี โฮสเอง ใช้เองได้ ไม่ต้องเสียค่าใช้จ่าย
ควบคุมได้อย่างเต็มที่: ความยืดหยุ่นเต็มที่ในการปรับแต่งและปรับใช้โมเดล
ความเป็นส่วนตัว: การประมวลผลทั้งหมดเกิดขึ้นบนเครื่องของคุณเอง ไม่ได้ส่งข้อมูลออกไปภายนอก
การเข้าถึงแบบไม่สะดุด: ไม่ต้องพึ่งพาการเชื่อมต่ออินเทอร์เน็ตหรือบริการภายนอก ไม่ต้องห่วงเรื่องเซิร์ฟล่ม (ยกเว้นว่าทรัพยากรเครื่องของเราจะไม่พอต่อการใช้งานเอง)

เหมาะกับใคร:

นักพัฒนาที่มุ่งเน้นความเป็นส่วนตัว สำหรับแอปพลิเคชันที่ต้องมีการรักษาความลับหรือความเป็นส่วนตัว
นักวิจัย ที่ต้องการการใช้โมเดลอย่างไม่มีข้อจำกัด
องค์กร ที่รักษาความเป็นเจ้าของข้อมูลอย่างเคร่งครัด
นักเรียน เรียนรู้การประยุกต์ใช้ LLM ด้วยตนเอง

โมเดลของ Typhoon ที่เหมาะสำหรับการใช้งานบนเครื่องโลคอล

Typhoon เรามีโมเดลสองภาษาไทย-อังกฤษหลายรุ่นที่ปรับแต่งมาให้เหมาะสำหรับการใช้งานบนเครื่องคอมพิวเตอร์ของคุณ:

Typhoon2-1b-instruct: โมเดลเบาๆ พารามิเตอร์ 1 พันล้าน เหมาะสำหรับงานพื้นฐาน
Typhoon2-3b-instruct: โมเดลขนาดเล็ก 3 พันล้านพารามิเตอร์ ที่สมดุลระหว่างประสิทธิภาพและการใช้ทรัพยากร
Typhoon2-8b-instruct: โมเดลขนาดเล็กที่มีความสามารถมากขึ้น กับพารามิเตอร์ขนาด 8 พันล้าน
Typhoon2-t1-3b-research-preview: โมเดลด้านการให้เหตุผล ขนาด 3 พันล้านพารามิเตอร์

ทั้งหมดนี้สามารถเข้าถึงได้ผ่าน Ollama ซึ่งเป็นแพลตฟอร์มที่เราจะคุยกันต่อในบล็อกนี้
นอกจากนี้เรายังมีคอลเลกชันโมเดลอีกหลายตัว ทั้งที่ขนาดใหญ่ขึ้น และมีความสามารถเฉพาะทางแบบอื่นๆ ดูรายชื่อเต็มๆ ได้บน Hugging Face ของเรา

คำแนะนำในการเลือกโมเดลให้เหมาะกับทรัพยากรเครื่องของคุณ

เช็คก่อนโหลด: ฮาร์ดแวร์ของคุณ ว่าเหมาะจะรองรับโมเดลขนาดเท่าไหร่

Typhoon2-1b-instruct: RAM 8GB เป็นอย่างน้อย
Typhoon2-3b-instruct และ Typhoon2-t1-3b-research-preview: แนะนำ RAM ในช่วง 8GB-16GB
Typhoon2-8b-instruct: ต้องการ RAM ที่มากกว่า 16GB เป็นต้นไป

นอกจาก RAM แล้ว คำแนะนำอื่นๆ ได้แก่:

CPU:

ใช้โปรเซสเซอร์รุ่นใหม่ๆ เช่น Intel 11th Gen หรือ AMD Zen4
สำหรับผู้ใช้ macOS แนะนำ Apple Silicon (M1, M2, M3, M4 series) หรือใหม่กว่า ถ้ามีอัปเดต

GPU:

ไม่จำเป็นสำหรับโมเดลขนาดเล็ก
แต่ถ้ามี ก็จะยิ่งดี โดยเฉพาะถ้าคุณใช้โมเดลที่ใหญ่กว่า 3b เป็นต้นไป

Storage:

ควรมีพื้นที่ว่างบน Hard Disk อย่างน้อย 50 GB

เริ่มต้นรัน Typhoon ด้วย Ollama

Ollama คืออะไร?

Ollama คือเครื่องมือโอเพนซอร์สที่เป็นที่นิยม ทำให้การรัน LLMs บนเครื่องของคุณเองทำได้ง่ายขึ้น

การติดตั้ง

ดาวน์โหลดไฟล์การติดตั้งที่ หน้าดาวน์โหลด Ollama
ติดตั้งตามระบบปฏิบัติการที่คุณใช้
ตรวจสอบการติดตั้งด้วยคำสั่ง ollama --version

เริ่มต้นรันโมเดล Typhoon

ค้นหาโมเดล Typhoon ที่ ollama.com/scb10x
เลือกโมเดลที่คุณต้องการและรันด้วยคำสั่งที่ให้ไว้ เช่น: ollama run scb10x/llama3.1-typhoon2-8b-instruct

โมเดลจะถูกดาวน์โหลดลงเครื่องของคุณในครั้งแรกที่ใช้งาน เมื่อดำเนินการเสร็จสิ้น คุณสามารถเริ่มโต้ตอบกับโมเดลได้โดยตรงผ่าน terminal

ตัวอย่าง: ขอให้โมเดลอธิบายเรื่อง quantum computing แบบเข้าใจง่ายเป็นภาษาไทย ก็สามารถพิมพ์คำสั่ง
อธิบายเรื่อง quantum computing ให้เข้าใจง่ายๆ

Result:

ทำให้หน้าตาน่าใช้ขึ้นด้วย Open WebUI

ถ้าอินเทอร์เฟซ Terminal ไม่ค่อยสะดวกหรือน่าใช้สำหรับคุณ และอยากได้อินเทอร์เฟซแบบแชทที่เราคุ้นเคย

Open WebUI เป็นส่วนขยายโอเพนซอร์สที่เราแนะนำให้ติดตั้งและลองใช้ดู เพราะว่ามีหลายประโยชน์ เช่น:

อินเทอร์เฟซแชทสมัยใหม่
ความสามารถในการอัปโหลดไฟล์
การจัดการหลายโมเดล
User authentication

การติดตั้งและใช้ Open WebUI

1. ติดตั้ง Open WebUI

เปิด Terminal และป้อนคำสั่ง
pip install open-webui

หมายเหตุ: คุณต้องมี Python 3.11 ติดตั้งอยู่ก่อนรันคำสั่งนี้

2. รัน Open WebUI

หลังจากติดตั้งแล้ว รันคำสั่งต่อไปนี้เพื่อเริ่ม Open WebUI: open-webui serve
คุณจะต้องรันคำสั่งนี้ทุกครั้งที่เปิดเซสชัน terminal ใหม่

3. เข้าใช้ผ่านหน้าเว็บ

เปิดเบราว์เซอร์และไปที่: http://localhost:8080

อินเทอร์เฟซจะแจ้งให้คุณสร้างบัญชีเมื่อใช้งานครั้งแรก

4. เลือกและใช้โมเดล

เลือกโมเดล Ollama ที่คุณดาวน์โหลดไว้ก่อนหน้านี้และเริ่มแชทได้ทันที!

5. ปรับแต่งหน้าจอตามใจชอบ

เปลี่ยนจากโหมด Dark / Light หรือปรับแต่งอื่นๆ ตามต้องการได้เลยค่ะ คลิกที่ชื่อบัญชีบนมุมขวา แล้วเลือกเมนู Settings เพื่อปรับแต่งได้เลย

ตัวอย่างการใช้งาน

โมเดลขนาดเล็กของ Typhoon สามารถใช้งานได้หลากหลาย และทำงานได้ดีทั้งภาษาไทยและอังกฤษ นี่คือตัวอย่างบางส่วน:

1. ใช้ช่วยตอบคำถาม

ถามคำถาม Typhoon และโมเดลจะตอบกลับเป็นภาษาไทยหรืออังกฤษตามภาษาที่คุณถาม นอกจากคำถามทั่วไปแล้ว ยังสามารถใช้เป็นเครื่องคำนวณ คิดเลข แก้โจทย์เลขเบื้องต้นได้ (โจทย์ที่ซับซ้อนควรใช้ Reasoning model หรือโมเดลด้านเหตุผล)

2. ใช้ช่วยแปล

Typhoon สามารถช่วยแปลข้อความระหว่างไทยและอังกฤษได้อย่างราบรื่น

3. การสร้างเนื้อหา

ขอให้โมเดลเขียนคอนเทนต์ได้ ตั้งแต่คำบรรยายโซเชียลมีเดีย อีเมลธุรกิจ และอื่นๆ

4. การสรุปเนื้อหา

ให้โมเดลสรุปเนื้อหาจากข้อความยาวๆ หรืออัปโหลดเอกสาร และโมเดลจะสรุปให้ในรูปแบบที่อ่านง่าย

ทั้งหมดนี้เป็นตัวอย่างง่ายๆ เบื้องต้น สำหรับผู้ใช้พื้นฐาน แบบใช้งานง่ายๆ ในชีวิตประจำวัน

เคล็ด(ไม่)ลับ: วิธีใช้โมเดลขนาดเล็กให้มีประสิทธิภาพ

เพื่อให้ได้ผลลัพธ์ที่ดีที่สุดจากโมเดลขนาดเล็กของ Typhoon สิ่งสำคัญคือ การสร้างคำสั่งที่ชัดเจน และ ปรับพารามิเตอร์ ตามงานที่ต้องการ
คุณสามารถปรับพารามิเตอร์ได้โดยการหาเมนู Chat controls บนมุมขวาบนของหน้าจอ

เทคนิคการตั้งค่าพารามิเตอร์สำคัญๆ

1. Temperature

ควบคุมความสุ่มของคำตอบ เลขที่น้อย หมายถึง การลดความหลากหลาย เลขที่มาก หมายถึงการเพิ่มความหลากหลาย (สุ่มมาก) ซึ่งเหมาะกับงานที่ครีเอทีฟมากขึ้น

คำแนะนำ:

โมเดลขนาด 3b and 8b: temperature < 0.7
โมเดลขนาด 1b: temperature < 0.3 ควรให้งานที่ตรงไปตรงมา ไม่ต้องครีเอทีฟมาก
โมเดลให้เหตุผล (Reasoning) ควรใช้ temperature ไม่สูงมาก (0.3-0.5) เพื่อลดความผันผวน เน้นคิดอย่างตรงไปตรงมา

2. Top-p (Nucleus Sampling)

Top-p เป็นอีกค่าที่ใช้ควบคุมการสุ่มและความหลากหลาย โดยใช้หลักความน่าจะเป็น ตัวเลขที่น้อยจะโฟกัสแค่คำที่น่าจะเป็นที่สุดเท่านั้น ส่วนเลขที่มากจะขยายกรอบความน่าจะเป็นให้ครอบคลุมคำที่หลากหลายขึ้น

คำแนะนำ:
top_p = 0.9

3. Max Tokens

กำหนดความยาวสูงสุดของคำตอบ ตัวเลขมาก ยาวมาก ตัวเลขน้อยยาวน้อย

คำแนะนำ:

512 สำหรับงานโดยทั่วๆ ไป

1024 สำหรับงานที่ซับซ้อนขึ้น เช่น โมเดลให้เหตุผล

ลองแล้วยังไงต่อ

Ecosystem ของ Ollama เรียกได้ว่ากว้างขวางมากๆ มีการเชื่อมต่อกับ Tools มากมายเพื่อให้คุณพัฒนาเป็นแอปที่มีความสามารถมากขึ้นอีกได้ เช่น การต่อกับ LangChain จะมีประโยชน์กับการสร้าง AI agent หรือต่อกับ LlamaIndex เชื่อมต่อกับฐานข้อมูลของคุณเพื่อใช้งาน เพื่อใช้ความสามารถ Retrieval-Augmented Generation (RAG)

ในบทความต่อๆ ไป เราอาจเลือกหยิบเครื่องมือเหล่านี้มาพูดถึง ถ้ามีเรื่องอะไรที่คุณอยากรู้เป็นพิเศษ มาคุยกับเราได้เลย!

เข้ากลุ่มและพูดคุยกับเรา

อ่านมาถึงตรงนี้แล้ว เราอยากเชิญชวนทุกคนให้มาเข้าร่วมกับแชท Discord community ของ Typhoon เพื่อพูดคุย ถามคำถาม แลกเปลี่ยน และติดตามข่าวสารจากพวกเรากันต่อ

หวังว่าบทความนี้จะมีประโยชน์ค่ะ จะเห็นได้ว่าเริ่มต้นไม่ยากเลย รู้อย่างนี้แล้ว อยากชวนทุกคนมาเริ่มต้นใช้ Typhoon กันนะคะ

ฮาวทู: รันโมเดล Typhoon ใช้บนเครื่องเองไม่ต้องผ่านคลาวด์ ง่ายๆ ด้วย Ollama และ Web OpenUI

สารบัญ

ประโยชน์ของการรัน LLMs บนเครื่องโลคอล แทนที่จะใช้คลาวด์

ประโยชน์หลักๆ ได้แก่:

เหมาะกับใคร:

โมเดลของ Typhoon ที่เหมาะสำหรับการใช้งานบนเครื่องโลคอล

คำแนะนำในการเลือกโมเดลให้เหมาะกับทรัพยากรเครื่องของคุณ

เริ่มต้นรัน Typhoon ด้วย Ollama

Ollama คืออะไร?

การติดตั้ง

เริ่มต้นรันโมเดล Typhoon

ทำให้หน้าตาน่าใช้ขึ้นด้วย Open WebUI

การติดตั้งและใช้ Open WebUI

1. ติดตั้ง Open WebUI

2. รัน Open WebUI

3. เข้าใช้ผ่านหน้าเว็บ

4. เลือกและใช้โมเดล

5. ปรับแต่งหน้าจอตามใจชอบ

ตัวอย่างการใช้งาน

1. ใช้ช่วยตอบคำถาม

2. ใช้ช่วยแปล

3. การสร้างเนื้อหา

4. การสรุปเนื้อหา

เคล็ด(ไม่)ลับ: วิธีใช้โมเดลขนาดเล็กให้มีประสิทธิภาพ

เทคนิคการตั้งค่าพารามิเตอร์สำคัญๆ

1. Temperature

2. Top-p (Nucleus Sampling)

3. Max Tokens

ลองแล้วยังไงต่อ

เข้ากลุ่มและพูดคุยกับเรา

7 เรื่องน่ารู้เกี่ยวกับ Typhoon-TTS และถาม-ตอบการบริจาคเสียงเพื่องานวิจัย Voice AI