ความสำคัญของการพัฒนา AI ในไทย | Techsauce

ความสำคัญของการพัฒนา AI ในไทย

โมเดลภาษาขนาดใหญ่และ ‘AI’ ที่เป็นของคนไทยอย่างแท้จริงต้องมีชุดข้อมูลแบบเฉพาะของไทย ทั้งด้านวัฒนธรรมไปจนถึงบริบทต่างๆ ซึ่งสิ่งเหล่านี้คือหนึ่งในโปรเจกต์ที่ SCB 10X กำลังศึกษาและพัฒนาให้มีความพร้อมมากยิ่งขึ้น จากการพบจุดอ่อนของชุดข้อมูลภาษาไทยที่ยังขาดชุดข้อมูลที่มากเพียงพอต่อการใช้งานอย่างมีประสิทธิภาพ สู่จุดเริ่มต้นของ ‘LingThai’ โปรเจกต์พัฒนาชุดข้อมูลทางภาษาไทย

บทความนี้จึงขอพาไปเจาะลึกกับประเด็นนี้กันกับ คุณกสิมะ ธารพิพิธชัย, Entrepreneur in Residence, SCB 10X ที่ได้มาร่วมแชร์ประเด็นสำคัญอย่าง “Importance of Thai AI Efforts” ในงาน Techsauce Global Summit 2023 โดยอธิบายถึงความสำคัญของการพัฒนา AI ในไทย โดยเฉพาะความท้าทายในการพัฒนาโมเดลภาษาขนาดใหญ่ (Large Language Model: LLM) และวิวัฒนาการของโมเดลภาษาขนาดใหญ่จนมาถึงยุคของ Generative AI ที่กำลังร้อนแรง

แบบจำลองภาษาขนาดใหญ่เป็นรากฐานสำคัญของ Generative AI 

นับตั้งแต่เทรนด์ของ AI-Generated Influencer ที่เผยแพร่บนแพลตฟอร์ม Social Media ต่างๆ สู่ ChatGPT เครื่องมือ AI ที่เรียกได้ว่าเติบโตเร็วมากที่สุดเป็นประวัติการณ์ ทำให้เราต่างได้เห็นถึงศักยภาพของ Generative AI ที่สร้างความแปลกใหม่และน่าตื่นเต้นได้อีกมากมายหลายด้าน อย่างเช่น Health Care, การศึกษา และวิศวกรรม

คุณกสิมะ ให้ความสำคัญถึง Language Model โดยได้เล่าถึงที่มาที่ไป กลไกการสร้าง ไปจนถึงสิ่งที่ทำให้เขาเชื่อว่าเรากำลังอยู่ในช่วงหัวเลี้ยวหัวต่อที่สำคัญสำหรับ AI ภาษาไทย ตัวอย่างเช่น โมเดลภาษาของ ChatGPT ที่สร้างขึ้นจากการทำงานและฝึกฝนจำนวนมากและใช้เวลายาวนาน

เดิมทีโดยทั่วไปโมเดล AI เป็นเพียงเครื่องมือเพื่อการทำนายคาดการณ์ผลที่อาศัยข้อมูลจำนวนมาก ซึ่งโมเดลภาษาเหล่านี้มีการใช้มาตั้งแต่ต้นศตวรรษที่ 20 มีการพัฒนาและทดลองกับกลไกที่เรียกว่า “N-Gram” ซึ่งเป็นโมเดลภาษาทางสถิติในระดับพื้นฐาน และก้าวหน้าต่อเนื่องไปจนถึงยุค 50s และ 60s ก็ได้เกิดแนวคิดของ Neural Networks หรือ AI ที่เลียนแบบการคิดของมนุษย์ที่เรารู้จักกันจนถึงทุกวันนี้

เมื่อเข้าสู่ยุค 90s และ 2010s ผู้คนก็เริ่มรู้จักกับโมเดลภาษาและ Neural Networks มากขึ้น และมาสู่ก้าวสำคัญที่เรียกว่า “Recurrent Neural Networks" ซึ่งเป็นสถาปัตยกรรมที่เป็นประโยชน์ต่อการสร้างโมเดลภาษาเหล่านี้ อย่างไรก็ตามก็ยังคงเป็นการประมวลผลภาษาที่เป็นไปตามลำดับทีละคำเท่านั้น ซึ่งยังคงเป็นอุปสรรคต่อการฝึกแบบจำลอง เพราะเมื่อใส่ข้อมูลเข้าไปจำนวนมากแต่สามารถประมวลผลได้เพียงเล็กน้อยแบบตามลำดับเท่านั้น

ในปี 2017 นักวิจัย Google และ University of Toronto ได้เผยถึงสถาปัตยกรรมใหม่ที่เรียกว่า “Transformer” และได้กลายเป็นสิ่งที่เรารู้จักกันดีในขณะนี้ คือ “T” ใน GPT (Generative Pre-Trained Transformer) รวมถึงมีการค้นพบที่สำคัญมากมายเกี่ยวกับ Transformer 

และสิ่งสำคัญอย่างหนึ่งที่ต้องตระหนักถึง คือความสามารถในการฝึกแบบจำลองอย่างมีประสิทธิภาพ และตอนนี้เราสามารถทำได้ด้วย Transformer ที่สามารถใส่ข้อมูลเข้าไปในแบบจำลองที่มีความซับซ้อนมากขึ้นได้ และในปี 2018 ก็ได้มี GPT ตัวแรกและเริ่มมีการปรับขยายขนาดทั้งทรัพยากรสำหรับการคำนวณและขนาดข้อมูล จนมาถึงโมเดลภาษาขนาดใหญ่ (Large Language Model) ในวันนี้ และที่แท้จริงแล้วมีองค์ประกอบสำคัญมาจาก “สถาปัตยกรรม ข้อมูล และการประมวลผล”... 

สถาปัตยกรรม ข้อมูล และการประมวลผล เป็นองค์ประกอบสำคัญของการฝึกโมเดลภาษาที่มีประสิทธิภาพ

มีสถาปัตยกรรมที่สร้างความเปลี่ยนแปลงครั้งใหญ่อย่าง Transformer ที่ทำให้เราฝึกโมเดลที่ซับซ้อนขึ้นได้พร้อมกับค้นพบการทำงานอื่นๆ เช่น การเข้ารหัสด้วยภาพ (Visual Encoding) และกลไก Self-Attention เป็นต้น ซึ่งโมเดลเหล่านี้มีความซับซ้อนอย่างมากเนื่องจากต้องอาศัยข้อมูลจำนวนมหาศาล จึงเป็นช่วงเวลาที่สามารถเรียกได้ว่า “ข้อมูลคือขุมทรัพย์” ได้กลับมาอีกครั้ง โดยเฉพาะในยุคของ Gen AI ที่ต้องใช้ข้อมูลจำนวนมากในการฝึก 

ดังนั้น กฎง่ายๆ ในการเพิ่มประสิทธิภาพของแบบจำลอง AI คือการเพิ่มจำนวนข้อมูลเข้าไปแบบทวีคูณ และองค์ประกอบสำคัญต่อมา คือการคำนวณ (Compute) ซึ่งปฏิเสธไม่ได้ว่าการฝึกโดยใช้ข้อมูลจำนวนมหาศาลนี้ก็ต้องอาศัยพลังการประมวลผลที่มากขึ้นเช่นกัน ซึ่งทุกวันนี้ก็ได้มีการทุ่มเงินไปเป็นจำนวนมาก และที่สำคัญสิ่งเหล่านี้ส่งผลกับเทคโนโลยีทั่วโลกด้วยเช่นกัน เนื่องจากมีทรัพยากรจำนวนมากที่ต้องนำมาใช้ในการฝึกแบบจำลอง แต่โดยส่วนใหญ่เป็นองค์กรหรือสถาบันขนาดใหญ่เท่านั้นที่สามารถสร้างแบบจำลองภาษาเหล่านี้ได้ ซึ่งเป็นรูปแบบของการรวมศูนย์

เกิดความพยายามพัฒนาโมเดลภาษาที่เป็นของไทยอย่างแท้จริง 

มีความพยายามมากมายทั่วโลกที่พยายามสนับสนุน AI ในหลากหลายภาษา แต่พวกเขาจำเป็นต้องให้ความสำคัญกับการจัดลำดับของตนเองก่อน เนื่องจากทรัพยากรตัวแปรที่เกี่ยวข้องทั้งเชื้อชาติ วัฒนธรรม และภาษาถิ่นของตน ซึ่งเรียกได้ว่าเป็นลักษณะการรวมศูนย์และมีผลกระทบกับการใช้งานภาษาอื่น ตัวอย่างเช่น ChatGPT สามารถใช้ภาษาไทยได้ตามปกติ แต่ก็ไม่มีประสิทธิภาพเท่าภาษาอังกฤษอย่างเห็นได้ชัดและค่อนข้างทำได้ช้ากว่ามาก ซึ่งเป็นเรื่องทางเทคนิค “Tokenization” ในแง่ของการประเมินประสิทธิภาพการทำงานของฮาร์ดแวร์ โดยทั่วไปภาษาอังกฤษ คือ 1.5 โทเคนต่อตัวอักษร แต่เนื่องจากวิธีการทำงานของแบบจำลองเหล่านี้ไม่สามารถใช้ได้แบบเดียวกันกับภาษาไทยที่เป็นหน่วยภาษาประเภท Multi-Byte ซึ่งอาจใช้ถึง 2 โทเคนต่อตัวอักษรขึ้นไป จึงทำงานได้ช้ากว่าภาษาอังกฤษถึงประมาณ 5 เท่า พร้อมกับมีข้อจำกัดอื่นๆ ของภาษาไทย 

โมเดลภาษาส่วนใหญ่ฝึกด้วยภาษาอังกฤษ ดังนั้นเราจำเป็นต้องมีผู้ที่นำเสนอเกี่ยวกับผู้คน ประเทศ วัฒนธรรมและลักษณะเฉพาะของภาษาของไทย เพื่อสร้างระบบแบบจำลองความคิดในแบบของคนไทยและเพื่อเป็นการปกป้องภาษาและวัฒนธรรมของไทย จึงต้องมีแบบจำลองภาษาของเราเองขึ้นมา และมีความพยายามอย่างมากในการพัฒนาโมเดลภาษาของไทยจากหลากหลายองค์กร อย่างเช่นโครงการที่พัฒนาเป็น Open GPT สัญชาติไทยและสร้างขึ้นบนรากฐาน NLP มานานหลายปี รวมถึงอีกหลากหลายองค์กรที่ตระหนักถึงความสำคัญของการมีส่วนร่วมนี้ที่มีเป้าหมายคือการปรับปรุงประสิทธิภาพภาษาไทยในแบบจำลองโมเดลภาษาขนาดใหญ่ให้เป็นมาตรฐานสากลและในระดับท้องถิ่น

เมื่อภาษาไทยยังขาดชุดข้อมูลจำนวนมากเพื่อพัฒนา AI นำไปสู่จุดเริ่มต้นของ 'LingThai' 

ข้อมูลของภาษาไทยเป็นภาษา “ทรัพยากรต่ำ” ซึ่งหมายความว่าเป็นข้อมูลที่มีคำอธิบายประกอบไม่มากพอสำหรับเครื่องมือและแบบจำลองใน NLP หรือระบบ Machine Learning และจากการอ้างอิงข้อมูลขององค์กร “Common Crawl” โครงการข้อมูลแบบเปิดที่มีจุดมุ่งหมายเพื่อรวบรวมข้อมูลอินเทอร์เน็ตให้ได้มากที่สุด ได้เผยแพร่การกระจายตัวของการใช้ภาษาต่างๆ โดยภาษาอังกฤษอยู่ที่ประมาณ 45% และภาษาไทยมีเพียง 0.4%. และอยู่อันดับที่ 26 ซึ่งค่อนข้างน่ากังวลหากเทียบกับจำนวนประชากรของประเทศที่อันดับใกล้เคียงกันอย่างภาษา Finnish และ Slovak 

จากการเล็งเห็นถึงโอกาสและช่องโหว่ต่างๆ ของภาษาไทยในการพัฒนา AI ข้างต้นทั้งหมดนำมาสู่โครงการ ‘LingThai’ กับความพยายามเพิ่มคุณภาพและความพร้อมใช้งานของการเข้าถึงชุดข้อมูลของไทย ซึ่งคุณกสิมะ ได้ประกาศและแนะนำโครงการนี้ที่งาน Techsauce Global Summit 2023 พร้อมกล่าวเชิญและขอแรงสนับสนุนจากทุกภาคส่วนที่ต้องการมีส่วนร่วมกับการพัฒนาครั้งนี้ 

โดยปัจจุบัน LingThai มุ่งพัฒนา 2 กระบวนหลัก คือ ชุดข้อมูลสาธารณะ หรือ “Public Dataset” เป็นชุดข้อมูลสาธารณะที่ผลิตโดยชุมชน NLP (Natural Language Processing) และได้เริ่มเผยแพร่สู่สถาบันต่างๆ เพื่อค้นหาชุดข้อมูลที่เกี่ยวข้องและสามารถนำมาใช้สนับสนุนแพลตฟอร์มได้

กระบวนการต่อมา คือ “Data Labeling” หรือการระบุประเภทของข้อมูล ซึ่งเป็นอีกขั้นตอนที่สำคัญอย่างยิ่งสำหรับการสร้างแบบจำลองภาษาขนาดใหญ่ที่ทันสมัย โดยเฉพาะปัจจุบันยังไม่มีคำอธิบายประกอบข้อมูล (Annotated Data) ของคนไทยมากนัก

สำหรับผู้ที่ต้องการสนับสนุนและมีชุดข้อมูลสำคัญเหล่านี้สามารถติดต่อและลงทะเบียนได้ทาง LingThai หรือสามารถปรึกษาด้านชุดข้อมูลให้มีความพร้อมใช้ ตั้งแต่การแปลงเป็นระบบดิจิทัลไปจนถึงสัญญาและสิทธิ์การใช้งานข้อมูลได้กับทาง LingThai

นับว่าเป็นจุดเริ่มต้นครั้งสำคัญของอนาคต AI สัญชาติไทยและโครงการ LingThai ที่พยายามดำเนินการเพิ่มจำนวนชุดข้อมูลที่มีอยู่ให้มากขึ้นต่อไป และมีเป้าหมายส่งเสริมระบบนิเวศข้อมูลที่เปิดกว้างแบบสาธารณะ พร้อมกับสร้างการร่วมมือกันอย่างต่อเนื่อง ชมรายละเอียดเพิ่มเติมเกี่ยวกับ LingThai ได้ที่เว็บไซต์: https://lingthai.ai 

Sign in to read unlimited free articles

No comment

RELATED ARTICLE

Responsive image

VC เผยวิธีมองสตาร์ทอัพให้ขาด ก่อน ORZON Ventures เข้าไปลงทุน

คุยกับ 'คุณณรัณภัสสร์ ฐิติพัทธกุล ผู้อำนวยการการลงทุน ORZON Ventures' เรื่องการทำงานระหว่าง OR กับ 500 TukTuks, เกณฑ์การพิจารณาสตาร์ทอัพที่น่าลงทุน, เหตุที่บางดีลเกิด/ไม่เกิด รวม...

Responsive image

ติววิชา Sustainability ก่อนมุ่งสู่ ‘ESG Report’ คอนเทนต์ที่สตาร์ทอัพควรอ่าน จากงาน ESG ESSENTIAL WORKSHOP

Key Messages เกี่ยวกับ Sustainability & ESG จากงานสัมมนา ESG ESSENTIAL WORKSHOP: Navigating Sustainability for Post-Revenue Startups ในโครงการ KATALYST by KBank โดย Beacon VC...

Responsive image

ปรับองค์กรสู่ Digital Future เริ่มที่ ‘คน’ หรือ ‘เทคโนโลยี’ ฟัง NTT DATA ผู้เชี่ยวชาญ Digital Transformation

บทความนี้ Techsauce จะพาไปหาคำตอบว่า…ทำไมทรัพยากรคนถึงมีผลต่อ Digital Transformation และองค์กรควรรับมืออย่างไร?...