INSAIT สร้าง LLM ระดับแนวหน้าของบัลแกเรียเป็นครั้งแรกด้วย Gemma 2
สถาบันวิทยาการคอมพิวเตอร์ ปัญญาประดิษฐ์ และเทคโนโลยี (INSAIT) เป็นองค์กรวิจัยระดับโลกที่ตั้งอยู่ในโซเฟีย บัลแกเรีย นับตั้งแต่ก่อตั้งขึ้นในปี 2022 INSAIT ได้ดึงดูดนักวิชาการและนักวิจัยชั้นนำจากทั่วโลกที่ต้องการพัฒนาเทคโนโลยีให้ก้าวหน้าไปเรื่อยๆ ในการผลักดันการขยายการเข้าถึง LLM ในบัลแกเรีย INSAIT ได้สร้าง BgGPT ซึ่งเป็นโมเดลภาษาขนาดใหญ่ (LLM) ภาษาบัลแกเรียที่เข้าใจงานแบบการสนทนาและแบบคำสั่งเป็นภาษาบัลแกเรียและอังกฤษ
หลังจากทดสอบโมเดลอื่นๆ สำหรับรากฐานของ BgGPT แล้ว ทีม BgGPT ตัดสินใจว่าโมเดลแบบเปิดตระกูล Gemma ของ Google เหมาะสําหรับงานนี้ที่สุด เนื่องจากมีประสิทธิภาพที่ดีกว่าในภาษาบัลแกเรียและอังกฤษ และมีขนาดกะทัดรัด INSAIT ใช้ความสามารถด้านภาษาที่ยอดเยี่ยมของ Gemma เพื่อสร้างโมเดลที่มีประสิทธิภาพและประสิทธิผลมากขึ้นกว่าเดิมมาก
ความท้าทาย
INSAIT พบว่าไม่มีโมเดลการประมวลผลภาษาธรรมชาติ (NLP) ที่มีประสิทธิภาพในภาษาบัลแกเรีย เนื่องจาก LLM ส่วนใหญ่ในโลกมุ่งเน้นที่ภาษาอังกฤษหรือภาษาตะวันออก เช่น จีน โมเดลที่หายากยังทำให้ไม่มีตัวแทน AI แบบสนทนาที่เข้าใจภาษาบัลแกเรียและความแตกต่างทางวัฒนธรรมอย่างลึกซึ้ง ในขณะเดียวกันก็รักษาต้นทุนการดําเนินการที่เหมาะสมไว้ด้วย INSAIT ทราบดีว่าหากต้องการสร้างชื่อเสียงให้บัลแกเรียและยุโรปตะวันออกในโลก AI จะต้องสร้าง LLM ของตนเองที่มีประสิทธิภาพและแม่นยำ

การแก้ปัญหา
นักวิจัยของ INSAIT ได้สร้าง BgGPT เพื่อตอบสนองความต้องการที่หลากหลายของนักพัฒนาซอฟต์แวร์และผู้ใช้ที่พูดภาษาบัลแกเรีย โมเดลนี้มีขนาดพารามิเตอร์ 27B, 9B และ 2B ทั้งตัวแปร 27B และ 9B มีประสิทธิภาพเหนือกว่าโมเดลขนาดใหญ่ เช่น Qwen 2.5 72B ของ Alibaba และ Llama 3.1 70B ของ Meta ในภาษาบัลแกเรีย ส่วนเวอร์ชัน 2B มีประสิทธิภาพดีกว่าโมเดลภาษาขนาดเล็กอื่นๆ เช่น Phi 3.5 ของ Microsoft และ Qwen 2.5 3B ของ Alibaba ทั้ง 3 รูปแบบยังคงมีประสิทธิภาพในภาษาอังกฤษที่แข่งขันได้ เนื่องด้วยความสามารถทางภาษาที่น่าประทับใจของ Gemma 2
"Gemma ช่วยให้เราบรรลุประสิทธิภาพที่ล้ำสมัยใน NLP ภาษาบัลแกเรียด้วยรากฐานที่มีประสิทธิภาพและปรับขนาดได้สำหรับการปรับแต่งขั้นละเอียด"
BgGPT ได้รับการฝึกล่วงหน้าด้วยโทเค็นภาษาบัลแกเรียประมาณ 85,000 ล้านรายการและภาษาอังกฤษ 15,000 ล้านรายการ องค์ประกอบที่โดดเด่นอย่างหนึ่งในการพัฒนา BgGPT คือการใช้กลยุทธ์การก่อนฝึกอย่างต่อเนื่องแบบแยกและผสานของ INSAIT ซึ่งช่วยให้โมเดลเรียนรู้ข้อมูลใหม่ เช่น ภาษาบัลแกเรีย ได้โดยไม่ต้องแทนที่หรือสูญเสียข้อมูลเก่า เช่น ความเข้าใจเชิงลึกด้านคณิตศาสตร์และภาษาอังกฤษของ Gemma ปรากฏการณ์นี้เรียกว่า "การลืมอย่างรุนแรง" และยังคงเป็นปัญหาที่เกิดขึ้นซ้ำๆ ในการพัฒนา LLM

ผลลัพธ์
ตอนนี้ BgGPT ขับเคลื่อนแพลตฟอร์มแชทสาธารณะที่ BgGPTt.ai โดยใช้ทั้งตัวแปร 27B และ 2B โมเดล 2B จะจัดการงานเฉพาะ เช่น การเปลี่ยนรูปแบบคําค้นหาของผู้ใช้และการแยกประเภท ส่วนโมเดล 27B จะจัดการองค์ประกอบการสนทนา BgGPT.ai ได้ตอบคำถามของผู้ใช้หลายล้านข้อนับตั้งแต่เปิดตัวในเดือนมีนาคม 2024 การเปิดตัว BgGPT ยังทำให้ INSAIT เป็นองค์กรแรกในยุโรปกลางและยุโรปตะวันออกที่เปิดตัว LLM ที่พัฒนาขึ้นแบบสาธารณะซึ่งแข่งขันได้ทั่วโลก ซึ่งทำให้องค์กรกลายเป็นผู้นำในภูมิภาค
INSAIT ได้แชร์กลยุทธ์การก่อนฝึกอย่างต่อเนื่องแบบแยกและผสานกับนักพัฒนาซอฟต์แวร์ด้วย ซึ่งอาจช่วยเร่งการเติบโตของโมเดล AI ได้อย่างรวดเร็ว รวมถึงแชร์ไปป์ไลน์การฝึกทั้งหมดด้วย ความสามารถในการขยายฐานความรู้ของ LLM อย่างต่อเนื่องโดยไม่สูญเสียข้อมูลก่อนหน้าจะช่วยปรับปรุงประสิทธิภาพการฝึกอบรมและทําให้ LLM ฉลาดขึ้น
48,000+
การดาวน์โหลดในหน้ากอด*
5 ล้าน
คำถามที่ตอบใน BgGPT.ai
- *จำนวนการดาวน์โหลดตั้งแต่วันที่ 1-31 ธันวาคม 2024
สิ่งที่จะเกิดขึ้นหลังจากนี้
การใช้งาน BgGPT เพิ่มขึ้นอย่างต่อเนื่อง โปรแกรมนำร่องได้เริ่มขึ้นแล้วในหน่วยงานรัฐบาลบัลแกเรีย เช่น กรมสรรพากรแห่งชาติ (NRA) เพื่อทดสอบประสิทธิภาพของ LLM ในสถานการณ์เฉพาะ นอกจากนี้ INSAIT ยังแสดงความสนใจที่จะขยายการเข้าถึงของ BgGPT ไปยังพื้นที่อื่นๆ เช่น การศึกษา การบริหารภาครัฐ และระบบอัตโนมัติทางธุรกิจ
นักพัฒนาซอฟต์แวร์ นักวิจัย และนักวิชาการที่หลงใหลในเทคโนโลยี AI ของ INSAIT มุ่งมั่นที่จะพัฒนาเทคโนโลยี AI ในยุโรปตะวันออกและต่างประเทศ ในอนาคต INSAIT วางแผนที่จะปรับปรุง BgGPT ด้วยการรวมการเรียกใช้ฟังก์ชันและการปรับแต่งเพิ่มเติมด้วยโมเดลฐานขนาดใหญ่ขึ้น รวมถึงโมเดลการฝึกสำหรับประเทศอื่นๆ