صفحه مدل : جما
منابع و مستندات فنی :
شرایط استفاده : شرایط
نویسندگان : گوگل
اطلاعات مدل
شرح خلاصه و تعریف مختصر ورودی ها و خروجی ها.
شرح
Gemma خانواده ای از مدل های باز سبک وزن و پیشرفته از Google است که از همان تحقیقات و فناوری استفاده شده برای ایجاد مدل های Gemini ساخته شده است. آنها مدلهای زبان بزرگ متن به متن و فقط رمزگشا هستند که به زبان انگلیسی در دسترس هستند، با وزنهای باز هم برای انواع از پیش آموزشدیده و هم برای انواع تنظیمشده توسط دستورالعمل. مدلهای Gemma برای انواع وظایف تولید متن، از جمله پاسخ به سؤال، خلاصهسازی و استدلال مناسب هستند. اندازه نسبتا کوچک آنها امکان استقرار آنها را در محیطهایی با منابع محدود مانند لپتاپ، دسکتاپ یا زیرساختهای ابری خود، دموکراتیک کردن دسترسی به مدلهای پیشرفته هوش مصنوعی و کمک به تقویت نوآوری برای همه فراهم میکند.
ورودی ها و خروجی ها
- ورودی: رشته متنی، مانند سؤال، درخواست یا سندی که باید خلاصه شود.
- خروجی: متنی به زبان انگلیسی در پاسخ به ورودی تولید می شود، مانند پاسخ به یک سوال یا خلاصه ای از یک سند.
نقل قول
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team},
year={2024}
}
داده های مدل
داده های مورد استفاده برای آموزش مدل و نحوه پردازش داده ها.
مجموعه داده های آموزشی
این مدل ها بر روی مجموعه داده ای از داده های متنی که شامل منابع بسیار متنوعی است، آموزش داده شدند. مدل 27B با 13 تریلیون توکن، مدل 9B با 8 تریلیون توکن و مدل 2B با 2 تریلیون توکن آموزش داده شد. در اینجا مولفه های کلیدی وجود دارد:
- اسناد وب: مجموعه ای متنوع از متن وب تضمین می کند که مدل در معرض طیف گسترده ای از سبک ها، موضوعات و واژگان زبانی قرار می گیرد. در درجه اول محتوای انگلیسی زبان.
- کد: قرار دادن مدل در معرض کد به آن کمک می کند تا نحو و الگوهای زبان های برنامه نویسی را بیاموزد، که توانایی آن را برای تولید کد یا درک سوالات مربوط به کد بهبود می بخشد.
- ریاضیات: آموزش متن ریاضی به مدل کمک می کند تا استدلال منطقی، نمایش نمادین و پاسخگویی به پرسش های ریاضی را بیاموزد.
ترکیبی از این منابع داده های متنوع برای آموزش یک مدل زبان قدرتمند که می تواند طیف گسترده ای از وظایف مختلف و قالب های متنی را مدیریت کند، بسیار مهم است.
پیش پردازش داده ها
در اینجا روش های کلیدی تمیز کردن و فیلتر کردن داده ها برای داده های آموزشی اعمال می شود:
- فیلتر CSAM: فیلتر شدید CSAM (مواد آزار جنسی کودکان) در مراحل مختلف در فرآیند آمادهسازی دادهها اعمال شد تا از حذف محتوای مضر و غیرقانونی اطمینان حاصل شود.
- فیلتر داده های حساس: به عنوان بخشی از ایمن و قابل اعتماد ساختن مدل های از پیش آموزش دیده Gemma، از تکنیک های خودکار برای فیلتر کردن اطلاعات شخصی خاص و سایر داده های حساس از مجموعه های آموزشی استفاده شد.
- روشهای اضافی: فیلتر بر اساس کیفیت و ایمنی محتوا مطابق با خطمشیهای ما .
اطلاعات پیاده سازی
جزئیات در مورد قطعات داخلی مدل
سخت افزار
Gemma با استفاده از آخرین نسل سخت افزار Tensor Processing Unit (TPU) (TPUv5p) آموزش داده شد.
آموزش مدل های زبان بزرگ نیاز به قدرت محاسباتی قابل توجهی دارد. TPU ها که به طور خاص برای عملیات ماتریسی رایج در یادگیری ماشین طراحی شده اند، چندین مزیت در این حوزه دارند:
- عملکرد: TPU ها به طور خاص برای انجام محاسبات عظیم درگیر در آموزش LLM طراحی شده اند. آنها می توانند سرعت آموزش را در مقایسه با CPU ها به میزان قابل توجهی افزایش دهند.
- حافظه: TPU ها اغلب دارای مقدار زیادی حافظه با پهنای باند بالا هستند که امکان مدیریت مدل های بزرگ و اندازه های دسته ای را در طول آموزش فراهم می کند. این می تواند منجر به کیفیت بهتر مدل شود.
- مقیاس پذیری: TPU Pods (خوشه های بزرگ TPU) راه حلی مقیاس پذیر برای مدیریت پیچیدگی فزاینده مدل های پایه بزرگ ارائه می دهد. برای پردازش سریعتر و کارآمدتر می توانید آموزش را در چندین دستگاه TPU توزیع کنید.
- مقرون به صرفه بودن: در بسیاری از سناریوها، TPU ها می توانند راه حل مقرون به صرفه تری برای آموزش مدل های بزرگ در مقایسه با زیرساخت های مبتنی بر CPU ارائه دهند، به ویژه زمانی که زمان و منابع صرفه جویی شده به دلیل آموزش سریعتر در نظر گرفته شود.
- این مزایا با تعهدات Google برای عملکرد پایدار مطابقت دارد.
نرم افزار
آموزش با استفاده از مسیرهای JAX و ML انجام شد.
JAX به محققان این امکان را می دهد که از آخرین نسل سخت افزار از جمله TPU ها برای آموزش سریع تر و کارآمدتر مدل های بزرگ استفاده کنند.
ML Pathways آخرین تلاش گوگل برای ساخت سیستمهای هوشمند مصنوعی است که قادر به تعمیم وظایف متعدد هستند. این به ویژه برای مدل های پایه ، از جمله مدل های زبان بزرگ مانند این ها مناسب است.
با هم، مسیرهای JAX و ML همانطور که در مقاله درباره مدلهای خانواده جمینی توضیح داده شد، استفاده میشوند. "مدل برنامه نویسی "کنترل کننده واحد" Jax و Pathways به یک فرآیند پایتون اجازه می دهد تا کل دوره آموزشی را هماهنگ کند و گردش کار توسعه را به طور چشمگیری ساده کند.
ارزیابی
معیارها و نتایج ارزیابی مدل
نتایج محک
این مدل ها در برابر مجموعه بزرگی از مجموعه داده ها و معیارهای مختلف برای پوشش جنبه های مختلف تولید متن مورد ارزیابی قرار گرفتند:
معیار | متریک | Gemma 2 PT 2B | Gemma 2 PT 9B | Gemma 2 PT 27B |
---|---|---|---|---|
MMLU | 5-شات، بالا-1 | 51.3 | 71.3 | 75.2 |
هلاسواگ | 10-شات | 73.0 | 81.9 | 86.4 |
PIQA | 0-شات | 77.8 | 81.7 | 83.2 |
SocialIQA | 0-شات | 51.9 | 53.4 | 53.7 |
BoolQ | 0-شات | 72.5 | 84.2 | 84.8 |
وینو گراند | نمره جزئی | 70.9 | 80.6 | 83.7 |
ARC-e | 0-شات | 80.1 | 88.0 | 88.6 |
ARC-c | 25-شات | 55.4 | 68.4 | 71.4 |
TriviaQA | 5-شات | 59.4 | 76.6 | 83.7 |
سوالات طبیعی | 5-شات | 16.7 | 29.2 | 34.5 |
HumanEval | پاس@1 | 17.7 | 40.2 | 51.8 |
MBPP | 3-شات | 29.6 | 52.4 | 62.6 |
GSM8K | 5-شات، maj@1 | 23.9 | 68.6 | 74.0 |
ریاضی | 4-شات | 15.0 | 36.6 | 42.3 |
AGIEval | 3-5-شات | 30.6 | 52.8 | 55.1 |
رها کردن | 3-شات، F1 | 52.0 | 69.4 | 72.2 |
BIG-Bench | 3-شات، CoT | 41.9 | 68.2 | 74.9 |
اخلاق و ایمنی
رویکرد و نتایج ارزیابی اخلاق و ایمنی.
رویکرد ارزشیابی
روشهای ارزیابی ما شامل ارزیابیهای ساختاریافته و آزمایشهای داخلی قرمز از خطمشیهای محتوای مرتبط است. Red-teaming توسط تعدادی تیم مختلف انجام شد که هر کدام اهداف و معیارهای ارزیابی انسانی متفاوتی داشتند. این مدل ها بر اساس تعدادی از مقوله های مختلف مرتبط با اخلاق و ایمنی مورد ارزیابی قرار گرفتند، از جمله:
- امنیت محتوای متن به متن: ارزیابی انسانی در مورد درخواستهای مربوط به سیاستهای ایمنی از جمله سوء استفاده و بهرهکشی جنسی از کودکان، آزار و اذیت، خشونت و بدگویی، و سخنان مشوق تنفر.
- مضرات بازنمایی متن به متن: معیار مقایسه با مجموعه داده های دانشگاهی مرتبط مانند WinoBias و BBQ Dataset .
- حفظ کردن: ارزیابی خودکار حفظ داده های آموزشی، از جمله خطر قرار گرفتن در معرض اطلاعات شخصی قابل شناسایی.
- آسیب در مقیاس بزرگ: آزمایشهایی برای «قابلیتهای خطرناک» مانند خطرات شیمیایی، بیولوژیکی، رادیولوژیکی و هستهای (CBRN).
نتایج ارزیابی
نتایج ارزیابیهای اخلاقی و ایمنی در آستانههای قابل قبولی برای رعایت سیاستهای داخلی برای مقولههایی مانند ایمنی کودک، ایمنی محتوا، آسیبهای بازنمایی، حفظ کردن، آسیبهای در مقیاس بزرگ قرار دارد. علاوه بر ارزیابی های داخلی قوی، نتایج معیارهای ایمنی شناخته شده مانند BBQ، BOLD، Winogender، Winobias، RealToxicity و TruthfulQA در اینجا نشان داده شده است.
جما 2.0
معیار | متریک | Gemma 2 IT 2B | Gemma 2 IT 9B | Gemma 2 IT 27B |
---|---|---|---|---|
RealToxicity | میانگین | 8.16 | 8.25 | 8.84 |
CrowS-Pairs | top-1 | 37.67 | 37.47 | 36.67 |
BBQ Ambig | 1-شات، top-1 | 83.20 | 88.58 | 85.99 |
BBQ Disambig | top-1 | 69.31 | 82.67 | 86.94 |
Winogender | top-1 | 52.91 | 79.17 | 77.22 |
TruthfulQA | 43.72 | 50.27 | 51.60 | |
Winobias 1_2 | 59.28 | 78.09 | 81.94 | |
Winobias 2_2 | 88.57 | 95.32 | 97.22 | |
سموم | 48.32 | 39.30 | 38.42 |
ارزیابی قابلیت های خطرناک
رویکرد ارزشیابی
ما طیف وسیعی از قابلیت های خطرناک را ارزیابی کردیم:
- امنیت سایبری تهاجمی: برای ارزیابی پتانسیل این مدل برای سوء استفاده در زمینههای امنیت سایبری، ما از هر دو پلتفرم Capture-the-Flag (CTF) در دسترس عمومی مانند InterCode-CTF و Hack the Box و همچنین چالشهای داخلی توسعهیافته CTF استفاده کردیم. این ارزیابی ها توانایی مدل را برای بهره برداری از آسیب پذیری ها و دسترسی غیرمجاز در محیط های شبیه سازی شده اندازه گیری می کند.
- خود تکثیر: ما ظرفیت مدل را برای خودتکثیر با طراحی کارهایی که شامل اکتساب منابع، اجرای کد و تعامل با سیستم های راه دور است، ارزیابی کردیم. این ارزیابی ها توانایی مدل را برای تکثیر و گسترش مستقل ارزیابی می کند.
- متقاعدسازی: برای ارزیابی ظرفیت مدل برای متقاعدسازی و فریب، مطالعات متقاعدسازی انسانی را انجام دادیم. این مطالعات شامل سناریوهایی بود که توانایی مدل را برای ایجاد ارتباط، تأثیرگذاری بر باورها و برانگیختن اقدامات خاص از شرکتکنندگان انسانی اندازهگیری میکرد.
نتایج ارزیابی
همه ارزیابیها به تفصیل در ارزیابی مدلهای مرزی برای قابلیتهای خطرناک و به طور خلاصه در گزارش فنی Gemma 2 توضیح داده شدهاند.
ارزیابی | قابلیت | Gemma 2 IT 27B |
---|---|---|
InterCode-CTF | امنیت سایبری توهین آمیز | چالش های 34/76 |
CTF داخلی | امنیت سایبری توهین آمیز | چالش های 1/13 |
جعبه را هک کنید | امنیت سایبری توهین آمیز | چالش های 0/13 |
هشدار اولیه خودتکثیر | خود تکثیر | 1/10 چالش |
افسون توهین آمیز | اقناع | درصد از شرکت کنندگان موافق: 81٪ جالب، 75٪ دوباره صحبت می کنند، 80٪ ارتباط شخصی برقرار کردند. |
روی پیوندها کلیک کنید | اقناع | 34 درصد از شرکت کنندگان |
اطلاعات را پیدا کنید | اقناع | 9 درصد از شرکت کنندگان |
کد را اجرا کنید | اقناع | 11 درصد از شرکت کنندگان |
بحث پول | اقناع | میانگین کمک مالی 3.72 پوند |
وب دروغ | اقناع | 18 درصد به معنای تغییر به سمت باور صحیح، 1 درصد به معنای تغییر به سمت باور نادرست است |
استفاده و محدودیت ها
این مدل ها محدودیت های خاصی دارند که کاربران باید از آن ها آگاه باشند.
استفاده در نظر گرفته شده
مدلهای زبان بزرگ باز (LLM) طیف گستردهای از کاربردها در صنایع و حوزههای مختلف دارند. فهرست زیر از کاربردهای بالقوه جامع نیست. هدف این فهرست ارائه اطلاعات زمینه ای در مورد موارد استفاده احتمالی است که سازندگان مدل به عنوان بخشی از آموزش و توسعه مدل در نظر گرفته اند.
- ایجاد محتوا و ارتباطات
- تولید متن: از این مدل ها می توان برای تولید قالب های متن خلاقانه مانند شعر، اسکریپت، کد، کپی بازاریابی و پیش نویس ایمیل استفاده کرد.
- رباتهای چت و هوش مصنوعی مکالمه: رابطهای مکالمه قدرتمند برای خدمات مشتری، دستیاران مجازی یا برنامههای تعاملی.
- خلاصه سازی متن: خلاصه های مختصری از مجموعه متن، مقالات پژوهشی یا گزارش ها ایجاد کنید.
- تحقیق و آموزش
- تحقیقات پردازش زبان طبیعی (NLP): این مدلها میتوانند به عنوان پایهای برای محققان برای آزمایش تکنیکهای NLP، توسعه الگوریتمها و کمک به پیشرفت این حوزه عمل کنند.
- ابزارهای یادگیری زبان: از تجربیات یادگیری زبان تعاملی پشتیبانی می کند، به تصحیح دستور زبان یا ارائه تمرین نوشتن کمک می کند.
- کاوش دانش: به محققان در کاوش متن بزرگ با تولید خلاصه یا پاسخ دادن به سؤالاتی در مورد موضوعات خاص کمک کنید.
محدودیت ها
- داده های آموزشی
- کیفیت و تنوع داده های آموزشی به طور قابل توجهی بر قابلیت های مدل تأثیر می گذارد. سوگیری یا شکاف در داده های آموزشی می تواند منجر به محدودیت در پاسخ های مدل شود.
- دامنه مجموعه داده آموزشی حوزه های موضوعی را مشخص می کند که مدل می تواند به طور موثر اداره کند.
- بافت و پیچیدگی کار
- LLM ها در کارهایی که می توانند با اعلان ها و دستورالعمل های واضح چارچوب بندی شوند، بهتر عمل می کنند. کارهای باز یا بسیار پیچیده ممکن است چالش برانگیز باشند.
- عملکرد یک مدل می تواند تحت تأثیر مقدار زمینه ارائه شده قرار گیرد (زمینه طولانی تر به طور کلی منجر به خروجی های بهتر، تا یک نقطه خاص می شود).
- ابهام زبان و تفاوت های ظریف
- زبان طبیعی ذاتاً پیچیده است. ممکن است LLM ها برای درک ظرایف ظریف، طعنه یا زبان مجازی تلاش کنند.
- دقت واقعی
- LLM ها بر اساس اطلاعاتی که از مجموعه داده های آموزشی خود آموخته اند، پاسخ ها را تولید می کنند، اما پایگاه های دانش نیستند. آنها ممکن است اظهارات واقعی نادرست یا قدیمی ایجاد کنند.
- حس مشترک
- LLM ها بر الگوهای آماری زبان تکیه دارند. آنها ممکن است توانایی اعمال استدلال عقل سلیم را در موقعیت های خاص نداشته باشند.
ملاحظات اخلاقی و خطرات
توسعه مدلهای زبان بزرگ (LLM) چندین نگرانی اخلاقی را ایجاد میکند. در ایجاد یک مدل باز، موارد زیر را به دقت در نظر گرفته ایم:
- تعصب و انصاف
- LLM هایی که بر روی داده های متنی در مقیاس بزرگ و در دنیای واقعی آموزش دیده اند، می توانند سوگیری های اجتماعی-فرهنگی موجود در مطالب آموزشی را منعکس کنند. این مدلها تحت بررسی دقیق قرار گرفتند، پیش پردازش دادههای ورودی شرح داده شد و ارزیابیهای بعدی در این کارت گزارش شد.
- اطلاعات نادرست و سوء استفاده
- از LLM ها می توان برای تولید متن نادرست، گمراه کننده یا مضر استفاده کرد.
- دستورالعمل هایی برای استفاده مسئولانه با مدل ارائه شده است، به جعبه ابزار هوش مصنوعی مولد مسئول مراجعه کنید.
- شفافیت و پاسخگویی:
- این کارت مدل جزئیات معماری، قابلیتها، محدودیتها و فرآیندهای ارزیابی مدلها را خلاصه میکند.
- یک مدل باز توسعهیافته مسئولانه فرصتی برای به اشتراک گذاشتن نوآوری با در دسترس قرار دادن فناوری LLM برای توسعهدهندگان و محققان در سراسر اکوسیستم هوش مصنوعی فراهم میکند.
خطرات شناسایی شده و اقدامات کاهشی:
- تداوم سوگیری ها: انجام نظارت مستمر (با استفاده از معیارهای ارزیابی، بازبینی انسانی) و کاوش در تکنیک های تعصب زدایی در طول آموزش مدل، تنظیم دقیق و سایر موارد استفاده تشویق می شود.
- تولید محتوای مضر: مکانیسم ها و دستورالعمل هایی برای ایمنی محتوا ضروری است. توسعهدهندگان تشویق میشوند احتیاط کنند و بر اساس خطمشیهای خاص محصول و موارد استفاده از برنامه، پادمانهای ایمنی محتوای مناسب را اجرا کنند.
- استفاده نادرست برای اهداف مخرب: محدودیت های فنی و آموزش توسعه دهندگان و کاربر نهایی می تواند به کاهش برنامه های مخرب LLM کمک کند. منابع آموزشی و مکانیسمهای گزارشدهی برای کاربران برای پرچمگذاری سوءاستفاده ارائه شده است. استفاده های ممنوع از مدل های Gemma در خط مشی استفاده ممنوع Gemma مشخص شده است.
- نقض حریم خصوصی: مدل ها بر روی داده های فیلتر شده برای حذف PII (اطلاعات شناسایی شخصی) آموزش داده شدند. توسعه دهندگان تشویق می شوند تا با تکنیک های حفظ حریم خصوصی به قوانین حفظ حریم خصوصی پایبند باشند.
فواید
در زمان عرضه، این خانواده از مدلها، پیادهسازیهای مدل زبان باز بزرگ با کارایی بالا را ارائه میکنند که از ابتدا برای توسعه هوش مصنوعی مسئولانه در مقایسه با مدلهای با اندازه مشابه طراحی شدهاند.
با استفاده از معیارهای ارزیابی معیار توصیف شده در این سند، این مدلها نشان دادهاند که عملکرد برتری نسبت به سایر جایگزینهای مدل باز با اندازه قابل مقایسه ارائه میدهند.