تدريب مصنِّف النص باستخدام التضمينات

نظرة عامة

ستتعلم في الدفتر هذا كيفية استخدام التضمينات التي أنتجتها واجهة برمجة تطبيقات Gemini لتدريب نموذج يمكنه تصنيف أنواع مختلفة من مشاركات مجموعات الأخبار استنادًا إلى الموضوع.

سيتم في هذا البرنامج التعليمي تدريب مُصنِّف على التنبؤ بالفئة التي تنتمي إليها مشاركة مجموعة أخبار.

المتطلبات الأساسية

يمكنك تشغيل دليل البدء السريع هذا في Google Colab.

لإكمال هذه البدء السريع في بيئة التطوير الخاصة بك، تأكد من أن بيئتك تفي بالمتطلبات التالية:

  • Python 3.9 أو إصدار أحدث
  • تثبيت jupyter لتشغيل دفتر الملاحظات.

ضبط إعدادات الجهاز

أولاً، عليك تنزيل مكتبة Gemini API Python وتثبيتها.

الحصول على مفتاح واجهة برمجة التطبيقات

قبل أن تتمكّن من استخدام واجهة برمجة تطبيقات Gemini، يجب أولاً الحصول على مفتاح واجهة برمجة التطبيقات. أنشِئ مفتاحًا بنقرة واحدة في "استوديو Google AI" إذا لم يكن لديك مفتاح.

الحصول على مفتاح واجهة برمجة التطبيقات

في Colab، أضِف المفتاح إلى أداة إدارة الأسرار ضمن "🔑" في اللوحة اليمنى. أدخِل الاسم "API_KEY".

بعد حصولك على مفتاح واجهة برمجة التطبيقات، أرسِله إلى حزمة تطوير البرامج (SDK). هناك طريقتان لإجراء ذلك:

  • ضَع المفتاح في متغيّر بيئة GOOGLE_API_KEY (ستحصل عليه حزمة تطوير البرامج (SDK) تلقائيًا من هناك).
  • تمرير المفتاح إلى "genai.configure(api_key=...)"
تضم مجموعة البيانات النصية الخاصة بـ 20 مجموعة إخبارية 18,000 مشاركة في المجموعات الإخبارية حول 20 موضوعًا يتم تقسيمها إلى مجموعات تدريب واختبار. يستند التقسيم بين مجموعات بيانات التدريب والاختبار على الرسائل المنشورة قبل تاريخ محدّد وبعده. في هذا البرنامج التعليمي، ستستخدم مجموعات فرعية من مجموعات بيانات التدريب والاختبار. ستقوم بمعالجة البيانات مسبقًا وتنظيمها في إطارات بيانات Pandas.

newsgroups_train = fetch_20newsgroups(subset='train')
newsgroups_test = fetch_20newsgroups(subset='test')

# View list of class names for dataset

في ما يلي مثال على شكل نقطة بيانات من مجموعة التطبيق.

idx = newsgroups_train.data[0].index('Lines')
Lines: 15

 I was wondering if anyone out there could enlighten me on this car I saw
the other day. It was a 2-door sports car, looked to be from the late 60s/
early 70s. It was called a Bricklin. The doors were really small. In addition,
the front bumper was separate from the rest of the body. This is 
all I know. If anyone can tellme a model name, engine specs, years
of production, where this car is made, history, or whatever info you
have on this funky looking car, please e-mail.


- IL
   ---- brought to you by your neighborhood Lerxst ----

ستبدأ الآن في معالجة بيانات هذا البرنامج التعليمي مسبقًا. يُرجى إزالة أي معلومات حسّاسة، مثل الأسماء أو الرسائل الإلكترونية أو الأجزاء المكرّرة من النص، مثل "From: " و"\nSubject: ". تنظيم المعلومات في إطار بيانات Pandas بحيث تكون أكثر قابلية للقراءة.

def preprocess_newsgroup_data(newsgroup_dataset):
  # Apply functions to remove names, emails, and extraneous words from data points in newsgroups.data
  newsgroup_dataset.data = [re.sub(r'[\w\.-]+@[\w\.-]+', '', d) for d in newsgroup_dataset.data] # Remove email
  newsgroup_dataset.data = [re.sub(r"\([^()]*\)", "", d) for d in newsgroup_dataset.data] # Remove names
  newsgroup_dataset.data = [d.replace("From: ", "") for d in newsgroup_dataset.data] # Remove "From: "
  newsgroup_dataset.data = [d.replace("\nSubject: ", "") for d in newsgroup_dataset.data] # Remove "\nSubject: "

  # Cut off each text entry after 5,000 characters
  newsgroup_dataset.data = [d[0:5000] if len(d) > 5000 else d for d in newsgroup_dataset.data]

  # Put data points into dataframe
  df_processed = pd.DataFrame(newsgroup_dataset.data, columns=['Text'])
  df_processed['Label'] = newsgroup_dataset.target
  # Match label to target name index
  df_processed['Class Name'] = ''
  for idx, row in df_processed.iterrows():
    df_processed.at[idx, 'Class Name'] = newsgroup_dataset.target_names[row['Label']]

  return df_processed
# Apply preprocessing function to training and test datasets
df_train = preprocess_newsgroup_data(newsgroups_train)
df_test = preprocess_newsgroup_data(newsgroups_test)


بعد ذلك، ستقوم بأخذ عينة من بعض البيانات عن طريق أخذ 100 نقطة بيانات في مجموعة بيانات التدريب، وإسقاط بعض الفئات لتشغيلها من خلال هذا البرنامج التعليمي. اختيار الفئات العلمية لمقارنتها

def sample_data(df, num_samples, classes_to_keep):
  df = df.groupby('Label', as_index = False).apply(lambda x: x.sample(num_samples)).reset_index(drop=True)

  df = df[df['Class Name'].str.contains(classes_to_keep)]

  # Reset the encoding of the labels after sampling and dropping certain categories
  df['Class Name'] = df['Class Name'].astype('category')
  df['Encoded Label'] = df['Class Name'].cat.codes

  return df
CLASSES_TO_KEEP = 'sci' # Class name should contain 'sci' in it to keep science categories
df_train = sample_data(df_train, TRAIN_NUM_SAMPLES, CLASSES_TO_KEEP)
df_test = sample_data(df_test, TEST_NUM_SAMPLES, CLASSES_TO_KEEP)
df_train.value_counts('Class Name')
Class Name
sci.crypt          100
sci.electronics    100
sci.med            100
sci.space          100
dtype: int64
df_test.value_counts('Class Name')
Class Name
sci.crypt          25
sci.electronics    25
sci.med            25
sci.space          25
dtype: int64

إنشاء التضمينات

في هذا القسم، ستطّلع على كيفية إنشاء عمليات تضمين لجزء من النص باستخدام التضمينات من واجهة برمجة تطبيقات Gemini. للاطّلاع على مزيد من المعلومات عن عمليات التضمين، انتقِل إلى دليل عمليات التضمين.

تغييرات واجهة برمجة التطبيقات على التضمينات-001

بالنسبة إلى نموذج التضمين الجديد، تتوفّر معلَمة نوع مهمة جديدة وعنوان اختياري (صالح فقط مع task_type=RETRIEVAL_DOCUMENT).

لا تنطبق هذه المَعلمات الجديدة إلّا على أحدث نماذج التضمينات.وفي ما يلي أنواع المهام:

نوع المهمة الوصف
RETRIEVAL_QUERY لتحديد النص المحدد عبارة عن طلب بحث في إعداد بحث/استرداد.
RETRIEVAL_DOCUMENT لتحديد النص المحدد هو مستند في إعداد البحث/الاسترجاع.
SEMANTIC_SIMILARITY لتحديد هذا الخيار، سيتم استخدام النص المحدَّد في التشابه الدلالي (STS).
التصنيف تُحدِّد أنه سيتم استخدام التضمينات للتصنيف.
التجميع تحدّد هذه السمة أنّه سيتم استخدام التضمينات للتجميع العنقودي.
from tqdm.auto import tqdm

from google.api_core import retry

def make_embed_text_fn(model):

  def embed_fn(text: str) -> list[float]:
    # Set the task_type to CLASSIFICATION.
    embedding = genai.embed_content(model=model,
    return embedding['embedding']

  return embed_fn

def create_embeddings(model, df):
  df['Embeddings'] = df['Text'].progress_apply(make_embed_text_fn(model))
  return df
model = 'models/embedding-001'
df_train = create_embeddings(model, df_train)
df_test = create_embeddings(model, df_test)
إنشاء نموذج تصنيف بسيط

ستقوم هنا بتعريف نموذج بسيط بطبقة مخفية واحدة وناتج احتمالية من فئة واحدة. سيتجاوب التوقع مع احتمالية انتماء جزء من النص لفئة معينة من الأخبار. عند إنشاء النموذج، ستعمل Keras تلقائيًا على ترتيب نقاط البيانات عشوائيًا.

def build_classification_model(input_size: int, num_classes: int) -> keras.Model:
  inputs = x = keras.Input(input_size)
  x = layers.Dense(input_size, activation='relu')(x)
  x = layers.Dense(num_classes, activation='sigmoid')(x)
  return keras.Model(inputs=[inputs], outputs=x)
# Derive the embedding size from the first training element.
embedding_size = len(df_train['Embeddings'].iloc[0])

# Give your model a different name, as you have already used the variable name 'model'
classifier = build_classification_model(embedding_size, len(df_train['Class Name'].unique()))

classifier.compile(loss = keras.losses.SparseCategoricalCrossentropy(from_logits=True),
                   optimizer = keras.optimizers.Adam(learning_rate=0.001),
تدريب النموذج على تصنيف المجموعات الإخبارية

وأخيرًا، يمكنك تدريب نموذج بسيط. استخدم عددًا صغيرًا من الحقبات لتجنب فرط التخصيص. تستغرق الفترة الأولى وقتًا أطول من غيرها، إذ يجب حساب التضمينات مرة واحدة فقط.


# Split the x and y components of the train and validation subsets.
y_train = df_train['Encoded Label']
x_train = np.stack(df_train['Embeddings'])
y_val = df_test['Encoded Label']
x_val = np.stack(df_test['Embeddings'])

# Train the model for the desired number of epochs.
callback = keras.callbacks.EarlyStopping(monitor='accuracy', patience=3)

history = classifier.fit(x=x_train,
                         validation_data=(x_val, y_val),
تقييم أداء النموذج

استخدِم Keras Model.evaluate للحصول على دقة وفقدان مجموعة بيانات الاختبار.

لتقييم أداء النموذج، يمكنك عرض أداء المصنِّف. استخدِم plot_history للاطّلاع على مؤشرات الخسارة والدقة على مدار الفترات.

def plot_history(history):
    Plotting training and validation learning curves.

      history: model history with all the metric measures
  fig, (ax1, ax2) = plt.subplots(1,2)
  fig.set_size_inches(20, 8)

  # Plot loss
  ax1.plot(history.history['loss'], label = 'train')
  ax1.plot(history.history['val_loss'], label = 'test')

  ax1.legend(['Train', 'Validation'])

  # Plot accuracy
  ax2.plot(history.history['accuracy'],  label = 'train')
  ax2.plot(history.history['val_accuracy'], label = 'test')
  ax2.legend(['Train', 'Validation'])




هناك طريقة أخرى لعرض أداء النموذج، بخلاف قياس الخسارة والدقة، وهي استخدام مصفوفة التشويش. وتتيح لك مصفوفة التشويش تقييم أداء نموذج التصنيف بطريقة تتجاوز الدقة. ستظهر لك النقاط التي تم تصنيفها بشكل خاطئ. ولإنشاء مصفوفة التشويش لمشكلة التصنيف متعدد الفئات، احصل على القيم الفعلية في مجموعة الاختبار والقيم المتنبأ بها.

ابدأ بإنشاء الفئة المتوقّعة لكل مثال في مجموعة التحقّق باستخدام Model.predict().

y_hat = classifier.predict(x=x_val)
y_hat = np.argmax(y_hat, axis=1)
cm = skmetrics.confusion_matrix(y_val, y_hat)
disp = skmetrics.ConfusionMatrixDisplay(confusion_matrix=cm,
plt.title('Confusion matrix for newsgroup test dataset');


الخطوات التالية

