Выпущена версия Gemma 4 с возможностью ввода текста, аудио и изображений, а также с контекстным окном длиной до 256 КБ! Узнайте больше.

Эта страница переведена с помощью Cloud Translation API.

Понимание звука

Посмотреть на ai.google.dev

Запустить в Google Colab

Запуск в Kaggle

Открыть в Vertex AI

Посмотреть исходный код на GitHub

Начиная с Gemma 3n , вы можете использовать аудио непосредственно в своих подсказках и рабочих процессах. Аудио и устная речь являются богатыми источниками данных для фиксации намерений пользователей, записи информации об окружающем мире и понимания конкретных проблем, которые необходимо решить.

В этом руководстве представлен обзор возможностей обработки звука в Gemma 4 , включая автоматическое распознавание речи (ASR), перевод и общее понимание речи.

Этот ноутбук будет работать на графическом процессоре T4.

Установите пакеты Python.

Установите библиотеки Hugging Face, необходимые для запуска модели Gemma и отправки запросов.

# Install PyTorch & other libraries
pip install torch accelerate

# Install the transformers library
pip install "transformers>=5.10.1"

Модель нагрузки

Используйте библиотеки transformers для создания экземпляра processor и model с помощью классов AutoProcessor и AutoModelForImageTextToText , как показано в следующем примере кода:

MODEL_ID = "google/gemma-4-E2B-it" # @param ["google/gemma-4-E2B-it","google/gemma-4-E4B-it", "google/gemma-4-12B-it"]

from transformers import pipeline

pipe = pipeline(
    task="any-to-any",
    model=MODEL_ID,
    device_map="auto",
    dtype="auto"
)

config.json:   0%|          | 0.00/4.95k [00:00<?, ?B/s]
model.safetensors:   0%|          | 0.00/10.2G [00:00<?, ?B/s]
Loading weights:   0%|          | 0/1951 [00:00<?, ?it/s]
generation_config.json:   0%|          | 0.00/208 [00:00<?, ?B/s]
processor_config.json:   0%|          | 0.00/1.69k [00:00<?, ?B/s]
chat_template.jinja:   0%|          | 0.00/17.3k [00:00<?, ?B/s]
tokenizer_config.json:   0%|          | 0.00/2.10k [00:00<?, ?B/s]
tokenizer.json:   0%|          | 0.00/32.2M [00:00<?, ?B/s]

Аудиоданные

Цифровые аудиоданные могут быть представлены во многих форматах и уровнях разрешения. Фактические форматы аудио, которые вы можете использовать с Gemma, такие как MP3 и WAV, определяются выбранной вами платформой для преобразования звуковых данных в тензоры. Вот несколько конкретных соображений по подготовке аудиоданных для обработки с помощью Gemma:

Стоимость токенов: каждая секунда аудиозаписи стоит 25 токенов для Gemma 4 (6,25 токенов для Gemma 3n).
Длительность аудиозаписи: максимальная поддерживаемая длительность аудиозаписи составляет 30 секунд.
Аудиоканалы: Аудиоданные обрабатываются как один аудиоканал. Если вы используете многоканальный звук, например, левый и правый каналы, рассмотрите возможность сведения данных к одному каналу путем удаления каналов или объединения звуковых данных в один канал.
Техническое кодирование:
- Частота дискретизации: 16 кГц
- Глубина разрядности: 32-битный формат с плавающей запятой, с нормализацией значений в диапазоне [-1, 1].

Если обрабатываемые вами аудиоданные существенно отличаются от входных данных, особенно по количеству каналов, частоте дискретизации и битовой глубине, рассмотрите возможность передискретизации или обрезки аудиоданных в соответствии с разрешением данных, обрабатываемых моделью.

кодирование аудио

Хотя высокоуровневые библиотеки (такие как Hugging Face AutoProcessor ) часто обрабатывают предварительную обработку звука автоматически, иногда может потребоваться реализовать собственное кодирование.

При кодировании аудиоданных с помощью собственной реализации кода для использования с Gemma следует следовать рекомендуемому процессу преобразования. Если вы работаете с аудиофайлами, закодированными в определенном формате, например, MP3 или WAV, необходимо сначала декодировать их в сэмплы с помощью такой библиотеки, как ffmpeg . После декодирования данных преобразуйте аудио в монофонические волновые формы float32 с частотой 16 кГц в диапазоне [-1, 1]. Например, если вы работаете со стереофоническими WAV-файлами с 16-битным PCM-кодом и частотой 44,1 кГц, выполните следующие шаги:

Передискретизируйте аудиоданные до 16 кГц.
Преобразование стереосигнала в моно осуществляется путем усреднения двух каналов.
Преобразовать из типа int16 в float32 и разделить на 32768,0, чтобы масштабировать до диапазона [-1, 1].

Примечание: При передискретизации звука до 16 кГц для достижения наилучших результатов следует использовать метод Фурье, например, scipy.signal.resample или librosa.sample(res_type ='scipy') .

Преобразование речи в текст

Модели Gemma 4 E2B, E4B и 12B Unified обучены распознаванию речи на нескольких языках, что позволяет преобразовывать аудиовход на разных языках в текст.

Для распознавания речи по аудиосигналу (ASR) используйте следующую структуру подсказок.

Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.

Приведенные ниже примеры кода показывают, как заставить модель расшифровывать текст из аудиофайлов с помощью Hugging Face Transformers:

from transformers import GenerationConfig
config = GenerationConfig.from_pretrained(MODEL_ID)
config.max_new_tokens = 64
gen_kwargs = dict(generation_config=config)

RESOURCE_URL_PREFIX = "https://raw.githubusercontent.com/google-gemma/cookbook/refs/heads/main/apps/sample-data/"

messages = [
    {
        "role": "user",
        "content": [
            {"type": "text", "text": "Transcribe the following speech segment in its original language. Follow these specific instructions for formatting the answer:\n* Only output the transcription, with no newlines.\n* When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three."},
            #{"type": "text", "text": "Transcribe the following speech segment in English into English text. Follow these specific instructions for formatting the answer:\n* Only output the transcription, with no newlines.\n* When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three."},
            {"type": "audio", "audio": f"{RESOURCE_URL_PREFIX}journal1.wav"},
        ]
    }
]

outputs = pipe(messages, return_full_text=False, generate_kwargs=gen_kwargs)
print(outputs[0]['generated_text'])

I woke up early today feeling really fresh the morning light was beautiful and I enjoyed a nice cup of coffee<turn|>

from transformers import GenerationConfig
config = GenerationConfig.from_pretrained(MODEL_ID)
config.max_new_tokens = 1024
gen_kwargs = dict(generation_config=config)

messages = [
    {
        "role": "user",
        "content": [
            {"type": "text", "text": "Give me a concise overview of these audio files."},
            {"type": "text", "text": "journal1:"},
            {"type": "audio", "audio": f"{RESOURCE_URL_PREFIX}journal1.wav"},
            {"type": "text", "text": "journal2:"},
            {"type": "audio", "audio": f"{RESOURCE_URL_PREFIX}journal2.wav"},
            {"type": "text", "text": "journal3:"},
            {"type": "audio", "audio": f"{RESOURCE_URL_PREFIX}journal3.wav"},
            {"type": "text", "text": "journal4:"},
            {"type": "audio", "audio": f"{RESOURCE_URL_PREFIX}journal4.wav"},
            {"type": "text", "text": "journal5:"},
            {"type": "audio", "audio": f"{RESOURCE_URL_PREFIX}journal5.wav"},
        ]
    }
]

outputs = pipe(messages, return_full_text=False, generate_kwargs=gen_kwargs)
print(outputs[0]['generated_text'])

Here is a concise overview of each audio file:

**journal1:** The speaker describes a fresh and peaceful day, enjoying a cup of coffee.
**journal2:** The speaker had a perfect day at the park, including a walk and watching cherry blossoms.
**journal3:** The speaker finished the day with a good book, feeling grateful for simple moments.
**journal4:** The speaker returned from work and noted the beautiful night sky and a clear view from the train.
**journal5:** The speaker had a great lunch with an old friend, which was a pleasant way to catch up and made their day.
<turn|>

Автоматический перевод речи

Gemma 4 E2B, E4B и 12B Unified обучены для решения задач многоязычного перевода речи, позволяя переводить устную речь непосредственно на другой язык.

Для автоматического перевода речи (AST) используйте следующую структуру подсказок.

Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

Приведенные ниже примеры кода показывают, как заставить модель преобразовывать произнесенную речь в текст с помощью Hugging Face Transformers:

from transformers import GenerationConfig
config = GenerationConfig.from_pretrained(MODEL_ID)
config.max_new_tokens = 64
gen_kwargs = dict(generation_config=config)

messages = [
    {
        "role": "user",
        "content": [
            {"type": "text", "text": "Transcribe the following speech segment in English, then translate it into Korean. When formatting the answer, first output the transcription in English, then one newline, then output the string 'Korean: ', then the translation in Korean."},
            {"type": "audio", "audio": "https://ai.google.dev/gemma/docs/audio/roses-are.wav"},
        ]
    }
]

outputs = pipe(messages, return_full_text=False, generate_kwargs=gen_kwargs)
print(outputs[0]['generated_text'])

Roses are red, violets are blue.
Korean: 장미는 빨갛고, 제비꽃은 파랗다.<turn|>

Автоматический перевод речи / Автоматическое распознавание речи

Попробуйте сами.

pip install ipywebrtc

Нажмите на кнопку с кругом и начните говорить. Нажмите на кнопку с кругом еще раз, когда закончите. Виджет немедленно начнет воспроизводить записанный текст.

from google.colab import output
output.enable_custom_widget_manager()

from ipywebrtc import AudioRecorder, CameraStream

camera = CameraStream(constraints={'audio': True,'video':False})
recorder = AudioRecorder(stream=camera)
recorder

AudioRecorder(audio=Audio(value=b'', format='webm'), stream=CameraStream(constraints={'audio': True, 'video': …

Преобразовать файл webm в формат wav, понятный PyTorch.

with open('/content/recording.webm', 'wb') as f:
    f.write(recorder.audio.value)
!ffmpeg -i /content/recording.webm /content/recording.wav -y

ffmpeg version 4.4.2-0ubuntu0.22.04.1 Copyright (c) 2000-2021 the FFmpeg developers
  built with gcc 11 (Ubuntu 11.2.0-19ubuntu1)
  configuration: --prefix=/usr --extra-version=0ubuntu0.22.04.1 --toolchain=hardened --libdir=/usr/lib/x86_64-linux-gnu --incdir=/usr/include/x86_64-linux-gnu --arch=amd64 --enable-gpl --disable-stripping --enable-gnutls --enable-ladspa --enable-libaom --enable-libass --enable-libbluray --enable-libbs2b --enable-libcaca --enable-libcdio --enable-libcodec2 --enable-libdav1d --enable-libflite --enable-libfontconfig --enable-libfreetype --enable-libfribidi --enable-libgme --enable-libgsm --enable-libjack --enable-libmp3lame --enable-libmysofa --enable-libopenjpeg --enable-libopenmpt --enable-libopus --enable-libpulse --enable-librabbitmq --enable-librubberband --enable-libshine --enable-libsnappy --enable-libsoxr --enable-libspeex --enable-libsrt --enable-libssh --enable-libtheora --enable-libtwolame --enable-libvidstab --enable-libvorbis --enable-libvpx --enable-libwebp --enable-libx265 --enable-libxml2 --enable-libxvid --enable-libzimg --enable-libzmq --enable-libzvbi --enable-lv2 --enable-omx --enable-openal --enable-opencl --enable-opengl --enable-sdl2 --enable-pocketsphinx --enable-librsvg --enable-libmfx --enable-libdc1394 --enable-libdrm --enable-libiec61883 --enable-chromaprint --enable-frei0r --enable-libx264 --enable-shared
  libavutil      56. 70.100 / 56. 70.100
  libavcodec     58.134.100 / 58.134.100
  libavformat    58. 76.100 / 58. 76.100
  libavdevice    58. 13.100 / 58. 13.100
  libavfilter     7.110.100 /  7.110.100
  libswscale      5.  9.100 /  5.  9.100
  libswresample   3.  9.100 /  3.  9.100
  libpostproc    55.  9.100 / 55.  9.100
Input #0, matroska,webm, from '/content/recording.webm':
  Metadata:
    encoder         : Chrome
  Duration: 00:00:03.00, start: 0.000000, bitrate: 132 kb/s
  Stream #0:0(eng): Audio: opus, 48000 Hz, mono, fltp (default)
Stream mapping:
  Stream #0:0 -> #0:0 (opus (native) -> pcm_s16le (native))
Press [q] to stop, [?] for help
Output #0, wav, to '/content/recording.wav':
  Metadata:
    ISFT            : Lavf58.76.100
  Stream #0:0(eng): Audio: pcm_s16le ([1][0][0][0] / 0x0001), 48000 Hz, mono, s16, 768 kb/s (default)
    Metadata:
      encoder         : Lavc58.134.100 pcm_s16le
size=     287kB time=00:00:02.99 bitrate= 783.7kbits/s speed=79.4x    
video:0kB audio:287kB subtitle:0kB other streams:0kB global headers:0kB muxing overhead: 0.026552%

АСР

from transformers import GenerationConfig
config = GenerationConfig.from_pretrained(MODEL_ID)
config.max_new_tokens = 64
gen_kwargs = dict(generation_config=config)

messages = [{
  "role": "user",
  "content": [
    {"type": "text", "text": "Transcribe the following speech segment in its original language. Follow these specific instructions for formatting the answer:\n* Only output the transcription, with no newlines.\n* When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three."},
    {"type": "audio", "audio": "/content/recording.wav"},
  ]
}]

outputs = pipe(messages, return_full_text=False, generate_kwargs=gen_kwargs)
print(outputs[0]['generated_text'])

How can I get to the station?<turn|>

АСТ

messages = [{
  "role": "user",
  "content": [
    {"type": "text", "text": "Transcribe the following speech segment in English, then translate it into Korean. When formatting the answer, first output the transcription in English, then one newline, then output the string 'Korean: ', then the translation in Korean."},
    {"type": "audio", "audio": "/content/recording.wav"},
  ]
}]

outputs = pipe(messages, return_full_text=False, generate_kwargs=gen_kwargs)
print(outputs[0]['generated_text'])

How can I get to the station?
Korean: 역에 어떻게 가나요?<turn|>

Краткое изложение и дальнейшие шаги

В этом руководстве вы узнали, как обрабатывать аудио с помощью моделей Gemma 4. Примеры демонстрировали, как выполнять преобразование речи в текст (ASR) для транскрипции устной речи, а также автоматический перевод речи (AST) для прямого перевода устной речи на другой язык. Вы также увидели, как захватывать аудио с микрофона в среде ноутбука для обработки.

Для получения дополнительной информации ознакомьтесь со следующей документацией.