Gemma 4 u lançua me hyrje teksti, audio dhe imazhi dhe dritare konteksti deri në 256K! Mësoni më shumë

Kjo faqe është përkthyer nga Cloud Translation API.

Kuptimi audio

Shiko në ai.google.dev

Ekzekuto në Google Colab

Vraponi në Kaggle

Hap në Vertex AI

Shiko burimin në GitHub

Duke filluar me Gemma 3n , mund ta përdorni audion direkt në kërkesat dhe rrjedhat e punës. Audioja dhe gjuha e folur janë burime të pasura të dhënash për të kapur qëllimet e përdoruesve, për të regjistruar informacion rreth botës përreth nesh dhe për të kuptuar problemet specifike që duhen zgjidhur.

Ky udhëzues ofron një përmbledhje të aftësive të përpunimit audio të Gemma 4 , duke përfshirë njohjen automatike të të folurit (ASR), përkthimin dhe kuptimin e përgjithshëm të të folurit.

Ky laptop do të funksionojë me GPU T4.

Instaloni paketat Python

Instaloni bibliotekat Hugging Face të nevojshme për të ekzekutuar modelin Gemma dhe për të bërë kërkesa.

# Install PyTorch & other libraries
pip install torch accelerate

# Install the transformers library
pip install "transformers>=5.10.1"

Modeli i Ngarkimit

Përdorni libraritë transformers për të krijuar një instancë të një processor dhe model duke përdorur klasat AutoProcessor dhe AutoModelForImageTextToText siç tregohet në shembullin e mëposhtëm të kodit:

MODEL_ID = "google/gemma-4-E2B-it" # @param ["google/gemma-4-E2B-it","google/gemma-4-E4B-it", "google/gemma-4-12B-it"]

from transformers import pipeline

pipe = pipeline(
    task="any-to-any",
    model=MODEL_ID,
    device_map="auto",
    dtype="auto"
)

config.json:   0%|          | 0.00/4.95k [00:00<?, ?B/s]
model.safetensors:   0%|          | 0.00/10.2G [00:00<?, ?B/s]
Loading weights:   0%|          | 0/1951 [00:00<?, ?it/s]
generation_config.json:   0%|          | 0.00/208 [00:00<?, ?B/s]
processor_config.json:   0%|          | 0.00/1.69k [00:00<?, ?B/s]
chat_template.jinja:   0%|          | 0.00/17.3k [00:00<?, ?B/s]
tokenizer_config.json:   0%|          | 0.00/2.10k [00:00<?, ?B/s]
tokenizer.json:   0%|          | 0.00/32.2M [00:00<?, ?B/s]

Të dhënat audio

Të dhënat audio dixhitale mund të vijnë në shumë formate dhe nivele rezolucioni. Formatet aktuale audio që mund të përdorni me Gemma, siç janë formatet MP3 dhe WAV, përcaktohen nga kuadri që zgjidhni për të kthyer të dhënat e zërit në tenzorë. Ja disa konsiderata specifike për përgatitjen e të dhënave audio për përpunim me Gemma:

Kostoja e tokenëve: Çdo sekondë audio është 25 token për Gemma 4. (6.25 token për Gemma 3n).
Gjatësia e klipit: Audioja mbështet një gjatësi maksimale prej 30 sekondash.
Kanalet audio: Të dhënat audio përpunohen si një kanal i vetëm audio. Nëse përdorni audio me shumë kanale, siç janë kanalet majtas dhe djathtas, merrni në konsideratë reduktimin e të dhënave në një kanal të vetëm duke hequr kanalet ose duke kombinuar të dhënat e zërit në një kanal të vetëm.
Kodimi Teknik:
- Shkalla e mostrës: 16kHz
- Thellësia e Bitit: formati 32-bit me vlerë lundruese, me mostra të normalizuara brenda diapazonit [-1, 1].

Nëse të dhënat audio që planifikoni të përpunoni ndryshojnë ndjeshëm nga përpunimi i hyrjes, veçanërisht për sa i përket kanaleve, shkallës së marrjes së mostrave dhe thellësisë së biteve, merrni në konsideratë risampling-un ose shkurtimin e të dhënave audio për t'u përputhur me rezolucionin e të dhënave të trajtuara nga modeli.

Kodimi i audios

Ndërsa bibliotekat e nivelit të lartë (siç është Hugging Face AutoProcessor ) shpesh merren automatikisht me parapërpunimin audio, ndonjëherë mund t'ju duhet të zbatoni kodim të personalizuar.

Kur kodoni të dhëna audio me implementimin tuaj të kodit për përdorim me Gemma, duhet të ndiqni procesin e rekomanduar të konvertimit. Nëse po punoni me skedarë audio të koduar në një format specifik, siç janë të dhënat e koduara MP3 ose WAV, së pari duhet t'i deshifroni këto në mostra duke përdorur një bibliotekë si ffmpeg . Pasi të jenë deshifruar të dhënat, konvertojeni audion në forma valore mono-kanalëshe, 16 kHz float32 në diapazonin [-1, 1]. Për shembull, nëse po punoni me skedarë WAV të plotë PCM 16-bitësh me nënshkrim stereo në 44.1 kHz, ndiqni këto hapa:

Ripërsërit të dhënat audio në 16 kHz
Ulni miksin nga stereo në mono duke mesatarizuar 2 kanale
Konvertoni nga int16 në float32 dhe pjesëtoni me 32768.0 për të shkallëzuar në diapazonin [-1, 1]

Shënim: Kur rimodeloni audion në 16 kHz, duhet të përdorni një metodë Fourier për rezultatet më të mira, siç janë scipy.signal.resample ose librosa.sample(res_type ='scipy') .

Të folurit në tekst

Gemma 4 E2B, E4B dhe 12B Unified janë të trajnuar për njohjen e të folurit shumëgjuhësh, duke ju lejuar të transkriptoni të dhënat audio në gjuhë të ndryshme në tekst.

Përdorni strukturën e mëposhtme të kërkesës për Njohjen e të Folurit me Audio (ASR) .

Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.

Shembujt e mëposhtëm të kodit tregojnë se si ta nxisni modelin të transkriptojë tekstin nga skedarët audio duke përdorur Hugging Face Transformers:

from transformers import GenerationConfig
config = GenerationConfig.from_pretrained(MODEL_ID)
config.max_new_tokens = 64
gen_kwargs = dict(generation_config=config)

RESOURCE_URL_PREFIX = "https://raw.githubusercontent.com/google-gemma/cookbook/refs/heads/main/apps/sample-data/"

messages = [
    {
        "role": "user",
        "content": [
            {"type": "text", "text": "Transcribe the following speech segment in its original language. Follow these specific instructions for formatting the answer:\n* Only output the transcription, with no newlines.\n* When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three."},
            #{"type": "text", "text": "Transcribe the following speech segment in English into English text. Follow these specific instructions for formatting the answer:\n* Only output the transcription, with no newlines.\n* When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three."},
            {"type": "audio", "audio": f"{RESOURCE_URL_PREFIX}journal1.wav"},
        ]
    }
]

outputs = pipe(messages, return_full_text=False, generate_kwargs=gen_kwargs)
print(outputs[0]['generated_text'])

I woke up early today feeling really fresh the morning light was beautiful and I enjoyed a nice cup of coffee<turn|>

from transformers import GenerationConfig
config = GenerationConfig.from_pretrained(MODEL_ID)
config.max_new_tokens = 1024
gen_kwargs = dict(generation_config=config)

messages = [
    {
        "role": "user",
        "content": [
            {"type": "text", "text": "Give me a concise overview of these audio files."},
            {"type": "text", "text": "journal1:"},
            {"type": "audio", "audio": f"{RESOURCE_URL_PREFIX}journal1.wav"},
            {"type": "text", "text": "journal2:"},
            {"type": "audio", "audio": f"{RESOURCE_URL_PREFIX}journal2.wav"},
            {"type": "text", "text": "journal3:"},
            {"type": "audio", "audio": f"{RESOURCE_URL_PREFIX}journal3.wav"},
            {"type": "text", "text": "journal4:"},
            {"type": "audio", "audio": f"{RESOURCE_URL_PREFIX}journal4.wav"},
            {"type": "text", "text": "journal5:"},
            {"type": "audio", "audio": f"{RESOURCE_URL_PREFIX}journal5.wav"},
        ]
    }
]

outputs = pipe(messages, return_full_text=False, generate_kwargs=gen_kwargs)
print(outputs[0]['generated_text'])

Here is a concise overview of each audio file:

**journal1:** The speaker describes a fresh and peaceful day, enjoying a cup of coffee.
**journal2:** The speaker had a perfect day at the park, including a walk and watching cherry blossoms.
**journal3:** The speaker finished the day with a good book, feeling grateful for simple moments.
**journal4:** The speaker returned from work and noted the beautiful night sky and a clear view from the train.
**journal5:** The speaker had a great lunch with an old friend, which was a pleasant way to catch up and made their day.
<turn|>

Përkthim i automatizuar i të folurit

Gemma 4 E2B, E4B dhe 12B Unified janë të trajnuar për detyra përkthimi të të folurit shumëgjuhësh, duke ju lejuar të përktheni audion e folur direkt në një gjuhë tjetër.

Përdorni strukturën e mëposhtme të kërkesës për Përkthimin Automatik të të Folurit (AST) .

Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

Shembujt e mëposhtëm të kodit tregojnë se si ta nxisni modelin të përkthejë audion e folur në tekst duke përdorur Hugging Face Transformers:

from transformers import GenerationConfig
config = GenerationConfig.from_pretrained(MODEL_ID)
config.max_new_tokens = 64
gen_kwargs = dict(generation_config=config)

messages = [
    {
        "role": "user",
        "content": [
            {"type": "text", "text": "Transcribe the following speech segment in English, then translate it into Korean. When formatting the answer, first output the transcription in English, then one newline, then output the string 'Korean: ', then the translation in Korean."},
            {"type": "audio", "audio": "https://ai.google.dev/gemma/docs/audio/roses-are.wav"},
        ]
    }
]

outputs = pipe(messages, return_full_text=False, generate_kwargs=gen_kwargs)
print(outputs[0]['generated_text'])

Roses are red, violets are blue.
Korean: 장미는 빨갛고, 제비꽃은 파랗다.<turn|>

Përkthim Automatik i të Folurit / Njohje Automatike e të Folurit

Provojeni këtë vetë

pip install ipywebrtc

Shtyp butonin e rrethit dhe fillo të flasësh. Klikoni përsëri butonin e rrethit kur të keni mbaruar. Widget-i do të fillojë menjëherë të luajë atë që ka kapur.

from google.colab import output
output.enable_custom_widget_manager()

from ipywebrtc import AudioRecorder, CameraStream

camera = CameraStream(constraints={'audio': True,'video':False})
recorder = AudioRecorder(stream=camera)
recorder

AudioRecorder(audio=Audio(value=b'', format='webm'), stream=CameraStream(constraints={'audio': True, 'video': …

Konvertoni skedarin webm në formatin wav që PyTorch mund ta kuptojë.

with open('/content/recording.webm', 'wb') as f:
    f.write(recorder.audio.value)
!ffmpeg -i /content/recording.webm /content/recording.wav -y

ffmpeg version 4.4.2-0ubuntu0.22.04.1 Copyright (c) 2000-2021 the FFmpeg developers
  built with gcc 11 (Ubuntu 11.2.0-19ubuntu1)
  configuration: --prefix=/usr --extra-version=0ubuntu0.22.04.1 --toolchain=hardened --libdir=/usr/lib/x86_64-linux-gnu --incdir=/usr/include/x86_64-linux-gnu --arch=amd64 --enable-gpl --disable-stripping --enable-gnutls --enable-ladspa --enable-libaom --enable-libass --enable-libbluray --enable-libbs2b --enable-libcaca --enable-libcdio --enable-libcodec2 --enable-libdav1d --enable-libflite --enable-libfontconfig --enable-libfreetype --enable-libfribidi --enable-libgme --enable-libgsm --enable-libjack --enable-libmp3lame --enable-libmysofa --enable-libopenjpeg --enable-libopenmpt --enable-libopus --enable-libpulse --enable-librabbitmq --enable-librubberband --enable-libshine --enable-libsnappy --enable-libsoxr --enable-libspeex --enable-libsrt --enable-libssh --enable-libtheora --enable-libtwolame --enable-libvidstab --enable-libvorbis --enable-libvpx --enable-libwebp --enable-libx265 --enable-libxml2 --enable-libxvid --enable-libzimg --enable-libzmq --enable-libzvbi --enable-lv2 --enable-omx --enable-openal --enable-opencl --enable-opengl --enable-sdl2 --enable-pocketsphinx --enable-librsvg --enable-libmfx --enable-libdc1394 --enable-libdrm --enable-libiec61883 --enable-chromaprint --enable-frei0r --enable-libx264 --enable-shared
  libavutil      56. 70.100 / 56. 70.100
  libavcodec     58.134.100 / 58.134.100
  libavformat    58. 76.100 / 58. 76.100
  libavdevice    58. 13.100 / 58. 13.100
  libavfilter     7.110.100 /  7.110.100
  libswscale      5.  9.100 /  5.  9.100
  libswresample   3.  9.100 /  3.  9.100
  libpostproc    55.  9.100 / 55.  9.100
Input #0, matroska,webm, from '/content/recording.webm':
  Metadata:
    encoder         : Chrome
  Duration: 00:00:03.00, start: 0.000000, bitrate: 132 kb/s
  Stream #0:0(eng): Audio: opus, 48000 Hz, mono, fltp (default)
Stream mapping:
  Stream #0:0 -> #0:0 (opus (native) -> pcm_s16le (native))
Press [q] to stop, [?] for help
Output #0, wav, to '/content/recording.wav':
  Metadata:
    ISFT            : Lavf58.76.100
  Stream #0:0(eng): Audio: pcm_s16le ([1][0][0][0] / 0x0001), 48000 Hz, mono, s16, 768 kb/s (default)
    Metadata:
      encoder         : Lavc58.134.100 pcm_s16le
size=     287kB time=00:00:02.99 bitrate= 783.7kbits/s speed=79.4x    
video:0kB audio:287kB subtitle:0kB other streams:0kB global headers:0kB muxing overhead: 0.026552%

ASR

from transformers import GenerationConfig
config = GenerationConfig.from_pretrained(MODEL_ID)
config.max_new_tokens = 64
gen_kwargs = dict(generation_config=config)

messages = [{
  "role": "user",
  "content": [
    {"type": "text", "text": "Transcribe the following speech segment in its original language. Follow these specific instructions for formatting the answer:\n* Only output the transcription, with no newlines.\n* When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three."},
    {"type": "audio", "audio": "/content/recording.wav"},
  ]
}]

outputs = pipe(messages, return_full_text=False, generate_kwargs=gen_kwargs)
print(outputs[0]['generated_text'])

How can I get to the station?<turn|>

AST

messages = [{
  "role": "user",
  "content": [
    {"type": "text", "text": "Transcribe the following speech segment in English, then translate it into Korean. When formatting the answer, first output the transcription in English, then one newline, then output the string 'Korean: ', then the translation in Korean."},
    {"type": "audio", "audio": "/content/recording.wav"},
  ]
}]

outputs = pipe(messages, return_full_text=False, generate_kwargs=gen_kwargs)
print(outputs[0]['generated_text'])

How can I get to the station?
Korean: 역에 어떻게 가나요?<turn|>

Përmbledhje dhe hapat e mëtejshëm

Në këtë udhëzues, mësuat se si të përpunoni audion duke përdorur modelet Gemma 4. Shembujt demonstruan se si të kryeni konvertimin e të folurit në tekst (ASR) për të transkriptuar gjuhën e folur, si dhe Përkthimin e Automatizuar të të Folurit (AST) për të përkthyer audion e folur direkt në një gjuhë tjetër. Gjithashtu patë se si të kapni audion nga një mikrofon në një mjedis fletoreje për përpunim.

Shikoni dokumentacionin e mëposhtëm për lexim të mëtejshëm.