Generación de música en tiempo real con Lyria RealTime

La API de Gemini, que usa Lyria RealTime, proporciona acceso a un modelo de generación de música en tiempo real y de transmisión de vanguardia. Permite que los desarrolladores compilen aplicaciones en las que los usuarios puedan crear, dirigir de forma continua y ejecutar música instrumental de manera interactiva.

La generación de música de Lyria RealTime usa una conexión de transmisión persistente, bidireccional, de baja latencia con WebSocket.

Para experimentar lo que se puede compilar con Lyria RealTime, pruébalo en AI Studio con las apps Prompt DJ o MIDI DJ.

Genera y controla música

Lyria RealTime funciona de manera similar a la API de Live , ya que usa WebSockets para mantener la comunicación en tiempo real con el modelo.

En el siguiente código, se muestra cómo generar música:

Python

En este ejemplo, se inicializa la sesión de Lyria RealTime con client.aio.live.music.connect(), luego se envía un mensaje inicial con session.set_weighted_prompts() junto con una configuración inicial con session.set_music_generation_config, se inicia la generación de música con session.play() y se configura receive_audio() para procesar los fragmentos de audio que recibe.

  import asyncio
  from google import genai
  from google.genai import types

  client = genai.Client(http_options={'api_version': 'v1alpha'})

  async def main():
      async def receive_audio(session):
        """Example background task to process incoming audio."""
        while True:
          async for message in session.receive():
            audio_data = message.server_content.audio_chunks[0].data
            # Process audio...
            await asyncio.sleep(10**-12)

      async with (
        client.aio.live.music.connect(model='models/lyria-realtime-exp') as session,
        asyncio.TaskGroup() as tg,
      ):
        # Set up task to receive server messages.
        tg.create_task(receive_audio(session))

        # Send initial prompts and config
        await session.set_weighted_prompts(
          prompts=[
            types.WeightedPrompt(text='minimal techno', weight=1.0),
          ]
        )
        await session.set_music_generation_config(
          config=types.LiveMusicGenerationConfig(bpm=90, temperature=1.0)
        )

        # Start streaming music
        await session.play()
  if __name__ == "__main__":
      asyncio.run(main())

JavaScript

En este ejemplo, se inicializa la sesión de Lyria RealTime con client.live.music.connect(), luego se envía un mensaje inicial con session.setWeightedPrompts() junto con una configuración inicial con session.setMusicGenerationConfig, se inicia la generación de música con session.play() y se configura una devolución de llamada onMessage para procesar los fragmentos de audio que recibe.

import { GoogleGenAI } from "@google/genai";
import Speaker from "speaker";
import { Buffer } from "buffer";

const client = new GoogleGenAI({
  apiKey: GEMINI_API_KEY,
    apiVersion: "v1alpha" ,
});

async function main() {
  const speaker = new Speaker({
    channels: 2,       // stereo
    bitDepth: 16,      // 16-bit PCM
    sampleRate: 44100, // 44.1 kHz
  });

  const session = await client.live.music.connect({
    model: "models/lyria-realtime-exp",
    callbacks: {
      onmessage: (message) => {
        if (message.serverContent?.audioChunks) {
          for (const chunk of message.serverContent.audioChunks) {
            const audioBuffer = Buffer.from(chunk.data, "base64");
            speaker.write(audioBuffer);
          }
        }
      },
      onerror: (error) => console.error("music session error:", error),
      onclose: () => console.log("Lyria RealTime stream closed."),
    },
  });

  await session.setWeightedPrompts({
    weightedPrompts: [
      { text: "Minimal techno with deep bass, sparse percussion, and atmospheric synths", weight: 1.0 },
    ],
  });

  await session.setMusicGenerationConfig({
    musicGenerationConfig: {
      bpm: 90,
      temperature: 1.0,
      audioFormat: "pcm16",  // important so we know format
      sampleRateHz: 44100,
    },
  });

  await session.play();
}

main().catch(console.error);

Luego, puedes usar session.play(), session.pause(), session.stop() y session.reset_context() para iniciar, pausar, detener o restablecer la sesión.

Dirige la música en tiempo real

Puedes dirigir la generación de música en tiempo real enviando mensajes y actualizando los parámetros de generación en tiempo real.

Mensaje de Lyria RealTime

Mientras la transmisión esté activa, puedes enviar mensajes WeightedPrompt nuevos en cualquier momento para alterar la música generada. El modelo realizará una transición fluida en función de la nueva entrada.

Los mensajes deben seguir el formato correcto con un text (el mensaje real) y un weight. El weight puede tomar cualquier valor, excepto 0. Por lo general, 1.0 es un buen punto de partida.

Python

  from google.genai import types

  await session.set_weighted_prompts(
    prompts=[
      {"text": "Piano", "weight": 2.0},
      types.WeightedPrompt(text="Meditation", weight=0.5),
      types.WeightedPrompt(text="Live Performance", weight=1.0),
    ]
  )

JavaScript

  await session.setMusicGenerationConfig({
    weightedPrompts: [
      { text: 'Harmonica', weight: 0.3 },
      { text: 'Afrobeat', weight: 0.7 }
    ],
  });

Ten en cuenta que las transiciones del modelo pueden ser un poco abruptas cuando se cambian drásticamente los mensajes, por lo que se recomienda implementar algún tipo de fundido cruzado enviando valores de peso intermedios al modelo.

Actualiza la configuración

Puedes dirigir la generación de música actualizando los parámetros de generación de música en tiempo real. No puedes actualizar un parámetro, debes establecer toda la configuración. De lo contrario, los otros campos se restablecerán a sus valores predeterminados.

Dado que actualizar el BPM o la escala es un cambio drástico para el modelo, también deberás indicarle que restablezca su contexto con reset_context() para tener en cuenta la nueva configuración. No detendrá la transmisión, pero será una transición difícil. No es necesario que lo hagas para los otros parámetros.

Python

  from google.genai import types

  await session.set_music_generation_config(
    config=types.LiveMusicGenerationConfig(
      bpm=128,
      scale=types.Scale.D_MAJOR_B_MINOR,
      music_generation_mode=types.MusicGenerationMode.QUALITY
    )
  )
  await session.reset_context();

JavaScript

  await session.setMusicGenerationConfig({
    musicGenerationConfig: { 
      bpm: 120,
      density: 0.75,
      musicGenerationMode: MusicGenerationMode.QUALITY
    },
  });
  await session.reset_context();

Guía de mensajes para Lyria RealTime

Esta es una lista no exhaustiva de mensajes que puedes usar para solicitar Lyria RealTime:

  • Instrumentos: 303 Acid Bass, 808 Hip Hop Beat, Accordion, Alto Saxophone, Bagpipes, Balalaika Ensemble, Banjo, Bass Clarinet, Bongos, Boomy Bass, Bouzouki, Buchla Synths, Cello, Charango, Clavichord, Conga Drums, Didgeridoo, Dirty Synths, Djembe, Drumline, Dulcimer, Fiddle, Flamenco Guitar, Funk Drums, Glockenspiel, Guitar, Hang Drum, Harmonica, Harp, Harpsichord, Hurdy-gurdy, Kalimba, Koto, Lyre, Mandolin, Maracas, Marimba, Mbira, Mellotron, Metallic Twang, Moog Oscillations, Ocarina, Persian Tar, Pipa, Precision Bass, Ragtime Piano, Rhodes Piano, Shamisen, Shredding Guitar, Sitar, Slide Guitar, Smooth Pianos, Spacey Synths, Steel Drum, Synth Pads, Tabla, TR-909 Drum Machine, Trumpet, Tuba, Vibraphone, Viola Ensemble, Warm Acoustic Guitar, Woodwinds, ...
  • Género musical: Acid Jazz, Afrobeat, Alternative Country, Baroque, Bengal Baul, Bhangra, Bluegrass, Blues Rock, Bossa Nova, Breakbeat, Celtic Folk, Chillout, Chiptune, Classic Rock, Contemporary R&B, Cumbia, Deep House, Disco Funk, Drum & Bass, Dubstep, EDM, Electro Swing, Funk Metal, G-funk, Garage Rock, Glitch Hop, Grime, Hyperpop, Indian Classical, Indie Electronic, Indie Folk, Indie Pop, Irish Folk, Jam Band, Jamaican Dub, Jazz Fusion, Latin Jazz, Lo-Fi Hip Hop, Marching Band, Merengue, New Jack Swing, Minimal Techno, Moombahton, Neo-Soul, Orchestral Score, Piano Ballad, Polka, Post-Punk, 60s Psychedelic Rock, Psytrance, R&B, Reggae, Reggaeton, Renaissance Music, Salsa, Shoegaze, Ska, Surf Rock, Synthpop, Techno, Trance, Trap Beat, Trip Hop, Vaporwave, Witch house, ...
  • Estado de ánimo/Descripción: Acoustic Instruments, Ambient, Bright Tones, Chill, Crunchy Distortion, Danceable, Dreamy, Echo, Emotional, Ethereal Ambience, Experimental, Fat Beats, Funky, Glitchy Effects, Huge Drop, Live Performance, Lo-fi, Ominous Drone, Psychedelic, Rich Orchestration, Saturated Tones, Subdued Melody, Sustained Chords, Swirling Phasers, Tight Groove, Unsettling, Upbeat, Virtuoso, Weird Noises, ...

Estos son solo algunos ejemplos. Lyria RealTime puede hacer mucho más. Experimenta con tus propios mensajes.

Prácticas recomendadas

  • Las aplicaciones cliente deben implementar un almacenamiento en búfer de audio sólido para garantizar una reproducción fluida. Esto ayuda a tener en cuenta la fluctuación de la red y las pequeñas variaciones en la latencia de generación.
  • Instrucciones eficaces:
    • Sea descriptivo. Usa adjetivos que describan el estado de ánimo, el género y la instrumentación.
    • Itera y dirige de forma gradual. En lugar de cambiar por completo el mensaje, intenta agregar o modificar elementos para transformar la música de manera más fluida.
    • Experimenta con el peso en WeightedPrompt para influir en la intensidad con la que un mensaje nuevo afecta la generación en curso.

Detalles técnicos

En esta sección, se describen los detalles específicos para usar la generación de música de Lyria RealTime.

Especificaciones

  • Formato de salida: Audio PCM sin procesar de 16 bits
  • Tasa de muestreo: 48 kHz
  • Canales: 2 (estéreo)

Controles

La generación de música se puede influir en tiempo real enviando mensajes que contengan lo siguiente:

  • WeightedPrompt: Es una cadena de texto que describe una idea musical, un género, un instrumento, un estado de ánimo o una característica. Se pueden proporcionar varios mensajes para combinar influencias. Consulta lo anterior para obtener más detalles sobre cómo solicitar Lyria RealTime de la mejor manera.
  • MusicGenerationConfig: Es la configuración para el proceso de generación de música, que influye en las características del audio de salida. Los parámetros incluyen lo siguiente:
    • guidance: (float) Rango: [0.0, 6.0]. Valor predeterminado: 4.0. Controla la rigidez con la que el modelo sigue los mensajes. Una orientación más alta mejora el cumplimiento del mensaje, pero hace que las transiciones sean más abruptas.
    • bpm: (int) Rango: [60, 200]. Establece los latidos por minuto que deseas para la música generada. Debes detener o reproducir el contexto para que el modelo tenga en cuenta el nuevo BPM.
    • density: (float) Rango: [0.0, 1.0]. Controla la densidad de las notas o los sonidos musicales. Los valores más bajos producen música más dispersa, mientras que los valores más altos producen música más “ocupada”.
    • brightness: (float) Rango: [0.0, 1.0]. Ajusta la calidad tonal. Los valores más altos producen audio con un sonido más “brillante”, que, por lo general, enfatiza las frecuencias más altas.
    • scale: (Enum) Establece la escala musical (clave y modo) para la generación. Usa los valores de enum Scale que proporciona el SDK. Debes detener o reproducir el contexto para que el modelo tenga en cuenta la nueva escala.
    • mute_bass: (bool) Valor predeterminado: False. Controla si el modelo reduce el bajo de los resultados.
    • mute_drums: (bool) Valor predeterminado: False. Controla si el modelo reduce la batería de los resultados.
    • only_bass_and_drums: (bool) Valor predeterminado: False. Dirige el modelo para que intente generar solo bajo y batería.
    • music_generation_mode: (Enum) Indica al modelo si debe enfocarse en la QUALITY (valor predeterminado) o la DIVERSITY de la música. También se puede establecer en VOCALIZATION para permitir que el modelo genere vocalizaciones como otro instrumento (agrégalas como mensajes nuevos).
  • PlaybackControl: Son comandos para controlar aspectos de la reproducción, como reproducir, pausar, detener o restablecer el contexto.

Para bpm, density, brightness y scale, si no se proporciona ningún valor, el modelo decidirá qué es lo mejor según tus mensajes iniciales.

También se pueden personalizar parámetros más clásicos, como temperature (0.0 a 3.0, valor predeterminado 1.1), top_k (1 a 1,000, valor predeterminado 40) y seed (0 a 2,147,483,647, seleccionado de forma aleatoria de forma predeterminada) en MusicGenerationConfig.

Valores de enum de escala

Estos son todos los valores de escala que puede aceptar el modelo:

Valor de enum Escala / clave
C_MAJOR_A_MINOR Do mayor / La menor
D_FLAT_MAJOR_B_FLAT_MINOR Re♭ mayor / Si♭ menor
D_MAJOR_B_MINOR Re mayor / Si menor
E_FLAT_MAJOR_C_MINOR Mi♭ mayor / Do menor
E_MAJOR_D_FLAT_MINOR Mi mayor / Do♯/Re♭ menor
F_MAJOR_D_MINOR Fa mayor / Re menor
G_FLAT_MAJOR_E_FLAT_MINOR Sol♭ mayor / Mi♭ menor
G_MAJOR_E_MINOR Sol mayor / Mi menor
A_FLAT_MAJOR_F_MINOR La♭ mayor / Fa menor
A_MAJOR_G_FLAT_MINOR La mayor / Fa♯/Sol♭ menor
B_FLAT_MAJOR_G_MINOR Si♭ mayor / Sol menor
B_MAJOR_A_FLAT_MINOR Si mayor / Sol♯/La♭ menor
SCALE_UNSPECIFIED Predeterminado / El modelo decide

El modelo puede guiar las notas que se reproducen, pero no distingue entre las claves relativas. Por lo tanto, cada enum corresponde tanto a la mayor como a la menor relativa. Por ejemplo, C_MAJOR_A_MINOR correspondería a todas las teclas blancas de un piano, y F_MAJOR_D_MINOR serían todas las teclas blancas, excepto Si♭.

Limitaciones

  • Solo instrumental: El modelo genera solo música instrumental.
  • Seguridad: Los filtros de seguridad verifican los mensajes. Se ignorarán los mensajes que activen los filtros, en cuyo caso se escribirá una explicación en el campo filtered_prompt del resultado.
  • Marcas de agua: El audio de salida siempre tiene una marca de agua para la identificación según nuestros principios de IA responsable.

¿Qué sigue?

Explora el libro de recetas para obtener más ejemplos de código y instructivos.