Compartir

11 de diciembre de 2024

Gemini potencia la experiencia de "computación de lenguaje natural" de tldraw

Vishal Dharmadhikari

Ingeniero de soluciones de productos

Steve Ruiz

Tldraw

Elemento hero de la presentación de Tldraw

Desbloquea interacciones de lenguaje natural con la API de Gemini

La API de Gemini permite a los desarrolladores integrar sin problemas funciones avanzadas de IA en sus aplicaciones, lo que abre nuevas posibilidades para la experiencia del usuario y la funcionalidad. En esta publicación, se destaca cómo tldraw aprovecha Gemini para crear una experiencia revolucionaria de "computación de lenguaje natural" en su nuevo proyecto, computer. Esto demuestra la velocidad y la facilidad con las que las startups pueden integrar una IA potente con la API de Gemini y el SDK de lienzo de tldraw. El equipo de tldraw lanzará pronto una computadora con Gemini 1.5 Flash (únete a la lista de espera) y, actualmente, está creando prototipos con Gemini 2.0 Flash para iteraciones futuras.

tldraw usa la API de Gemini para llevar la potencia de la IA conversacional a la programación visual, lo que permite a los usuarios generar contenido y procesar información con lenguaje natural. Esto abre oportunidades emocionantes para una experiencia del usuario más intuitiva y eficiente en torno a la IA, lo que desafía los límites de la comunicación visual.

La visión detrás de la computadora

tldraw, que se esfuerza por hacer que la diagramación sea intuitiva y accesible, imaginó una forma más natural para que los usuarios interactúen con su lienzo. El fundador Steve Ruiz buscó aprovechar el poder del SDK de lienzo infinito de tldraw para crear un entorno dinámico para trabajar con IA generativa. Esta visión llevó al desarrollo de la computadora, una aplicación experimental en la que los usuarios crean flujos de trabajo a partir de bloques de texto, imágenes y instrucciones. Cuando se ejecuta, la información fluye de un componente al siguiente, y el resultado de cada generación sirve como entrada para la siguiente, lo que crea procesos potentes que se ramifican, iteran y repiten para producir resultados.

Cómo compilar con Gemini 2.0: un análisis detallado de Computer

La computadora de tldraw se basa en una red de “componentes” interconectados que representan elementos en el lienzo (cuadros de texto, imágenes, clips de audio, etcétera). Estos componentes están vinculados por flechas, lo que permite visualizar el flujo de datos y transformaciones. Cada componente tiene asociados "procedimientos", conjuntos de instrucciones que se ejecutan en función de las entradas de los componentes conectados. Un componente puede aceptar datos de cualquier cantidad de otros componentes y pasar sus datos de salida a muchos otros componentes, incluido él mismo. Esta arquitectura basada en componentes, combinada con la potencia y la velocidad de Gemini 2.0 Flash, permite un sistema rápido y flexible capaz de manejar diversas tareas.

Programación visual de IA de la computadora tldraw con generación de texto usando Gemini 2.0 y generación de imágenes con un modelo de generación de imágenes

A continuación, te mostramos cómo el prototipado de Gemini 2.0 Flash mejoró la experiencia:


  • Ejecución de procedimientos ultrarrápida: Gemini 2.0 Flash ejecuta procedimientos con rapidez. Por ejemplo, un componente "Instrucciones" podría contener "Escribe un comercial corto". En cuestión de segundos después de activarse, el componente habrá generado una secuencia de comandos reutilizable de pasos que puede convertir cualquier combinación de entradas en una secuencia de comandos comercial. Luego, el componente usará esta secuencia de comandos, junto con sus entradas actuales (p.ej., un componente "Text" con "Nuevos guantes inteligentes con tecnología de IA para gatos"), para hacer una segunda instrucción al modelo para obtener su resultado final. Esta salida se puede pasar a otro componente "Text" vinculado para su visualización, así como a otros componentes conectados, como "Speech" para la conversión de texto a voz, "Image" para la generación visual o a otros componentes "Instruction" para una transformación adicional.

  • Mucho contexto, muchos modos: La inclinación maximalista de la computadora de tldraw requería velocidad, capacidad y funcionalidad. Con varios componentes que proporcionan datos para cada generación, la gran ventana de contexto de Gemini 2.0 Flash fue fundamental para producir resultados que tuvieran en cuenta todas las entradas, al igual que su compatibilidad con imágenes y archivos junto con instrucciones escritas.

  • Datos estructurados: El flujo de datos entre los componentes no sería posible sin el cumplimiento de un solo esquema. El resultado JSON estructurado de Gemini 2.0 Flash garantiza que cada componente de un flujo de trabajo pueda reconocer datos de cualquier tipo y producir sus resultados en la misma estructura, lo que evita interrupciones, suaviza la ejecución y garantiza que incluso los flujos de trabajo grandes se completen de forma confiable.

  • Generación de procedimientos dinámicos: Además de ejecutar procedimientos predefinidos, Gemini 2.0 Flash puede generar procedimientos de forma dinámica. Un usuario podría ingresar "crear una campaña de marketing basada en esta descripción del producto", y Gemini 2.0 Flash generaría los pasos (procedimientos) y los componentes necesarios, y crearía un flujo de trabajo en el lienzo según la solicitud de alto nivel del usuario. Esta generación dinámica libera un enorme potencial para experiencias del usuario innovadoras y flujos de trabajo optimizados.

Una victoria rápida para la innovación

La implementación rápida de computadoras de tldraw destaca la propuesta de valor de Gemini para las startups: prototipado rápido, experiencia del usuario mejorada a través de interfaces intuitivas de lenguaje natural y manejo eficiente de datos estructurados gracias a modelos como Gemini 2.0 Flash. Esta combinación permite que los equipos pequeños creen funciones innovadoras potenciadas por IA de forma rápida y rentable.

“Queremos demostrar que cualquier equipo puede crear proyectos ambiciosos con el SDK de lienzo de tldraw. Gemini Flash era un motor perfecto para una herramienta de flujo de trabajo rápida, multimodal y basada en lienzo. Con Gemini 2.0 y, tal vez, un nombre mejor, estoy seguro de que mañana podríamos presentar Computer como su propia startup”.

— Steve Ruiz, fundador de tldraw

Fortalece tu aplicación con la API de Gemini

¿Te inspiraste en el éxito de tldraw? La API de Gemini ofrece modelos potentes, como Gemini 1.5 Pro, Gemini 1.5 Flash y, ahora, Gemini 2.0 Flash como modelo experimental de vista previa para incorporar funciones innovadoras de IA a tu aplicación. Explora la documentación de la API de Gemini y brinda a tus usuarios herramientas potenciadas por IA.

Para profesionales creativos, desarrolladores y equipos de todo tipo, tldraw ofrece una plataforma única y potente para dar vida a las ideas. Únete a la lista de espera de computadoras. Vive el futuro de la colaboración visual hoy mismo.