11 de diciembre de 2024
Gemini potencia la experiencia de "computación en lenguaje natural" de tldraw

Desbloquea las interacciones en lenguaje natural con la API de Gemini
La API de Gemini permite a los desarrolladores integrar sin problemas capacidades avanzadas de IA en sus aplicaciones, lo que abre nuevas posibilidades para la experiencia del usuario y la funcionalidad. En esta publicación, se destaca cómo tldraw aprovecha Gemini para crear una experiencia revolucionaria de "computación en lenguaje natural" en su nuevo proyecto, computer. En esta demostración, se muestra la velocidad y la facilidad con las que las startups pueden integrar la IA potente con la API de Gemini y el SDK de Canvas de tldraw. El equipo de tldraw lanzará Computer con Gemini 1.5 Flash pronto (únete a la lista de espera) y, actualmente, está creando prototipos con Gemini 2.0 Flash para futuras iteraciones.
tldraw usa la API de Gemini para llevar el poder de la IA conversacional a la programación visual, lo que permite a los usuarios generar contenido y procesar información con lenguaje natural. Esto abre oportunidades interesantes para una experiencia del usuario más intuitiva y eficiente en torno a la IA, lo que amplía los límites de la comunicación visual.
La visión detrás de la computadora
tldraw, con el objetivo de hacer que la creación de diagramas sea accesible e intuitiva, imaginó una forma más natural para que los usuarios interactúen con su lienzo. El fundador Steve Ruiz buscó aprovechar el poder del SDK de lienzo infinito de tldraw para crear un entorno dinámico para trabajar con la IA generativa. Esta visión llevó al desarrollo de computer, una aplicación experimental en la que los usuarios crean flujos de trabajo a partir de bloques de texto, imágenes e instrucciones. Cuando se ejecuta, la información fluye de un componente al siguiente, y la salida de cada generación sirve como entrada para la siguiente, lo que crea procesos potentes que se ramifican, se repiten y se iteran para producir resultados.
Creación con Gemini 2.0: Análisis en profundidad de Computer
La computadora de tldraw se basa en una red de “componentes” interconectados que representan elementos en el lienzo (cuadros de texto, imágenes, clips de audio, etcétera). Estos componentes están vinculados por flechas, lo que visualiza el flujo de datos y transformaciones. Cada componente tiene "procedimientos" asociados, que son conjuntos de instrucciones que se ejecutan según las entradas de los componentes conectados. Un componente puede aceptar datos de cualquier cantidad de otros componentes y pasar sus datos de salida a muchos otros componentes, incluido él mismo. Esta arquitectura basada en componentes, combinada con la potencia y la velocidad de Gemini 2.0 Flash, permite un sistema rápido y flexible capaz de controlar diversas tareas.
Así es como la creación de prototipos de Gemini 2.0 Flash potenció la experiencia:
Ejecución de procedimientos ultrarrápida: Gemini 2.0 Flash ejecuta procedimientos rápidamente. Por ejemplo, un componente "Instrucción" podría contener "Escribe un comercial corto". En cuestión de segundos después de activarse, el componente habrá generado un guion reutilizable de pasos que puede convertir cualquier combinación de entradas en un guion comercial. Luego, el componente usará este instructivo, junto con sus entradas actuales (p.ej., un componente "Text" con "Nuevos guantes inteligentes potenciados por IA para gatos"), para crear una segunda instrucción para el modelo y obtener su resultado final. Esta salida se puede pasar a otro componente "Texto" vinculado para su visualización, así como a otros componentes conectados, como "Voz" para la conversión de texto a voz, "Imagen" para la generación visual o cualquier otro componente de "Instrucción" para una mayor transformación.
Mucho contexto, muchos modos: La tendencia maximalista de la computadora de tldraw requería velocidad, capacidad y aptitud. Dado que varios componentes proporcionan datos para cada generación, la gran ventana de contexto de Gemini 2.0 Flash fue fundamental para producir resultados que tuvieran en cuenta todas las entradas, al igual que su compatibilidad con imágenes y archivos junto con instrucciones escritas.
Datos estructurados: El flujo de datos entre los componentes no sería posible sin la adhesión a un solo esquema. El resultado JSON estructurado de Gemini 2.0 Flash garantiza que cada componente de un flujo de trabajo pueda reconocer datos de cualquier tipo y producir sus resultados en la misma estructura, lo que evita interrupciones, suaviza la ejecución y garantiza que incluso los flujos de trabajo grandes se completen de manera confiable.
Generación dinámica de procedimientos: Además de ejecutar procedimientos predefinidos, Gemini 2.0 Flash puede generar procedimientos de forma dinámica. Un usuario podría ingresar "crea una campaña de marketing basada en esta descripción del producto", y Gemini 2.0 Flash generaría los pasos (procedimientos) necesarios y los componentes requeridos, y crearía un flujo de trabajo en el lienzo basado en la solicitud de alto nivel del usuario. Esta generación dinámica libera un enorme potencial para experiencias del usuario innovadoras y flujos de trabajo optimizados.
Un logro rápido para la innovación
La rápida implementación de tldraw de los aspectos destacados de la computadora resalta la propuesta de valor de Gemini para las empresas emergentes: creación rápida de prototipos, experiencia del usuario mejorada a través de interfaces intuitivas de lenguaje natural y manejo eficiente de datos estructurados gracias a modelos como Gemini 2.0 Flash. Esta combinación permite que los equipos pequeños creen funciones innovadoras potenciadas por IA de forma rápida y rentable.
"Queremos demostrar que cualquier equipo puede crear proyectos ambiciosos con el SDK de lienzo de tldraw. Gemini Flash era el motor perfecto para una herramienta de flujo de trabajo rápida, multimodal y basada en lienzo. Con Gemini 2.0 y, tal vez, un mejor nombre, estoy seguro de que podríamos presentar la computadora como una startup independiente mañana mismo".
Potencia tu aplicación con la API de Gemini
¿Te inspiró el éxito de tldraw? La API de Gemini ofrece modelos potentes, como Gemini 1.5 Pro, Gemini 1.5 Flash y, ahora, Gemini 2.0 Flash como modelo experimental en versión preliminar para incorporar funciones innovadoras basadas en IA a tu aplicación. Explora la documentación de la API de Gemini y potencia a tus usuarios con IA.
Para los profesionales creativos, los desarrolladores y los equipos de todo tipo, tldraw ofrece una plataforma única y potente para hacer realidad las ideas. Únete a la lista de espera para computadoras. Vive el futuro de la colaboración visual hoy mismo.