Partager

11 décembre 2024

Gemini alimente l'expérience de calcul en langage naturel de tldraw

Vishal Dharmadhikari

Ingénieur en solutions produit

Steve Ruiz

Tldraw

Hero de la vitrine Tldraw

Interagir avec le langage naturel avec l'API Gemini

L'API Gemini permet aux développeurs d'intégrer facilement des fonctionnalités avancées d'IA dans leurs applications, ce qui ouvre de nouvelles possibilités en termes d'expérience utilisateur et de fonctionnalités. Cet article explique comment tldraw exploite Gemini pour créer une expérience révolutionnaire de "traitement du langage naturel" dans son nouveau projet, computer. Cela montre à quel point les start-up peuvent intégrer rapidement et facilement une IA puissante à l'aide de l'API Gemini et du SDK canvas de tldraw. L'équipe tldraw lancera bientôt l'ordinateur avec Gemini 1.5 Flash (inscrivez-vous sur la liste d'attente) et travaille actuellement sur le prototypage avec Gemini 2.0 Flash pour les futures itérations.

tldraw utilise l'API Gemini pour exploiter la puissance de l'IA conversationnelle dans la programmation visuelle, ce qui permet aux utilisateurs de générer du contenu et de traiter des informations à l'aide du langage naturel. Cela ouvre des perspectives intéressantes pour une expérience utilisateur plus intuitive et efficace autour de l'IA, repoussant les limites de la communication visuelle.

La vision derrière Computer

tldraw, qui s'efforce de rendre la création de diagrammes accessible et intuitive, a imaginé une façon plus naturelle pour les utilisateurs d'interagir avec leur canevas. Le fondateur Steve Ruiz a cherché à exploiter la puissance du SDK de canevas infini de tldraw pour créer un environnement dynamique permettant de travailler avec l'IA générative. Cette vision a conduit au développement de computer, une application expérimentale dans laquelle les utilisateurs créent des workflows à partir de blocs de texte, d'images et d'instructions. Lors de l'exécution, les informations circulent d'un composant à l'autre, et la sortie de chaque génération sert d'entrée à la suivante, créant ainsi des processus puissants qui se ramifient, bouclent et itèrent pour produire des sorties.

Créer avec Gemini 2.0: un aperçu détaillé d'ordinateur

L'ordinateur de tldraw est basé sur un réseau de "composants" interconnectés représentant les éléments du canevas (boîtes de texte, images, extraits audio, etc.). Ces composants sont reliés par des flèches, qui visualisent le flux de données et de transformations. Chaque composant est associé à des "procédures", c'est-à-dire des ensembles d'instructions exécutées en fonction des entrées des composants connectés. Un composant peut accepter des données de n'importe quel nombre d'autres composants et transmettre ses données de sortie à de nombreux autres composants, y compris à lui-même. Cette architecture basée sur des composants, combinée à la puissance et à la rapidité de Gemini 2.0 Flash, permet de créer un système rapide et flexible capable de gérer diverses tâches.

Programmation visuelle de l'IA de l'ordinateur tldraw avec génération de texte à l'aide de Gemini 2.0 et génération d'images avec un modèle de génération d'images

Voici comment le prototypage Gemini 2.0 Flash a permis de créer cette expérience:


  • Exécution ultra-rapide des procédures:Gemini 2.0 Flash exécute les procédures rapidement. Par exemple, un composant "Instruction" peut contenir "Rédigez une courte publicité". Quelques instants après avoir été déclenché, le composant génère un script d'étapes réutilisables pouvant transformer n'importe quelle combinaison d'entrées en script commercial. Le composant utilisera ensuite ce script, ainsi que ses entrées actuelles (par exemple, un composant "Texte" avec "Nouveaux gants connectés pour chats optimisés par l'IA"), pour envoyer une deuxième invite au modèle pour obtenir sa sortie finale. Cette sortie peut être transmise à un autre composant "Texte" associé pour l'affichage, ainsi qu'à d'autres composants connectés, comme "Speech" (Voix) pour la synthèse vocale, "Image" pour la génération visuelle ou d'autres composants "Instruction" pour une transformation ultérieure.

  • Beaucoup de contexte, de nombreux modes:l'approche maximaliste de l'ordinateur de tldraw exigeait de la vitesse, de la capacité et des fonctionnalités. Avec plusieurs composants fournissant des données pour chaque génération, la grande fenêtre de contexte de Gemini 2.0 Flash était essentielle pour produire des résultats tenant compte de toutes les entrées, tout comme la prise en charge des images et des fichiers en plus des requêtes écrites.

  • Données structurées:le flux de données entre les composants ne serait pas possible sans le respect d'un seul schéma. La sortie JSON structurée de Gemini 2.0 Flash garantit que chaque composant d'un workflow peut reconnaître des données de n'importe quel type et produire ses sorties dans la même structure, ce qui évite les blocages, fluidifie l'exécution et garantit que même les workflows volumineux seront exécutés de manière fiable.

  • Génération de procédures dynamiques:en plus d'exécuter des procédures prédéfinies, Gemini 2.0 Flash peut générer des procédures de manière dynamique. Un utilisateur peut saisir "Créer une campagne marketing basée sur cette description de produit", et Gemini 2.0 Flash génère les étapes (procédures) et les composants nécessaires, créant un workflow sur le canevas en fonction de la demande d'ordre général de l'utilisateur. Cette génération dynamique offre un potentiel immense pour des expériences utilisateur innovantes et des workflows simplifiés.

Un succès rapide pour l'innovation

L'implémentation rapide de tldraw sur ordinateur met en avant la proposition de valeur de Gemini pour les start-up: prototypage rapide, expérience utilisateur améliorée grâce à des interfaces intuitives en langage naturel et gestion efficace des données structurées grâce à des modèles tels que Gemini 2.0 Flash. Cette combinaison permet aux petites équipes de créer des fonctionnalités innovantes et optimisées par l'IA rapidement et à moindre coût.

"Nous voulons montrer que n'importe quelle équipe peut créer des projets ambitieux avec le SDK de canevas de tldraw. Gemini Flash était un moteur idéal pour un outil de workflow rapide, multimodal et basé sur un canevas. Avec Gemini 2.0 et peut-être un meilleur nom, je suis sûr que nous pourrions présenter l'ordinateur comme une start-up à part entière dès demain."

— Steve Ruis, fondateur de tldraw

Optimiser votre application avec l'API Gemini

Inspiré par le succès de tldraw ? L'API Gemini propose des modèles performants comme Gemini 1.5 Pro, Gemini 1.5 Flash et désormais Gemini 2.0 Flash en tant que modèle expérimental pour intégrer des fonctionnalités d'IA innovantes à votre application. Consultez la documentation de l'API Gemini et donnez à vos utilisateurs les moyens d'utiliser l'IA.

Pour les professionnels de la création, les développeurs et les équipes de tous types, tldraw propose une plate-forme unique et puissante pour donner vie aux idées. Rejoignez la liste d'attente pour un ordinateur. Découvrez l'avenir de la collaboration visuelle dès aujourd'hui.