Gemini alimente l'expérience "Natural Language Computing" de tldraw

Vishal Dharmadhikari

Ingénieur en solutions produit

Steve Ruiz

Tldraw

Débloquer les interactions en langage naturel avec l'API Gemini

L'API Gemini permet aux développeurs d'intégrer facilement des fonctionnalités d'IA avancées à leurs applications, ce qui ouvre de nouvelles possibilités en termes d'expérience utilisateur et de fonctionnalités. Cet article explique comment tldraw utilise Gemini pour créer une expérience révolutionnaire de "natural language computing" (informatique en langage naturel) dans son nouveau projet, computer. Cela montre la rapidité et la facilité avec lesquelles les start-ups peuvent intégrer une IA puissante à l'aide de l'API Gemini et du SDK Canvas de tldraw. L'équipe tldraw lancera bientôt computer avec Gemini 1.5 Flash (rejoignez la liste d'attente) et teste actuellement Gemini 2.0 Flash pour les futures itérations.

tldraw utilise l'API Gemini pour apporter la puissance de l'IA conversationnelle à la programmation visuelle, permettant aux utilisateurs de générer du contenu et de traiter des informations en langage naturel. Cela ouvre des perspectives intéressantes pour une expérience utilisateur plus intuitive et efficace autour de l'IA, repoussant les limites de la communication visuelle.

La vision derrière l'ordinateur

tldraw, qui s'efforce de rendre la création de diagrammes accessible et intuitive, a imaginé une façon plus naturelle pour les utilisateurs d'interagir avec leur canevas. Le fondateur, Steve Ruiz, a cherché à exploiter la puissance du SDK de canevas infini de tldraw pour créer un environnement dynamique permettant de travailler avec l'IA générative. Cette vision a conduit au développement de computer, une application expérimentale permettant aux utilisateurs de créer des workflows à partir de blocs de texte, d'images et d'instructions. Lorsqu'elles sont exécutées, les informations circulent d'un composant à l'autre, la sortie de chaque génération servant d'entrée à la suivante. Cela crée des processus puissants qui se ramifient, se répètent et s'itèrent pour produire des sorties.

Développer avec Gemini 2.0 : analyse approfondie de Computer

L'ordinateur de tldraw est basé sur un réseau de "composants" interconnectés représentant des éléments sur le canevas (zones de texte, images, extraits audio, etc.). Ces composants sont reliés par des flèches, ce qui permet de visualiser le flux de données et les transformations. Chaque composant est associé à des "procédures", c'est-à-dire des ensembles d'instructions exécutées en fonction des entrées des composants connectés. Un composant peut accepter des données provenant d'un nombre illimité d'autres composants et transmettre ses données de sortie à de nombreux autres composants, y compris à lui-même. Cette architecture basée sur des composants, combinée à la puissance et à la rapidité de Gemini 2.0 Flash, permet d'obtenir un système rapide et flexible capable de gérer diverses tâches.

Programmation visuelle de l'IA de tldraw avec génération de texte à l'aide de Gemini 2.0 et génération d'images à l'aide d'un modèle de génération d'images

Voici comment le prototypage Gemini 2.0 Flash a permis d'améliorer l'expérience :

Exécution de procédures ultra-rapide : Gemini 2.0 Flash exécute les procédures rapidement. Par exemple, un composant "Instruction" peut contenir "Rédige une courte publicité". Quelques instants après son déclenchement, le composant génère un script réutilisable d'étapes qui peut transformer n'importe quelle combinaison d'entrées en script commercial. Le composant utilisera ensuite ce script, ainsi que ses entrées actuelles (par exemple, un composant "Texte" avec "Nouveaux gants intelligents pour chats alimentés par l'IA"), pour créer une deuxième requête au modèle pour sa sortie finale. Cette sortie peut être transmise à un autre composant "Texte" associé pour l'affichage, ainsi qu'à d'autres composants connectés, comme "Discours" pour la synthèse vocale, "Image" pour la génération visuelle ou d'autres composants "Instruction" pour une transformation ultérieure.
Beaucoup de contexte, de nombreux modes : l'orientation maximaliste de l'ordinateur tldraw exigeait de la vitesse, de la capacité et des fonctionnalités. Avec plusieurs composants fournissant des données pour chaque génération, la grande fenêtre de contexte de Gemini 2.0 Flash était essentielle pour produire des résultats qui tenaient compte de toutes les entrées, tout comme sa compatibilité avec les images et les fichiers en plus des requêtes écrites.
Données structurées : le flux de données entre les composants ne serait pas possible sans l'adhésion à un schéma unique. La sortie JSON structurée de Gemini 2.0 Flash garantit que chaque composant d'un workflow peut reconnaître les données de n'importe quel type et produire ses sorties dans la même structure. Cela permet d'éviter les blocages, de fluidifier l'exécution et de s'assurer que même les workflows volumineux se termineront de manière fiable.
Génération dynamique de procédures : en plus d'exécuter des procédures prédéfinies, Gemini 2.0 Flash peut générer des procédures de manière dynamique. Un utilisateur peut saisir "crée une campagne marketing basée sur cette description de produit". Gemini 2.0 Flash génère alors les étapes (procédures) et les composants requis, en créant un workflow sur le canevas en fonction de la demande générale de l'utilisateur. Cette génération dynamique offre un potentiel énorme pour des expériences utilisateur innovantes et des workflows simplifiés.

Un objectif facile à atteindre pour l'innovation

L'implémentation rapide de tldraw met en évidence la proposition de valeur de Gemini pour les start-ups : prototypage rapide, expérience utilisateur améliorée grâce à des interfaces intuitives en langage naturel et gestion efficace des données structurées grâce à des modèles tels que Gemini 2.0 Flash. Cette combinaison permet aux petites équipes de créer des fonctionnalités innovantes basées sur l'IA rapidement et à moindre coût.

"Nous voulons montrer que n'importe quelle équipe peut créer des projets ambitieux avec le SDK de canevas de tldraw. Gemini Flash était le moteur idéal pour un outil de workflow rapide, multimodal et basé sur un canevas. Avec Gemini 2.0 et peut-être un meilleur nom, je suis presque sûr que nous pourrions présenter l'ordinateur comme une startup à part entière demain."

— Steve Ruiz, fondateur de tldraw

Exploiter l'API Gemini pour optimiser votre application

Vous êtes inspiré par le succès de tldraw ? L'API Gemini propose des modèles puissants tels que Gemini 1.5 Pro, Gemini 1.5 Flash et désormais Gemini 2.0 Flash en tant que modèle expérimental en preview pour intégrer des fonctionnalités d'IA innovantes à votre application. Explorez la documentation de l'API Gemini et offrez à vos utilisateurs le potentiel de l'IA.

tldraw offre aux professionnels de la création, aux développeurs et aux équipes de toutes sortes une plate-forme unique et puissante pour donner vie à leurs idées. Rejoignez la liste d'attente pour les ordinateurs. Découvrez l'avenir de la collaboration visuelle dès aujourd'hui.