Gemini alimente l'expérience "Natural Language Computing" de tldraw
Vishal Dharmadhikari
Ingénieur en solutions produit
Steve Ruiz
Tldraw
Débloquer les interactions en langage naturel avec l'API Gemini
L'API Gemini permet aux développeurs d'intégrer facilement des fonctionnalités d'IA avancées à leurs applications, ce qui ouvre de nouvelles possibilités en termes d'expérience utilisateur et de fonctionnalités. Cet article explique comment tldraw utilise Gemini pour créer une expérience révolutionnaire de "natural language computing" (informatique en langage naturel) dans son nouveau projet, computer. Cette vidéo montre la rapidité et la facilité avec lesquelles les start-ups peuvent intégrer une IA puissante à l'aide de l'API Gemini et du SDK Canvas de tldraw. L'équipe tldraw lancera bientôt computer avec Gemini 1.5 Flash (rejoignez la liste d'attente) et teste actuellement Gemini 2.0 Flash pour les futures itérations.
tldraw utilise l'API Gemini pour apporter la puissance de l'IA conversationnelle à la programmation visuelle, permettant aux utilisateurs de générer du contenu et de traiter des informations en langage naturel. Cela ouvre des perspectives intéressantes pour une expérience utilisateur plus intuitive et efficace autour de l'IA, repoussant les limites de la communication visuelle.
La vision derrière l'ordinateur
tldraw, qui s'efforce de rendre la création de diagrammes accessible et intuitive, a imaginé une façon plus naturelle pour les utilisateurs d'interagir avec leur canevas. Le fondateur, Steve Ruiz, a cherché à exploiter la puissance du SDK de canevas infini de tldraw pour créer un environnement dynamique permettant de travailler avec l'IA générative. Cette vision a conduit au développement de computer, une application expérimentale dans laquelle les utilisateurs créent des workflows à partir de blocs de texte, d'images et d'instructions. Lorsqu'elles sont exécutées, les informations circulent d'un composant à l'autre, la sortie de chaque génération servant d'entrée à la suivante. Cela crée des processus puissants qui se ramifient, se répètent et s'itèrent pour produire des sorties.
Développer avec Gemini 2.0 : analyse approfondie de Computer
L'ordinateur de tldraw est basé sur un réseau de "composants" interconnectés représentant des éléments sur le canevas (zones de texte, images, extraits audio, etc.). Ces composants sont reliés par des flèches, ce qui permet de visualiser le flux de données et les transformations. Chaque composant est associé à des "procédures", c'est-à-dire des ensembles d'instructions exécutées en fonction des entrées des composants connectés. Un composant peut accepter des données provenant d'un nombre illimité d'autres composants et transmettre ses données de sortie à de nombreux autres composants, y compris à lui-même. Cette architecture basée sur des composants, combinée à la puissance et à la vitesse de Gemini 2.0 Flash, permet d'obtenir un système rapide et flexible capable de gérer diverses tâches.
Programmation visuelle de l'IA de l'ordinateur tldraw avec génération de texte à l'aide de Gemini 2.0 et génération d'images à l'aide d'un modèle de génération d'images
Voici comment le prototypage Gemini 2.0 Flash a permis d'améliorer l'expérience :
Exécution de procédures ultra-rapide : Gemini 2.0 Flash exécute les procédures rapidement. Par exemple, un composant "Instruction" peut contenir "Rédige une courte publicité". Quelques instants après son déclenchement, le composant génère un script réutilisable d'étapes qui peut transformer n'importe quelle combinaison d'entrées en script commercial. Le composant utilisera ensuite ce script, ainsi que ses entrées actuelles (par exemple, un composant "Texte" avec "Nouveaux gants intelligents pour chats alimentés par l'IA"), pour créer une deuxième requête au modèle afin d'obtenir son résultat final. Cette sortie peut être transmise à un autre composant "Texte" associé pour l'affichage, ainsi qu'à d'autres composants connectés, comme "Discours" pour la synthèse vocale, "Image" pour la génération visuelle ou d'autres composants "Instruction" pour une transformation ultérieure.
Beaucoup de contexte, de nombreux modes : l'orientation maximaliste de l'ordinateur tldraw exigeait de la vitesse, de la capacité et des fonctionnalités. Avec plusieurs composants fournissant des données pour chaque génération, la grande fenêtre de contexte de Gemini 2.0 Flash était essentielle pour produire des résultats qui tenaient compte de toutes les entrées, tout comme sa compatibilité avec les images et les fichiers en plus des requêtes écrites.
Données structurées : le flux de données entre les composants ne serait pas possible sans l'adhésion à un schéma unique. La sortie JSON structurée de Gemini 2.0 Flash garantit que chaque composant d'un workflow peut reconnaître les données de n'importe quel type et produire ses sorties dans la même structure. Cela permet d'éviter les blocages, de fluidifier l'exécution et de s'assurer que même les workflows volumineux se termineront de manière fiable.
Génération dynamique de procédures : en plus d'exécuter des procédures prédéfinies, Gemini 2.0 Flash peut générer des procédures de manière dynamique. Un utilisateur peut saisir "crée une campagne marketing basée sur cette description de produit". Gemini 2.0 Flash génère alors les étapes (procédures) et les composants nécessaires, en créant un workflow sur le canevas en fonction de la demande générale de l'utilisateur. Cette génération dynamique offre un potentiel énorme pour des expériences utilisateur innovantes et des workflows simplifiés.
Un objectif facile à atteindre pour l'innovation
L'implémentation rapide de tldraw met en évidence la proposition de valeur de Gemini pour les start-ups : prototypage rapide, expérience utilisateur améliorée grâce à des interfaces intuitives en langage naturel et gestion efficace des données structurées grâce à des modèles tels que Gemini 2.0 Flash. Cette combinaison permet aux petites équipes de créer des fonctionnalités innovantes basées sur l'IA rapidement et à moindre coût.
"Nous voulons montrer que n'importe quelle équipe peut créer des projets ambitieux avec le SDK de canevas de tldraw. Gemini Flash était un moteur idéal pour un outil de workflow rapide, multimodal et basé sur un canevas. Avec Gemini 2.0 et peut-être un meilleur nom, je suis presque sûr que nous pourrions présenter l'ordinateur comme une startup à part entière demain."
— Steve Ruiz, fondateur de tldraw
Optimiser votre application avec l'API Gemini
Vous êtes inspiré par le succès de tldraw ? L'API Gemini propose des modèles puissants tels que Gemini 1.5 Pro, Gemini 1.5 Flash et désormais Gemini 2.0 Flash en tant que modèle expérimental en preview pour intégrer des fonctionnalités d'IA innovantes à votre application. Explorez la documentation de l'API Gemini et offrez à vos utilisateurs le potentiel de l'IA.
Pour les professionnels de la création, les développeurs et les équipes de toutes sortes, tldraw offre une plate-forme unique et puissante pour donner vie à leurs idées. Rejoignez la liste d'attente pour les ordinateurs. Découvrez l'avenir de la collaboration visuelle dès aujourd'hui.
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Il n'y a pas l'information dont j'ai besoin","missingTheInformationINeed","thumb-down"],["Trop compliqué/Trop d'étapes","tooComplicatedTooManySteps","thumb-down"],["Obsolète","outOfDate","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Mauvais exemple/Erreur de code","samplesCodeIssue","thumb-down"],["Autre","otherDown","thumb-down"]],[],[],[],null,["[](/showcase) \nShare\nDEC 11, 2024 \n\nGemini Powers tldraw's \"Natural Language Computing\" Experience \nVishal Dharmadhikari\n\nProduct Solutions Engineer \nSteve Ruiz\n\nTldraw \n\nUnlocking Natural Language Interactions with the Gemini API \n\nThe Gemini API empowers developers to seamlessly integrate advanced AI capabilities into their applications, unlocking new possibilities for user experience and functionality. This post highlights how tldraw leverages Gemini to build a revolutionary \"natural language computing\" experience within their new project, [computer](https://computer.tldraw.com/). This demonstrates the speed and ease with which startups can integrate powerful AI using the Gemini API and tldraw's [canvas SDK](https://tldraw.dev). The tldraw team is launching computer with [Gemini 1.5 Flash](https://ai.google.dev/gemini-api/docs/models/gemini#gemini-1.5-flash) soon ([join the waitlist](https://computer.tldraw.com/)) and is currently prototyping with [Gemini 2.0](http://ai.google.dev/gemini-api/docs/models/gemini#gemini-2.0-flash) Flash for future iterations.\nvideo.title tldraw is using the Gemini API to bring the power of conversational AI to visual programming, allowing users to generate content and process information using natural language. This opens up exciting opportunities for more intuitive and efficient user experience around AI, pushing the boundaries of visual communication.\n\nThe Vision Behind Computer \n\ntldraw, striving to make diagramming accessible and intuitive, envisioned a more natural way for users to interact with their canvas. Founder Steve Ruiz sought to leverage the power of tldraw's infinite canvas SDK to create a dynamic environment for working with generative AI. This vision led to the development of [computer](http://computer.tldraw.com), an experimental application where users create workflows from blocks of text, images, and instructions. When run, information flows from one component to the next, with the output of each generation serving as the input to the next, creating powerful processes that branch, loop, and iterate to produce outputs.\n\nBuilding with Gemini 2.0: A Deep Dive into Computer \n\ntldraw's computer is built upon a network of interconnected \"components\" representing elements on the canvas (text boxes, images, audio clips, etc.). These components are linked by arrows, visualizing the flow of data and transformations. Each component has associated \"procedures\"---sets of instructions executed based on inputs from connected components. A component can accept data from any number of other components and pass its output data to many other components---including itself! This component-based architecture, combined with the power and speed of Gemini 2.0 Flash, allows for a fast and flexible system capable of handling diverse tasks.\nvideo.title \ntldraw computer's AI visual programming with text gen using Gemini 2.0 and image generation with an image gen model\nHere's how Gemini 2.0 Flash prototyping has powered the experience:\n\n- **Lightning-Fast Procedure Execution:** Gemini 2.0 Flash executes procedures rapidly. For example, an \"Instruction\" component might contain \"Write a short commercial.\" Within moments of being triggered, the component will have generated a re-usable script of steps that can turn any combination of inputs into a commercial script. The component will then use this script, together with its current inputs (e.g., a \"Text\" component with \"New AI-powered smartgloves for cats\"), to make a second prompt to the model for its final output. This output may be passed to another linked \"Text\" component for display, as well as other connected components, like \"Speech\" for text-to-speech, \"Image\" for visual generation, or other \"Instruction\" components for further transformation.\n\n- **Lots of Context, Many Modes:** The maximalist bent in tldraw's computer called for speed, capacity, and capability. With multiple components providing data for each generation, Gemini 2.0 Flash's large context window was critical for producing outputs that took all inputs into account, as was its support for images and files alongside written prompts.\n\n- **Structured Data:** The flow of data between components would not be possible without adherence to a single schema. The structured JSON output from Gemini 2.0 Flash ensures that each component in a workflow can recognize data of any type and produce its outputs in the same structure, preventing stalls, smoothing execution, and ensuring even large workflows will reliably complete.\n\n- **Dynamic Procedure Generation:** Beyond executing predefined procedures, Gemini 2.0 Flash can generate procedures dynamically. A user could input \"create a marketing campaign based on this product description,\" and Gemini 2.0 Flash would generate the necessary steps (procedures) and the required components, building a workflow on the canvas based on the user's high-level request. This dynamic generation unlocks tremendous potential for innovative user experiences and streamlined workflows.\n\nA Quick Win for Innovation \n\ntldraw's quick implementation of computer highlights Gemini's value proposition for startups: rapid prototyping, enhanced user experience through intuitive natural language interfaces, and efficient structured data handling thanks to models like Gemini 2.0 Flash. This combination empowers small teams to create innovative, AI-powered features quickly and cost-effectively.\n\u003e \"We want to show that any team can build ambitious projects with tldraw's canvas SDK. Gemini Flash was a perfect engine for a fast, multi-modal, canvas-based workflow tool. With Gemini 2.0 and perhaps a better name, I'm pretty sure we could pitch computer as its own startup tomorrow.\"\n\n--- Steve Ruiz, Founder of tldraw\n\nEmpower Your Application with the Gemini API \n\nInspired by tldraw's success? The Gemini API offers powerful models like Gemini 1.5 Pro, Gemini 1.5 Flash, and now Gemini 2.0 Flash as an experimental preview model to bring innovative AI features to your application. Explore the [Gemini API documentation](https://ai.google.dev/gemini-api/docs) and empower your users with AI.\n\n\n\u003cbr /\u003e\n\n\nFor creative professionals, developers, and teams of all kinds, tldraw offers a unique and powerful platform to bring ideas to life. [Join the computer waitlist](https://computer.tldraw.com/). Experience the future of visual collaboration [today](https://tldraw.dev/). \n\nRelated case studies \n[Rooms\nUnlocking richer avatar interactions with Gemini 2.0 text and audio capabilities](/showcase/rooms) [Viggle\nExperimenting with Gemini 2.0 to create virtual characters and audio narration for their AI powered video platform](/showcase/viggle) [Toonsutra\nLeveraging contextual multilingual translation abilities of Gemini 2.0 to make comics and webtoons accessible to audiences in India across regional languages.](/showcase/toonsutra)"]]