Gemini ermöglicht die Funktion „Natural Language Computing“ von tldraw

Vishal Dharmadhikari

Product Solutions Engineer

Steve Ruiz

Tldraw

Natürliche Sprachinteraktionen mit der Gemini API ermöglichen

Mit der Gemini API können Entwickler erweiterte KI-Funktionen nahtlos in ihre Anwendungen einbinden und so neue Möglichkeiten für die Nutzerfreundlichkeit und Funktionalität eröffnen. In diesem Beitrag wird beschrieben, wie tldraw mit Gemini eine revolutionäre Lösung für die Verarbeitung natürlicher Sprache in seinem neuen Projekt computer entwickelt. Das zeigt, wie schnell und einfach Startups leistungsstarke KI mit der Gemini API und dem Canvas SDK von tldraw einbinden können. Das tldraw-Team führt demnächst Computer mit Gemini 1.5 Flash ein (sich auf die Warteliste setzen) und erstellt derzeit Prototypen mit Gemini 2.0 Flash für zukünftige Iterationen.

Mit der Gemini API bietet tldraw die Vorteile der konversationellen KI für die visuelle Programmierung. So können Nutzer Inhalte generieren und Informationen in natürlicher Sprache verarbeiten. Dies eröffnet spannende Möglichkeiten für eine intuitivere und effizientere Nutzererfahrung im Zusammenhang mit KI und treibt die Grenzen der visuellen Kommunikation voran.

Die Vision hinter Computern

tldraw möchte die Erstellung von Diagrammen barrierefrei und intuitiv gestalten und hat sich eine natürlichere Art und Weise für die Interaktion der Nutzer mit dem Canvas überlegt. Der Gründer Steve Ruiz wollte das Potenzial des Infinite Canvas SDK von tldraw nutzen, um eine dynamische Umgebung für die Arbeit mit generativer KI zu schaffen. Diese Vision führte zur Entwicklung von computer, einer experimentellen Anwendung, mit der Nutzer Workflows aus Textblöcken, Bildern und Anleitungen erstellen. Bei der Ausführung fließen Informationen von einer Komponente zur nächsten. Die Ausgabe jeder Generation dient als Eingabe für die nächste. So entstehen leistungsstarke Prozesse, die sich verzweigen, wiederholen und iterieren, um Ergebnisse zu erzielen.

Mit Gemini 2.0 entwickeln: Ein detaillierter Blick auf Computer

Der Computer von tldraw basiert auf einem Netzwerk miteinander verbundener „Komponenten“, die Elemente auf dem Canvas darstellen (Textfelder, Bilder, Audioclips usw.). Diese Komponenten sind durch Pfeile verbunden, die den Datenfluss und die Transformationen visualisieren. Jede Komponente hat zugewiesene „Prozeduren“ – Anweisungen, die basierend auf Eingaben von verbundenen Komponenten ausgeführt werden. Eine Komponente kann Daten von beliebig vielen anderen Komponenten empfangen und ihre Ausgabedaten an viele andere Komponenten weitergeben – auch an sich selbst. Diese komponentenbasierte Architektur in Kombination mit der Leistung und Geschwindigkeit von Gemini 2.0 Flash ermöglicht ein schnelles und flexibles System, das verschiedene Aufgaben bewältigen kann.

KI-gestützte visuelle Programmierung von tldraw-Computern mit Textgenerierung mit Gemini 2.0 und Bildgenerierung mit einem Bildgenerierungsmodell

So hat das Gemini 2.0 Flash-Prototyping die Nutzerfreundlichkeit verbessert:

Blitzschnelle Verfahrensausführung: Gemini 2.0 Flash führt Verfahren schnell aus. Eine „Anleitung“-Komponente könnte beispielsweise „Eine kurze Werbeanzeige schreiben“ enthalten. Nach der Auslösung generiert die Komponente innerhalb weniger Augenblicke ein wiederverwendbares Script mit Schritten, mit dem jede Kombination von Eingaben in ein Werbeskript umgewandelt werden kann. Die Komponente verwendet dann dieses Script zusammen mit den aktuellen Eingaben (z.B. eine „Text“-Komponente mit „Neue KI-gestützte Smarthandschuhe für Katzen“), um dem Modell einen zweiten Prompt für die endgültige Ausgabe zu senden. Diese Ausgabe kann zur Anzeige an eine andere verknüpfte „Text“-Komponente oder an andere verbundene Komponenten wie „Sprache“ für die Text-zu-Sprache-Funktion, „Bild“ für die visuelle Generierung oder andere „Anweisung“-Komponenten für die weitere Transformation übergeben werden.
Viele Kontexte, viele Modi:Der Maximalismus des Computers von tldraw erforderte Geschwindigkeit, Kapazität und Leistung. Da mehrere Komponenten Daten für jede Generation bereitstellen, war das große Kontextfenster von Gemini 2.0 Flash entscheidend, um Ergebnisse zu erzielen, bei denen alle Eingaben berücksichtigt wurden. Ebenso wichtig war die Unterstützung von Bildern und Dateien neben schriftlichen Prompts.
Strukturierte Daten: Der Datenfluss zwischen Komponenten wäre ohne Einhaltung eines einzigen Schemas nicht möglich. Die strukturierte JSON-Ausgabe von Gemini 2.0 Flash sorgt dafür, dass jede Komponente in einem Workflow Daten beliebiger Art erkennen und ihre Ausgaben in derselben Struktur erstellen kann. So werden Verzögerungen verhindert, die Ausführung optimiert und sichergestellt, dass auch große Workflows zuverlässig abgeschlossen werden.
Dynamische Verfahrensgenerierung:Neben der Ausführung vordefinierter Verfahren kann Gemini 2.0 Flash auch Verfahren dynamisch generieren. Ein Nutzer könnte „eine Marketingkampagne basierend auf dieser Produktbeschreibung erstellen“ eingeben. Gemini 2.0 Flash generiert dann die erforderlichen Schritte (Vorgänge) und Komponenten und erstellt auf dem Canvas einen Workflow, der auf der allgemeinen Anfrage des Nutzers basiert. Diese dynamische Generation eröffnet enormes Potenzial für innovative Nutzererfahrungen und optimierte Workflows.

Schnelle Erfolge mit Innovationen

Die schnelle Implementierung von Computern durch tldraw unterstreicht den Mehrwert von Gemini für Start-ups: schnelles Prototyping, verbesserte Nutzerfreundlichkeit durch intuitive natürliche Sprachschnittstellen und effiziente strukturierte Datenverarbeitung dank Modellen wie Gemini 2.0 Flash. Diese Kombination ermöglicht es kleinen Teams, schnell und kostengünstig innovative, KI-gestützte Funktionen zu entwickeln.

„Wir möchten zeigen, dass jedes Team mit dem Canvas-SDK von tldraw ehrgeizige Projekte entwickeln kann. Gemini Flash war die perfekte Engine für ein schnelles, multimodales, Canvas-basiertes Workflow-Tool. Mit Gemini 2.0 und vielleicht einem besseren Namen könnten wir Computer morgen als eigenes Start-up präsentieren.“

– Steve Ruiz, Gründer von tldraw

Ihre Anwendung mit der Gemini API optimieren

Inspiriert vom Erfolg von tldraw? Die Gemini API bietet leistungsstarke Modelle wie Gemini 1.5 Pro, Gemini 1.5 Flash und jetzt Gemini 2.0 Flash als experimentelles Vorschaumodell, mit dem Sie Ihrer Anwendung innovative KI-Funktionen hinzufügen können. Lesen Sie die Dokumentation zur Gemini API und nutzen Sie KI für Ihre Nutzer.

Für Kreativschaffende, Entwickler und Teams aller Art bietet tldraw eine einzigartige und leistungsstarke Plattform, um Ideen zu verwirklichen. Auf die Warteliste für Computer setzen lassen Erleben Sie die Zukunft der visuellen Zusammenarbeit schon heute.