11. DEZEMBER 2024
Gemini unterstützt die Funktion „Natural Language Computing“ von tldraw

Natural Language-Interaktionen mit der Gemini API ermöglichen
Mit der Gemini API können Entwickler fortschrittliche KI-Funktionen nahtlos in ihre Anwendungen einbinden und so neue Möglichkeiten für Nutzerfreundlichkeit und Funktionalität schaffen. In diesem Beitrag wird beschrieben, wie tldraw Gemini nutzt, um in seinem neuen Projekt computer eine revolutionäre „Natural Language Computing“-Umgebung zu schaffen. Dies zeigt, wie schnell und einfach Start-ups leistungsstarke KI mithilfe der Gemini API und des Canvas SDK von tldraw integrieren können. Das tldraw-Team wird demnächst computer mit Gemini 1.5 Flash auf den Markt bringen (Warteliste). Derzeit wird mit Gemini 2.0 Flash für zukünftige Iterationen ein Prototyp erstellt.
tldraw nutzt die Gemini API, um die Leistungsfähigkeit von konversationeller KI für die visuelle Programmierung zu nutzen. So können Nutzer Inhalte generieren und Informationen in natürlicher Sprache verarbeiten. Das eröffnet spannende Möglichkeiten für eine intuitivere und effizientere Nutzung von KI und verschiebt die Grenzen der visuellen Kommunikation.
Die Vision hinter Computer
tldraw hat sich zum Ziel gesetzt, die Diagrammerstellung zugänglich und intuitiv zu gestalten, und hat sich eine natürlichere Art und Weise vorgestellt, wie Nutzer mit ihrer Arbeitsfläche interagieren können. Gründer Steve Ruiz wollte die Leistungsfähigkeit des Infinite Canvas SDK von tldraw nutzen, um eine dynamische Umgebung für die Arbeit mit generativer KI zu schaffen. Diese Vision führte zur Entwicklung von Computer, einer experimentellen Anwendung, in der Nutzer Workflows aus Textblöcken, Bildern und Anweisungen erstellen. Bei der Ausführung fließen Informationen von einer Komponente zur nächsten. Die Ausgabe jeder Generation dient als Eingabe für die nächste. So entstehen leistungsstarke Prozesse, die sich verzweigen, wiederholen und iterieren, um Ausgaben zu erzeugen.
Mit Gemini 2.0 entwickeln: Computer
Der Computer von tldraw basiert auf einem Netzwerk miteinander verbundener „Komponenten“, die Elemente auf der Arbeitsfläche darstellen (Textfelder, Bilder, Audioclips usw.). Diese Komponenten sind durch Pfeile verbunden, die den Fluss von Daten und Transformationen visualisieren. Jeder Komponente sind „Prozeduren“ zugeordnet – Anweisungen, die auf Grundlage von Eingaben von verbundenen Komponenten ausgeführt werden. Eine Komponente kann Daten von beliebig vielen anderen Komponenten empfangen und ihre Ausgabedaten an viele andere Komponenten weitergeben, auch an sich selbst. Diese komponentenbasierte Architektur in Kombination mit der Leistung und Geschwindigkeit von Gemini 2.0 Flash ermöglicht ein schnelles und flexibles System, das in der Lage ist, vielfältige Aufgaben zu bewältigen.
So hat das Prototyping mit Gemini 2.0 Flash die Entwicklung unterstützt:
Blitzschnelle Ausführung von Verfahren:Gemini 2.0 Flash führt Verfahren schnell aus. Eine „Anweisung“-Komponente kann beispielsweise „Schreibe einen kurzen Werbespot“ enthalten. Kurz nach dem Auslösen hat die Komponente ein wiederverwendbares Skript mit Schritten generiert, mit denen sich aus jeder Kombination von Eingaben ein kommerzielles Skript erstellen lässt. Die Komponente verwendet dann dieses Skript zusammen mit ihren aktuellen Eingaben (z.B. eine „Text“-Komponente mit „Neue KI-basierte Smart-Handschuhe für Katzen“), um einen zweiten Prompt für das Modell für die endgültige Ausgabe zu erstellen. Diese Ausgabe kann zur Anzeige an eine andere verknüpfte „Text“-Komponente sowie an andere verbundene Komponenten wie „Sprache“ für die Sprachsynthese, „Bild“ für die visuelle Generierung oder andere „Anleitung“-Komponenten zur weiteren Transformation übergeben werden.
Viel Kontext, viele Modi:Der maximalistische Ansatz in tldraw erforderte einen Computer mit hoher Geschwindigkeit, Kapazität und Leistungsfähigkeit. Da mehrere Komponenten Daten für jede Generation liefern, war das große Kontextfenster von Gemini 2.0 Flash entscheidend für die Erstellung von Ausgaben, die alle Eingaben berücksichtigten. Das Modell unterstützt außerdem Bilder und Dateien neben geschriebenen Prompts.
Strukturierte Daten:Der Datenfluss zwischen Komponenten wäre ohne Einhaltung eines einzelnen Schemas nicht möglich. Die strukturierte JSON-Ausgabe von Gemini 2.0 Flash sorgt dafür, dass jede Komponente in einem Workflow Daten beliebigen Typs erkennen und ihre Ausgaben in derselben Struktur erzeugen kann. So werden Verzögerungen vermieden, die Ausführung wird beschleunigt und auch große Workflows werden zuverlässig abgeschlossen.
Dynamische Prozedurgenerierung:Gemini 2.0 Flash kann nicht nur vordefinierte Prozeduren ausführen, sondern auch dynamisch Prozeduren generieren. Ein Nutzer könnte beispielsweise „Erstelle eine Marketingkampagne auf Grundlage dieser Produktbeschreibung“ eingeben. Gemini 2.0 Flash würde dann die erforderlichen Schritte (Prozeduren) und Komponenten generieren und auf Grundlage der allgemeinen Anfrage des Nutzers einen Workflow auf der Arbeitsfläche erstellen. Diese dynamische Generierung bietet enormes Potenzial für innovative Nutzererlebnisse und optimierte Arbeitsabläufe.
Schnelle Erfolge für Innovationen
Die schnelle Implementierung von tldraw unterstreicht das Wertversprechen von Gemini für Start-ups: schnelles Prototyping, verbesserte Nutzerfreundlichkeit durch intuitive Schnittstellen für natürliche Sprache und effiziente Verarbeitung strukturierter Daten dank Modellen wie Gemini 2.0 Flash. Diese Kombination ermöglicht es kleinen Teams, schnell und kostengünstig innovative, KI-basierte Funktionen zu entwickeln.
„Wir möchten zeigen, dass jedes Team mit dem Canvas SDK von tldraw anspruchsvolle Projekte entwickeln kann. Gemini Flash war die perfekte Engine für ein schnelles, multimodales, auf Canvas basierendes Workflow-Tool. Mit Gemini 2.0 und vielleicht einem besseren Namen könnten wir Computer morgen als eigenes Startup präsentieren.“
Gemini API für Ihre Anwendung nutzen
Inspiriert vom Erfolg von tldraw? Die Gemini API bietet leistungsstarke Modelle wie Gemini 1.5 Pro, Gemini 1.5 Flash und jetzt auch Gemini 2.0 Flash als experimentelles Vorschau-Modell, um innovative KI-Funktionen in Ihre Anwendung zu integrieren. Gemini API-Dokumentation
Für Kreative, Entwickler und Teams aller Art bietet tldraw eine einzigartige und leistungsstarke Plattform, um Ideen zum Leben zu erwecken. Auf die Warteliste für Computer setzen lassen Die Zukunft der visuellen Zusammenarbeit schon heute erleben.