Udostępnij

11 GRUDNIA 2024 R.

Gemini umożliwia korzystanie z funkcji „Natural Language Computing” w aplikacji tldraw

Vishal Dharmadhikari

Inżynier ds. rozwiązań produktowych

Steve Ruiz

Tldraw

Tldraw showcase hero

Wykorzystanie interfejsu Gemini API do interakcji z językiem naturalnym

Interfejs Gemini API umożliwia deweloperom bezproblemową integrację zaawansowanych funkcji AI w ich aplikacjach, otwierając nowe możliwości w zakresie funkcjonalności i wygody użytkowników. W tym poście opisujemy, jak tldraw korzysta z Gemini, aby stworzyć rewolucyjną technologię „przetwarzania języka naturalnego” w ramach nowego projektu computer. Pokazuje to, jak szybko i łatwo startupy mogą integrować potężne AI za pomocą interfejsu Gemini API i pakietu canvas SDK pakietu tldraw. Zespół tldraw wkrótce wprowadzi komputer z modelem Gemini 1.5 Flash (dołącz do listy oczekujących) i obecnie tworzy prototypy z modelem Gemini 2.0 Flash na potrzeby przyszłych iteracji.

tldraw korzysta z interfejsu Gemini API, aby udostępnić możliwości konwersacyjnej AI programowaniu wizualnemu, umożliwiając użytkownikom generowanie treści i przetwarzanie informacji za pomocą języka naturalnego. Otwiera to ekscytujące możliwości stworzenia bardziej intuicyjnego i skutecznego interfejsu użytkownika opartego na sztucznej inteligencji, co pozwoli przesunąć granice komunikacji wizualnej.

Wizja stojąca za komputerem

Aplikacja tldraw, która ułatwia tworzenie diagramów i czyni je bardziej intuicyjną, wymyśliła bardziej naturalny sposób interakcji użytkowników z płótnem. Jego założyciel, Steve Ruiz, chciał wykorzystać potencjał pakietu SDK tldraw do tworzenia nieograniczonego płótna, aby stworzyć dynamiczne środowisko do pracy z generatywną AI. Ta wizja zaowocowała opracowaniem computer, eksperymentalnej aplikacji, w której użytkownicy tworzą przepływy pracy z bloków tekstu, obrazów i instrukcji. Podczas wykonywania informacje przepływają z jednego komponentu do następnego, a wyniki każdej generacji służą jako dane wejściowe dla następnej. W ten sposób powstają wydajne procesy, które się rozgałęziają, powtarzają i powtarzają się, aby wygenerować wyniki.

Budowanie za pomocą Gemini 2.0: szczegółowe informacje o komputerze

Komputer tldraw jest zbudowany na podstawie sieci połączonych ze sobą „komponentów” reprezentujących elementy na płótnie (pola tekstowe, obrazy, klipy audio itp.). Te komponenty są połączone strzałkami, które wizualizują przepływ danych i przekształceń. Każdy komponent ma powiązane „procedury” – zestawy instrukcji wykonywanych na podstawie danych wejściowych z połączonych komponentów. Komponent może przyjmować dane z dowolnej liczby innych komponentów i przekazywać dane wyjściowe wielu innym komponentom, w tym samemu sobie. Ta architektura oparta na komponentach w połączeniu z wydajnością i szybkością Gemini 2.0 Flash umożliwia tworzenie szybkich i elastycznych systemów, które mogą realizować różne zadania.

wizualne programowanie AI na komputerze tldraw z generowaniem tekstu za pomocą Gemini 2.0 i generowaniem obrazów za pomocą modelu do generowania obrazów

Oto, jak prototypowanie Gemini 2.0 Flash wpłynęło na tę funkcję:


  • Błyskawiczne wykonywanie procedur: Gemini 2.0 Flash wykonuje procedury błyskawicznie. Na przykład komponent „Instrukcja” może zawierać instrukcję „Napisz krótki spot reklamowy”. Po chwili od uruchomienia komponent wygeneruje skrypt z krokowymi instrukcjami, który można wykorzystać wielokrotnie, aby przekształcić dowolną kombinację danych wejściowych w skrypt reklamowy. Następnie komponent użyje tego skryptu wraz z bieżącymi danymi wejściowymi (np. komponent „Tekst” z tekstem „Nowe inteligentne rękawiczki dla kotów na bazie AI”) do przesłania modelowi drugiego prompta, który posłuży jako dane wyjściowe. Ten wynik może zostać przekazany do innego połączonego komponentu „Tekst” w celu wyświetlenia, a także do innych połączonych komponentów, takich jak „Mowa” do konwersji tekstu na mowę, „Obraz” do generowania wizualizacji lub inne komponenty „Instrukcja” do dalszej transformacji.

  • Wiele kontekstów, wiele trybów: komputer TLdraw wymagał maksymalnej szybkości, pojemności i funkcjonalności. Wiele komponentów dostarcza danych do każdej generacji, a duże okno kontekstu w Gemini 2.0 Flash było kluczowe dla generowania danych wyjściowych, które uwzględniały wszystkie dane wejściowe. Ważne było też wsparcie dla obrazów i plików obok promptów tekstowych.

  • Uporządkowane dane: przepływ danych między komponentami nie byłby możliwy bez przestrzegania jednego schematu. Uporządkowany format danych wyjściowych JSON z Gemini 2.0 Flash sprawia, że każdy komponent w przepływie danych może rozpoznawać dane dowolnego typu i wytwarzać dane wyjściowe w tej samej strukturze. Dzięki temu można uniknąć zatrzymywania się, płynnie wykonywać zadania i zapewnić niezawodne ukończenie nawet dużych przepływów danych.

  • Generowanie procedur dynamicznych: oprócz wykonywania wstępnie zdefiniowanych procedur Gemini 2.0 Flash może generować procedury dynamicznie. Użytkownik może wpisać „utwórz kampanię marketingową na podstawie tego opisu produktu”, a Gemini 2.0 Flash wygeneruje niezbędne kroki (procedury) i wymagane komponenty, tworząc przepływ pracy na kanwie na podstawie ogólnego opisu zapytania użytkownika. Ta dynamiczna generacja otwiera ogromne możliwości w zakresie innowacyjnych wrażeń użytkowników i usprawnionych procesów roboczych.

Szybka wygrana dzięki innowacji

Szybka implementacja komputera przez tldraw pokazuje zalety Gemini dla startupów: szybkie prototypowanie, ulepszone wrażenia użytkowników dzięki intuicyjnym interfejsom z językiem naturalnym oraz wydajne przetwarzanie danych strukturalnych dzięki modelom takim jak Gemini 2.0 Flash. Dzięki tej kombinacji małe zespoły mogą szybko i opłacalnie tworzyć innowacyjne funkcje oparte na AI.

„Chcemy pokazać, że każdy zespół może tworzyć ambitne projekty za pomocą pakietu SDK do tworzenia obrazów w tldraw. Gemini Flash to idealny mechanizm do szybkiego, multimodalnego narzędzia do obsługi procesu roboczego opartego na kanwie. Dzięki Gemini 2.0 i być może lepszej nazwie moglibyśmy jutro przedstawić komputer jako nowy startup”.

– Steve Ruiz, założyciel tldraw

Zwiększanie możliwości aplikacji dzięki interfejsowi Gemini API

Inspiracja sukcesem tldraw? Interfejs Gemini API udostępnia zaawansowane modele, takie jak Gemini 1.5 Pro, Gemini 1.5 Flash i teraz Gemini 2.0 Flash jako eksperymentalny model podglądowy, aby zapewnić Twojej aplikacji innowacyjne funkcje AI. Zapoznaj się z dokumentacją interfejsu Gemini API i daj użytkownikom dostęp do AI.

Dla profesjonalistów w branży kreatywnej, programistów i różnego rodzaju zespołów tldraw stanowi wyjątkową i potężną platformę do wdrażania pomysłów. Dołącz do listy oczekujących na komputer. Poznaj przyszłość współpracy wizualnej już dziś.