Udostępnij

11 GRUDNIA 2024 R.

Gemini umożliwia korzystanie z funkcji „Natural Language Computing” w aplikacji tldraw

Vishal Dharmadhikari

Inżynier ds. rozwiązań produktowych

Steve Ruiz

Tldraw

Tldraw showcase hero

Wykorzystanie interakcji z naturalnym językiem za pomocą interfejsu Gemini API

Interfejs API Gemini umożliwia deweloperom bezproblemową integrację zaawansowanych funkcji AI w ich aplikacjach, otwierając nowe możliwości w zakresie funkcjonalności i wygody użytkowników. W tym poście opisujemy, jak tldraw korzysta z Gemini, aby stworzyć rewolucyjną technologię „przetwarzania języka naturalnego” w ramach nowego projektu computer. Pokazuje to, jak szybko i łatwo startupy mogą integrować potężne AI za pomocą interfejsu Gemini API i pakietu canvas SDK pakietu tldraw. Zespół tldraw wkrótce udostępni komputer z Gemini 1.5 Flash (dowiedz się więcej) i obecnie tworzy prototypy z Gemini 2.0 Flash na potrzeby przyszłych iteracji.

tldraw korzysta z interfejsu Gemini API, aby udostępnić możliwości konwersacyjnej AI programowaniu wizualnemu. Dzięki temu użytkownicy mogą generować treści i przetwarzać informacje za pomocą języka naturalnego. Otwiera to ekscytujące możliwości stworzenia bardziej intuicyjnego i skutecznego interfejsu użytkownika opartego na sztucznej inteligencji, co pozwoli przesunąć granice komunikacji wizualnej.

Wizja stojąca za komputerem

Aplikacja tldraw, która ułatwia tworzenie diagramów i czyni je bardziej intuicyjnymi, wymyśliła bardziej naturalny sposób interakcji użytkowników z płótnem. Jego założyciel, Steve Ruiz, chciał wykorzystać potencjał pakietu SDK tldraw do tworzenia nieograniczonego płótna, aby stworzyć dynamiczne środowisko do pracy z generatywną AI. Ta wizja zaowocowała opracowaniem computer, eksperymentalnej aplikacji, w której użytkownicy tworzą przepływy pracy z bloków tekstu, obrazów i instrukcji. Podczas wykonywania informacje przepływają z jednego komponentu do następnego, a wyniki każdej generacji służą jako dane wejściowe dla następnej. Dzięki temu powstają wydajne procesy, które się rozgałęziają, powtarzają i powtarzają się, aby wygenerować wyniki.

Budowanie za pomocą Gemini 2.0: szczegółowe informacje o komputerze

Komputer tldraw jest zbudowany na podstawie sieci połączonych ze sobą „komponentów” reprezentujących elementy na płótnie (pola tekstowe, obrazy, klipy audio itp.). Te komponenty są połączone strzałkami, które obrazują przepływ danych i przekształceń. Każdy komponent ma powiązane „procedury” – zestawy instrukcji wykonywanych na podstawie danych wejściowych z połączonych komponentów. Komponent może przyjmować dane z dowolnej liczby innych komponentów i przekazywać dane wyjściowe wielu innym komponentom, w tym samemu sobie. Ta architektura oparta na komponentach, w połączeniu z wydajnością i szybkością Gemini 2.0 Flash, umożliwia tworzenie szybkich i elastycznych systemów, które mogą obsługiwać różne zadania.

wizualne programowanie AI na komputerze tldraw z generowaniem tekstu za pomocą Gemini 2.0 i generowaniem obrazów za pomocą modelu do generowania obrazów;

Oto, jak prototypowanie w ramach Gemini 2.0 Flash wpłynęło na tę funkcję:


  • Błyskawiczne wykonywanie procedur: Gemini 2.0 Flash wykonuje procedury błyskawicznie. Na przykład komponent „Instrukcja” może zawierać instrukcję „Napisz krótki spot reklamowy”. Po chwili od uruchomienia komponent wygeneruje skrypt z krokowymi instrukcjami, który można wykorzystać wielokrotnie, aby przekształcić dowolną kombinację danych wejściowych w skrypt reklamowy. Następnie komponent użyje tego skryptu wraz z bieżącymi danymi wejściowymi (np. komponent „Tekst” z tekstem „Nowe inteligentne rękawiczki dla kotów na bazie AI”) do przesłania modelowi drugiego prompta, który posłuży jako dane wyjściowe. Ten wynik może zostać przekazany do innego połączonego komponentu „Tekst” w celu wyświetlenia, a także do innych połączonych komponentów, takich jak „Mowa” do konwersji tekstu na mowę, „Obraz” do generowania wizualizacji lub inne komponenty „Instrukcja” do dalszej transformacji.

  • Wiele kontekstów, wiele trybów: komputer tldraw wymagał maksymalnej szybkości, pojemności i funkcjonalności. W przypadku wielu komponentów dostarczających dane do każdej generacji duże okno kontekstu Gemini 2.0 Flash było kluczowe dla generowania danych, które uwzględniały wszystkie dane wejściowe, a także dla obsługi obrazów i plików obok promptów tekstowych.

  • Uporządkowane dane: przepływ danych między komponentami nie byłby możliwy bez przestrzegania jednego schematu. Uporządkowany format danych wyjściowych JSON z Gemini 2.0 Flash sprawia, że każdy komponent w przepływie danych może rozpoznawać dane dowolnego typu i generować dane wyjściowe w tej samej strukturze. Dzięki temu można uniknąć zatrzymywania się, płynnie wykonywać operacje i zapewnić niezawodne ukończenie nawet dużych przepływów danych.

  • Generowanie procedur dynamicznych: oprócz wykonywania wstępnie zdefiniowanych procedur Gemini 2.0 Flash może generować procedury dynamicznie. Użytkownik może wpisać „utwórz kampanię marketingową na podstawie tego opisu produktu”, a Gemini 2.0 Flash wygeneruje niezbędne kroki (procedury) i wymagane komponenty, tworząc przepływ pracy na kanwie na podstawie ogólnego zapytania użytkownika. Ta dynamiczna generacja otwiera ogromne możliwości w zakresie innowacyjnych doświadczeń użytkowników i usprawnionych procesów.

Szybka wygrana dzięki innowacji

Szybka implementacja komputera przez tldraw pokazuje zalety Gemini dla startupów: szybkie prototypowanie, ulepszone wrażenia użytkowników dzięki intuicyjnym interfejsom z naturalnym językiem oraz wydajne przetwarzanie danych strukturalnych dzięki modelom takim jak Gemini 2.0 Flash. Dzięki tej kombinacji małe zespoły mogą szybko i opłacalnie tworzyć innowacyjne funkcje oparte na AI.

„Chcemy pokazać, że każdy zespół może tworzyć ambitne projekty za pomocą pakietu SDK do tworzenia obrazów w tldraw. Gemini Flash to idealny mechanizm do szybkiego, multimodalnego narzędzia do obsługi procesu roboczego opartego na kanwie. Dzięki Gemini 2.0 i być może lepszej nazwie moglibyśmy jutro przedstawić komputer jako nowy startup”.

– Steve Ruiz, założyciel tldraw

Zwiększ możliwości aplikacji dzięki interfejsowi Gemini API

Zainspirowany sukcesem tldraw? Interfejs Gemini API oferuje zaawansowane modele, takie jak Gemini 1.5 Pro, Gemini 1.5 Flash i teraz Gemini 2.0 Flash jako eksperymentalny model podglądu, aby zapewnić Twojej aplikacji innowacyjne funkcje AI. Zapoznaj się z dokumentacją interfejsu Gemini API i daj użytkownikom dostęp do AI.

Dla profesjonalistów w zakresie kreatywności, programistów i zespołów wszelkiego rodzaju tldraw stanowi wyjątkową i potężną platformę do wdrażania pomysłów. Dołącz do listy oczekujących na komputer. Poznaj przyszłość współpracy wizualnej już dziś.