Udostępnij

11 GRUDNIA 2024 R.

Gemini umożliwia korzystanie z funkcji „przetwarzanie języka naturalnego” w aplikacji tldraw

Vishal Dharmadhikari

Inżynier ds. rozwiązań produktowych

Steve Ruiz

Tldraw

Tldraw showcase hero

Wykorzystanie interfejsu Gemini API do interakcji z naturalnym językiem

Interfejs Gemini API umożliwia deweloperom płynne łączenie zaawansowanych funkcji AI w aplikacjach, co otwiera nowe możliwości w zakresie wrażeń użytkowników i funkcjonalności. W tym poście opisujemy, jak tldraw korzysta z Gemini do tworzenia rewolucyjnej „obsługi języka naturalnego” w ramach nowego projektu computer. Pokazuje to, jak szybko i łatwo startupy mogą integrować zaawansowaną AI za pomocą interfejsu Gemini API i pakietu canvas SDK pakietu tldraw. Zespół tldraw wkrótce udostępni komputer z Gemini 1.5 Flash (dowiedz się więcej) i obecnie tworzy prototypy z Gemini 2.0 Flash na potrzeby przyszłych wersji.

tldraw korzysta z interfejsu Gemini API, aby udostępnić możliwości konwersacyjnej AI programowaniu wizualnemu. Dzięki temu użytkownicy mogą generować treści i przetwarzać informacje za pomocą języka naturalnego. Otwiera to ekscytujące możliwości stworzenia bardziej intuicyjnego i skutecznego interfejsu użytkownika opartego na sztucznej inteligencji, co pozwoli przesunąć granice komunikacji wizualnej.

Wizja stojąca za komputerem

Aplikacja tldraw, która ułatwia tworzenie diagramów i czyni je bardziej intuicyjnymi, wymyśliła bardziej naturalny sposób interakcji użytkowników z płótnem. Jego założyciel, Steve Ruiz, chciał wykorzystać potencjał pakietu SDK tldraw do tworzenia nieograniczonego płótna, aby stworzyć dynamiczne środowisko do pracy z generatywną AI. Ta wizja zaowocowała opracowaniem computer, eksperymentalnej aplikacji, w której użytkownicy tworzą przepływy pracy z bloków tekstu, obrazów i instrukcji. Podczas wykonywania informacje przepływają z jednego komponentu do następnego, a wyniki każdej generacji służą jako dane wejściowe dla następnej. Dzięki temu powstają wydajne procesy, które się rozgałęziają, powtarzają i powtarzają się, aby wygenerować wyniki.

Budowanie za pomocą Gemini 2.0: szczegółowe informacje o komputerze

Komputer tldraw jest zbudowany na podstawie sieci połączonych ze sobą „komponentów” reprezentujących elementy na płótnie (pola tekstowe, obrazy, klipy audio itp.). Te komponenty są połączone strzałkami, które wizualizują przepływ danych i przekształceń. Każdy komponent ma powiązane „procedury” – zestawy instrukcji wykonywanych na podstawie danych wejściowych z połączonych komponentów. Komponent może przyjmować dane z dowolnej liczby innych komponentów i przekazywać dane wyjściowe wielu innym komponentom, w tym samemu sobie. Ta architektura oparta na komponentach, połączona z mocą i szybkością Gemini 2.0 Flash, umożliwia szybki i elastyczny system, który może obsługiwać różne zadania.

wizualne programowanie AI na komputerze tldraw z generowaniem tekstu za pomocą Gemini 2.0 i generowaniem obrazów za pomocą modelu do generowania obrazów

Oto, jak prototypowanie Gemini 2.0 Flash wpłynęło na tę usługę:


  • Błyskawiczne wykonywanie procedur: Gemini 2.0 Flash wykonuje procedury bardzo szybko. Na przykład komponent „Instrukcje” może zawierać instrukcję „Napisz krótki spot reklamowy”. Po uruchomieniu komponent w kilka chwil wygeneruje skrypt z krokowymi instrukcjami, który można wielokrotnie wykorzystywać. Skrypt ten może przekształcić dowolną kombinację danych wejściowych w skrypt reklamowy. Następnie komponent użyje tego skryptu wraz z bieżącymi danymi wejściowymi (np. komponent „Tekst” z tekstem „Nowe inteligentne rękawiczki dla kotów na bazie AI”) do przesłania modelowi drugiego prompta, który posłuży jako dane wyjściowe. Ten wynik może zostać przekazany do innego połączonego komponentu „Tekst” na potrzeby wyświetlania, a także do innych połączonych komponentów, takich jak „Mowa” do konwersji tekstu na mowę, „Obraz” do generowania wizualizacji lub inne komponenty „Instrukcja” do dalszej transformacji.

  • Wiele kontekstów i trybów: komputer tldraw wymagał maksymalnej szybkości, pojemności i funkcjonalności. Duże okno kontekstu Gemini 2.0 Flash, które korzysta z danych z wielu komponentów w przypadku każdej generacji, było kluczowe dla generowania danych wyjściowych uwzględniających wszystkie dane wejściowe. Ważne było też wsparcie dla obrazów i plików obok promptów tekstowych.

  • Dane strukturalne: przepływ danych między komponentami nie byłby możliwy bez przestrzegania jednego schematu. Uporządkowany format danych wyjściowych JSON z Gemini 2.0 Flash sprawia, że każdy komponent w przepływie danych może rozpoznawać dane dowolnego typu i wytwarzać dane wyjściowe w tej samej strukturze. Dzięki temu można uniknąć zatrzymywania się, płynnie wykonywać zadania i zapewnić niezawodne ukończenie nawet dużych przepływów danych.

  • Generowanie procedur dynamicznych: oprócz wykonywania wstępnie zdefiniowanych procedur Gemini 2.0 Flash może generować procedury dynamicznie. Użytkownik może wpisać „utwórz kampanię marketingową na podstawie tego opisu produktu”, a Gemini 2.0 Flash wygeneruje niezbędne kroki (procedury) i wymagane komponenty, tworząc przepływ pracy na kanwie na podstawie ogólnego opisu użytkownika. Ta dynamiczna generacja otwiera ogromne możliwości w zakresie innowacyjnych wrażeń użytkowników i usprawnionych procesów.

Szybka realizacja innowacji

Szybka implementacja komputera przez tldraw pokazuje zalety Gemini dla startupów: szybkie prototypowanie, ulepszone wrażenia użytkowników dzięki intuicyjnym interfejsom w języku naturalnym oraz wydajne przetwarzanie danych strukturalnych dzięki modelom takim jak Gemini 2.0 Flash. Dzięki tej kombinacji małe zespoły mogą szybko i opłacalnie tworzyć innowacyjne funkcje oparte na AI.

„Chcemy pokazać, że każda grupa może tworzyć ambitne projekty za pomocą pakietu SDK do tworzenia obrazów w tldraw. Gemini Flash to idealny mechanizm do szybkiego, multimodalnego narzędzia do obsługi procesu roboczego opartego na kanwie. Dzięki Gemini 2.0 i być może lepszej nazwie, jestem przekonany, że jutro będziemy mogli przedstawić komputer jako osobny startup”.

– Steve Ruiz, założyciel tldraw

Zwiększanie możliwości aplikacji dzięki interfejsowi Gemini API

Zainspirowany sukcesem tldraw? Interfejs Gemini API udostępnia zaawansowane modele, takie jak Gemini 1.5 Pro, Gemini 1.5 Flash i teraz Gemini 2.0 Flash jako eksperymentalny model w wersji przedpremierowej, aby zapewnić Twojej aplikacji innowacyjne funkcje AI. Zapoznaj się z dokumentacją interfejsu Gemini API i umożliw swoim użytkownikom korzystanie z AI.

Dla profesjonalistów w zakresie kreatywności, programistów i zespołów wszelkiego rodzaju tldraw stanowi wyjątkową i potężną platformę do wdrażania pomysłów. Dołącz do listy oczekujących na komputer. Poznaj przyszłość współpracy wizualnej już dziś.