11 GRUDNIA 2024 R.
Gemini umożliwia korzystanie z funkcji „przetwarzanie języka naturalnego” w usłudze tldraw
Wykorzystanie interfejsu Gemini API do interakcji z naturalnym językiem
Interfejs Gemini API umożliwia deweloperom bezproblemową integrację zaawansowanych funkcji AI w ich aplikacjach, otwierając nowe możliwości w zakresie funkcjonalności i wygody użytkowników. W tym poście opisujemy, jak tldraw korzysta z Gemini, aby stworzyć rewolucyjną „obsługę języka naturalnego” w ramach nowego projektu computer. Pokazuje to, jak szybko i łatwo startupy mogą integrować zaawansowaną AI za pomocą interfejsu Gemini API i pakietu canvas SDK pakietu tldraw. Zespół tldraw wkrótce udostępni komputer z Gemini 1.5 Flash (dowiedz się więcej) i obecnie tworzy prototypy z Gemini 2.0 Flash na potrzeby przyszłych wersji.
tldraw korzysta z interfejsu Gemini API, aby udostępnić możliwości konwersacyjnej AI programowaniu wizualnemu. Dzięki temu użytkownicy mogą generować treści i przetwarzać informacje za pomocą języka naturalnego. To otwiera przed nami nowe możliwości, które pozwolą nam tworzyć bardziej intuicyjne i skuteczne rozwiązania wykorzystujące AI, przesuwając granice komunikacji wizualnej.
Wizja stojąca za komputerem
Aplikacja tldraw, która ułatwia tworzenie diagramów i czyni je bardziej intuicyjną, wymyśliła bardziej naturalny sposób interakcji użytkowników z płótnem. Jego założyciel, Steve Ruiz, chciał wykorzystać potencjał pakietu SDK tldraw do tworzenia nieograniczonego płótna, aby stworzyć dynamiczne środowisko do pracy z generatywną AI. Ta wizja zaowocowała opracowaniem computer, eksperymentalnej aplikacji, w której użytkownicy tworzą przepływy pracy z bloków tekstu, obrazów i instrukcji. Podczas wykonywania informacje przepływają z jednego komponentu do następnego, a wyniki każdej generacji służą jako dane wejściowe dla następnej. W ten sposób powstają wydajne procesy, które się rozgałęziają, powtarzają i powtarzają się, aby wygenerować wyniki.
Budowanie z Gemini 2.0: szczegółowe informacje o komputerze
Komputer tldraw jest zbudowany na podstawie sieci połączonych ze sobą „komponentów” reprezentujących elementy na płótnie (pola tekstowe, obrazy, klipy audio itp.). Te komponenty są połączone strzałkami, które wizualizują przepływ danych i przekształceń. Każdy komponent ma powiązane „procedury” – zestawy instrukcji wykonywanych na podstawie danych wejściowych z połączonych komponentów. Komponent może przyjmować dane z dowolnej liczby innych komponentów i przekazywać dane wyjściowe wielu innym komponentom, w tym samemu sobie. Ta architektura oparta na komponentach w połączeniu z potęgą i szybkością Gemini 2.0 Flash umożliwia tworzenie szybkich i elastycznych systemów, które mogą obsługiwać różne zadania.
Oto, jak prototypowanie Gemini 2.0 Flash wpłynęło na tę usługę:
Błyskawiczne wykonywanie procedur: Gemini 2.0 Flash wykonuje procedury błyskawicznie. Na przykład komponent „Instrukcje” może zawierać instrukcję „Napisz krótki spot reklamowy”. Po chwili od momentu uruchomienia komponent wygeneruje skrypt z krokowymi instrukcjami, który można wykorzystać wielokrotnie do przekształcenia dowolnej kombinacji danych wejściowych w skrypt reklamowy. Komponent użyje tego skryptu wraz z bieżącymi danymi wejściowymi (np. komponent „Tekst” z tekstem „Nowe inteligentne rękawiczki dla kotów na bazie AI”) do przesłania modelowi drugiego prompta, który posłuży jako dane wyjściowe. Ten wynik może zostać przekazany do innego połączonego komponentu „Tekst” w celu wyświetlenia, a także do innych połączonych komponentów, takich jak „Mowa” do konwersji tekstu na mowę, „Obraz” do generowania wizualizacji lub inne komponenty „Instrukcja” do dalszej transformacji.
Wiele kontekstów, wiele trybów: komputer tldraw wymagał maksymalnej szybkości, pojemności i funkcjonalności. Duże okno kontekstu Gemini 2.0 Flash, które korzysta z danych z wielu komponentów w przypadku każdej generacji, było kluczowe dla generowania danych wyjściowych uwzględniających wszystkie dane wejściowe. Ważne było też wsparcie dla obrazów i plików obok promptów tekstowych.
Dane strukturalne: przepływ danych między komponentami nie byłby możliwy bez przestrzegania jednego schematu. Uporządkowany format danych wyjściowych JSON z Gemini 2.0 Flash sprawia, że każdy komponent w przepływie danych może rozpoznawać dane dowolnego typu i wytwarzać dane wyjściowe w tej samej strukturze. Dzięki temu można uniknąć zatrzymywania się, płynnie wykonywać zadania i zapewnić niezawodne ukończenie nawet dużych przepływów danych.
Generowanie procedur dynamicznych: oprócz wykonywania wstępnie zdefiniowanych procedur Gemini 2.0 Flash może generować procedury dynamicznie. Użytkownik może wpisać „utwórz kampanię marketingową na podstawie tego opisu produktu”, a Gemini 2.0 Flash wygeneruje niezbędne kroki (procedury) i wymagane komponenty, tworząc przepływ pracy na kanwie na podstawie ogólnego opisu użytkownika. Ta dynamiczna generacja otwiera ogromne możliwości w zakresie innowacyjnych wrażeń użytkowników i usprawnionych procesów.
Szybka realizacja innowacji
Szybka implementacja komputera przez tldraw pokazuje zalety Gemini dla startupów: szybkie prototypowanie, ulepszone wrażenia użytkowników dzięki intuicyjnym interfejsom w języku naturalnym oraz wydajne przetwarzanie danych strukturalnych dzięki modelom takim jak Gemini 2.0 Flash. Dzięki tej kombinacji małe zespoły mogą szybko i kosztowo efektywnie tworzyć innowacyjne funkcje oparte na AI.
„Chcemy pokazać, że każdy zespół może tworzyć ambitne projekty za pomocą pakietu SDK do tworzenia obrazów w tldraw. Gemini Flash to idealny mechanizm do szybkiego, multimodalnego narzędzia do obsługi procesu roboczego opartego na kanwie. Dzięki Gemini 2.0 i być może lepszej nazwie, jestem przekonany, że jutro będziemy mogli zaprezentować komputer jako samodzielny startup.
Zwiększanie możliwości aplikacji dzięki interfejsowi Gemini API
Zainspirowany sukcesem tldraw? Interfejs Gemini API udostępnia zaawansowane modele, takie jak Gemini 1.5 Pro, Gemini 1.5 Flash i teraz Gemini 2.0 Flash jako eksperymentalny model w wersji testowej, aby zapewnić Twojej aplikacji innowacyjne funkcje AI. Zapoznaj się z dokumentacją interfejsu Gemini API i umożliw użytkownikom korzystanie z AI.
Dla profesjonalistów w branży kreatywnej, programistów i różnego rodzaju zespołów tldraw stanowi wyjątkową i potężną platformę do wdrażania pomysłów. Dołącz do listy oczekujących na komputer. Poznaj przyszłość współpracy wizualnej już dziś.