Делиться

11 ДЕКАБРЯ 2024 г.

Опыт Gemini Powers tldraw «Вычисления на естественном языке»

Вишал Дхармадхикари

Инженер по продуктовым решениям

Стив Руис

Тлдроу

Герой демонстрации Tldraw

Разблокировка взаимодействия на естественном языке с помощью Gemini API

Gemini API позволяет разработчикам легко интегрировать расширенные возможности искусственного интеллекта в свои приложения, открывая новые возможности для пользовательского опыта и функциональности. В этом посте рассказывается, как tldraw использует Gemini для создания революционного опыта «вычислений на естественном языке» в рамках своего нового проекта — Computer . Это демонстрирует скорость и легкость, с которой стартапы могут интегрировать мощный ИИ с помощью Gemini API и Canvas SDK tldraw. Команда tldraw скоро выпустит компьютер с Gemini 1.5 Flash ( присоединяйтесь к списку ожидания ) и в настоящее время разрабатывает прототипы с Gemini 2.0 Flash для будущих итераций.

tldraw использует API Gemini, чтобы привнести возможности диалогового ИИ в визуальное программирование, позволяя пользователям генерировать контент и обрабатывать информацию, используя естественный язык. Это открывает захватывающие возможности для более интуитивного и эффективного взаимодействия пользователей с ИИ, расширяя границы визуальной коммуникации.

Видение компьютера

Компания tldraw, стремясь сделать диаграммы доступными и интуитивно понятными, предложила пользователям более естественный способ взаимодействия с холстом. Основатель Стив Руис стремился использовать возможности бесконечного холста SDK tldraw для создания динамической среды для работы с генеративным искусственным интеллектом. Это видение привело к разработке компьютера — экспериментального приложения, в котором пользователи создают рабочие процессы из блоков текста, изображений и инструкций. При запуске информация передается от одного компонента к другому, при этом выходные данные каждого поколения служат входными данными для следующего, создавая мощные процессы, которые разветвляются, зацикливаются и повторяются для получения выходных данных.

Сборка с помощью Gemini 2.0: глубокое погружение в компьютер

Компьютер tldraw построен на сети взаимосвязанных «компонентов», представляющих элементы на холсте (текстовые поля, изображения, аудиоклипы и т. д.). Эти компоненты связаны стрелками, визуализируя поток данных и преобразования. С каждым компонентом связаны «процедуры» — наборы инструкций, выполняемые на основе входных данных подключенных компонентов. Компонент может принимать данные от любого количества других компонентов и передавать выходные данные многим другим компонентам, включая себя! Эта компонентная архитектура в сочетании с мощностью и скоростью Gemini 2.0 Flash позволяет создать быструю и гибкую систему, способную выполнять разнообразные задачи.

Визуальное программирование искусственного интеллекта на компьютере tldraw с генерацией текста с использованием Gemini 2.0 и генерацией изображений с помощью модели генерации изображений.

Вот как прототипирование Flash Gemini 2.0 улучшило этот опыт:


  • Молниеносное выполнение процедур: Gemini 2.0 Flash выполняет процедуры быстро. Например, компонент «Инструкция» может содержать «Написать небольшой рекламный ролик». Через несколько мгновений после запуска компонент сгенерирует повторно используемый сценарий шагов, который может превратить любую комбинацию входных данных в коммерческий сценарий. Затем компонент будет использовать этот сценарий вместе со своими текущими входными данными (например, компонентом «Текст» с «Новыми умными перчатками для кошек на базе искусственного интеллекта»), чтобы создать второе приглашение модели для окончательного вывода. Этот вывод может быть передан другому связанному компоненту «Текст» для отображения, а также другим подключенным компонентам, таким как «Речь» для преобразования текста в речь, «Изображение» для визуальной генерации или другим компонентам «Инструкция» для дальнейшего преобразования.

  • Много контекста, много режимов: максималистские наклонности в компьютере tldraw требовали скорости, мощности и возможностей. Благодаря множеству компонентов, предоставляющих данные для каждого поколения, большое контекстное окно Gemini 2.0 Flash имело решающее значение для создания выходных данных, учитывающих все входные данные, равно как и поддержка изображений и файлов наряду с письменными подсказками.

  • Структурированные данные. Поток данных между компонентами был бы невозможен без соблюдения единой схемы. Структурированный вывод JSON из Gemini 2.0 Flash гарантирует, что каждый компонент рабочего процесса может распознавать данные любого типа и создавать выходные данные в одной и той же структуре, предотвращая зависания, сглаживая выполнение и гарантируя надежное завершение даже больших рабочих процессов.

  • Динамическая генерация процедур. Помимо выполнения предопределенных процедур, Gemini 2.0 Flash может генерировать процедуры динамически. Пользователь может ввести «создать маркетинговую кампанию на основе этого описания продукта», и Gemini 2.0 Flash сгенерирует необходимые шаги (процедуры) и требуемые компоненты, выстроив рабочий процесс на холсте на основе запроса высокого уровня пользователя. Это динамичное поколение открывает огромный потенциал для инновационного пользовательского опыта и оптимизации рабочих процессов.

Быстрая победа в области инноваций

Быстрое внедрение компьютера в tldraw подчеркивает ценностное предложение Gemini для стартапов: быстрое создание прототипов, улучшенный пользовательский опыт благодаря интуитивно понятным интерфейсам на естественном языке и эффективная обработка структурированных данных благодаря таким моделям, как Gemini 2.0 Flash. Такое сочетание позволяет небольшим командам быстро и экономично создавать инновационные функции на базе искусственного интеллекта.

«Мы хотим показать, что любая команда может создавать амбициозные проекты с помощью Canvas SDK от tldraw. Gemini Flash был идеальным движком для быстрого, мультимодального инструмента рабочего процесса на основе холста. С Gemini 2.0 и, возможно, с лучшим названием, я почти уверен, что завтра мы сможем представить компьютер как отдельный стартап».

— Стив Руис, основатель tldraw

Расширьте возможности своего приложения с помощью Gemini API

Вдохновлены успехом tldraw? Gemini API предлагает мощные модели, такие как Gemini 1.5 Pro, Gemini 1.5 Flash, а теперь и Gemini 2.0 Flash, в качестве экспериментальной предварительной модели, позволяющей реализовать инновационные функции искусственного интеллекта в вашем приложении. Изучите документацию Gemini API и предоставьте своим пользователям возможности искусственного интеллекта.

Для творческих профессионалов, разработчиков и команд всех видов tldraw предлагает уникальную и мощную платформу для воплощения идей в жизнь. Присоединяйтесь к компьютерному списку ожидания . Откройте для себя будущее визуального сотрудничества уже сегодня .

Мультсутра

Использование возможностей контекстного многоязычного перевода Gemini 2.0 для того, чтобы сделать комиксы и веб-мультфильмы доступными для индийской аудитории на региональных языках.