Делиться

11 декабря 2024 г.

Опыт компании Gemini Powers в области "вычислений на естественном языке" от tldraw

Вишал Дхармадхикари

Инженер по разработке продуктовых решений

Стив Руис

Tldraw

Tldraw showcase hero

Раскрытие возможностей взаимодействия на естественном языке с помощью API Gemini

API Gemini позволяет разработчикам беспрепятственно интегрировать передовые возможности искусственного интеллекта в свои приложения, открывая новые перспективы для пользовательского опыта и функциональности. В этой статье рассказывается о том, как tldraw использует Gemini для создания революционного опыта «вычислений естественного языка» в рамках своего нового проекта computer . Это демонстрирует скорость и простоту, с которой стартапы могут интегрировать мощный ИИ, используя API Gemini и SDK canvas от tldraw. Команда tldraw скоро запустит computer с Gemini 1.5 Flash ( присоединяйтесь к списку ожидания ) и в настоящее время занимается прототипированием с Gemini 2.0 Flash для будущих итераций.

tldraw использует API Gemini, чтобы привнести возможности разговорного ИИ в визуальное программирование, позволяя пользователям создавать контент и обрабатывать информацию с помощью естественного языка. Это открывает захватывающие возможности для более интуитивно понятного и эффективного взаимодействия с ИИ, расширяя границы визуальной коммуникации.

Концепция, лежащая в основе компьютера

Компания tldraw, стремясь сделать создание диаграмм доступным и интуитивно понятным, задумала более естественный способ взаимодействия пользователей с холстом. Основатель Стив Руис стремился использовать возможности SDK Infinite Canvas от tldraw для создания динамической среды для работы с генеративным ИИ. Это видение привело к разработке приложения Computer — экспериментального приложения, в котором пользователи создают рабочие процессы из блоков текста, изображений и инструкций. При запуске информация передается от одного компонента к другому, при этом выходные данные каждого поколения служат входными данными для следующего, создавая мощные процессы, которые разветвляются, зацикливаются и итерируют для получения результатов.

Строительство с помощью Gemini 2.0: глубокое погружение в мир вычислительной техники.

Компьютерная часть TLDraw построена на основе сети взаимосвязанных «компонентов», представляющих элементы на холсте (текстовые поля, изображения, аудиоклипы и т. д.). Эти компоненты соединены стрелками, визуализирующими поток данных и преобразований. Каждый компонент имеет связанные с ним «процедуры» — наборы инструкций, выполняемых на основе входных данных от подключенных компонентов. Компонент может принимать данные от любого количества других компонентов и передавать свои выходные данные многим другим компонентам, включая себя самого! Эта компонентно-ориентированная архитектура в сочетании с мощностью и скоростью Gemini 2.0 Flash позволяет создать быструю и гибкую систему, способную обрабатывать разнообразные задачи.

tldraw — визуальное программирование с использованием ИИ для компьютера, генерация текста с помощью Gemini 2.0 и генерация изображений с помощью модели генерации изображений.

Вот как технология прототипирования Gemini 2.0 Flash обеспечила этот пользовательский опыт:


  • Молниеносное выполнение процедур: Gemini 2.0 Flash выполняет процедуры очень быстро. Например, компонент «Инструкция» может содержать «Напишите короткий рекламный ролик». В считанные мгновения после запуска компонент сгенерирует многоразовый сценарий шагов, который может преобразовать любую комбинацию входных данных в сценарий рекламного ролика. Затем компонент использует этот сценарий вместе со своими текущими входными данными (например, компонент «Текст» с «Новые умные перчатки для кошек с искусственным интеллектом»), чтобы создать второй запрос для модели на окончательный результат. Этот результат может быть передан другому связанному компоненту «Текст» для отображения, а также другим подключенным компонентам, таким как «Речь» для преобразования текста в речь, «Изображение» для визуальной генерации или другим компонентам «Инструкция» для дальнейшего преобразования.

  • Много контекста, множество режимов: максималистский подход tldraw к вычислительной мощности требовал скорости, емкости и возможностей. Поскольку данные для каждого поколения предоставлялись несколькими компонентами, большое контекстное окно Gemini 2.0 Flash имело решающее значение для создания выходных данных, учитывающих все входные данные, как и поддержка изображений и файлов наряду с текстовыми подсказками.

  • Структурированные данные: Поток данных между компонентами был бы невозможен без соблюдения единой схемы. Структурированный JSON-вывод из Gemini 2.0 Flash гарантирует, что каждый компонент в рабочем процессе сможет распознавать данные любого типа и выдавать свои результаты в одной и той же структуре, предотвращая задержки, упрощая выполнение и обеспечивая надежное завершение даже больших рабочих процессов.

  • Динамическая генерация процедур: помимо выполнения предопределенных процедур, Gemini 2.0 Flash может генерировать процедуры динамически. Пользователь может ввести «создать маркетинговую кампанию на основе этого описания продукта», и Gemini 2.0 Flash сгенерирует необходимые шаги (процедуры) и требуемые компоненты, построив рабочий процесс на холсте на основе общего запроса пользователя. Эта динамическая генерация открывает огромный потенциал для инновационного пользовательского опыта и оптимизации рабочих процессов.

Быстрый выигрыш для инноваций

Быстрая реализация компьютерных функций в tldraw подчеркивает преимущества Gemini для стартапов: быстрое прототипирование, улучшенный пользовательский опыт благодаря интуитивно понятным интерфейсам на естественном языке и эффективная обработка структурированных данных благодаря таким моделям, как Gemini 2.0 Flash. Это сочетание позволяет небольшим командам быстро и экономично создавать инновационные функции на основе искусственного интеллекта.

«Мы хотим показать, что любая команда может создавать амбициозные проекты с помощью SDK Canvas от tldraw. Gemini Flash идеально подходил для быстрого, многомодального инструмента для рабочих процессов на основе Canvas. С Gemini 2.0 и, возможно, более удачным названием, я почти уверен, что мы могли бы представить компанию computer как самостоятельный стартап уже завтра».

— Стив Руис, основатель tldraw

Расширьте возможности своего приложения с помощью API Gemini.

Вдохновлены успехом tldraw? API Gemini предлагает мощные модели, такие как Gemini 1.5 Pro, Gemini 1.5 Flash, а теперь и Gemini 2.0 Flash в качестве экспериментальной предварительной версии, чтобы внедрить инновационные функции ИИ в ваше приложение. Изучите документацию API Gemini и расширьте возможности своих пользователей с помощью ИИ.

Для творческих профессионалов, разработчиков и команд любого типа tldraw предлагает уникальную и мощную платформу для воплощения идей в жизнь. Присоединяйтесь к списку ожидания на получение компьютера . Ощутите будущее визуального сотрудничества уже сегодня .

Тонсутра

Использование возможностей контекстного многоязычного перевода Gemini 2.0 позволяет сделать комиксы и веб-комиксы доступными для аудитории в Индии на разных региональных языках.