Делиться

11 декабря 2024 г.

Gemini обеспечивает работу tldraw в области вычислений на естественном языке

Вишал Дхармадхикари

Инженер по продуктовым решениям

Стив Руис

Tldraw

Герой выставки Tldraw

Раскрытие возможностей взаимодействия на естественном языке с API Gemini

API Gemini позволяет разработчикам легко интегрировать передовые возможности ИИ в свои приложения, открывая новые возможности для пользовательского опыта и функциональности. В этой публикации рассказывается, как tldraw использует Gemini для создания революционного интерфейса «вычислений на естественном языке» в своём новом проекте computer . Это демонстрирует, насколько быстро и легко стартапы могут интегрировать мощный ИИ с помощью API Gemini и Canvas SDK от tldraw. Команда tldraw скоро выпустит computer с Gemini 1.5 Flash ( присоединяйтесь к листу ожидания ) и в настоящее время разрабатывает прототип с Gemini 2.0 Flash для будущих версий.

tldraw использует API Gemini, чтобы привнести возможности разговорного ИИ в визуальное программирование, позволяя пользователям создавать контент и обрабатывать информацию, используя естественный язык. Это открывает захватывающие возможности для более интуитивного и эффективного взаимодействия с ИИ, расширяя границы визуальной коммуникации.

Видение, лежащее в основе компьютера

Стремясь сделать построение диаграмм доступным и интуитивно понятным, компания tldraw предложила пользователям более естественный способ взаимодействия с холстом. Основатель компании Стив Руис стремился использовать возможности бесконечного пакета SDK tldraw для создания динамической среды для работы с генеративным ИИ. Эта идея привела к разработке computer , экспериментального приложения, в котором пользователи создают рабочие процессы из блоков текста, изображений и инструкций. При запуске информация передается от одного компонента к другому, а выходные данные каждого поколения служат входными данными для следующего, создавая мощные процессы, которые разветвляются, циклически и итерируются для получения выходных данных.

Разработка с Gemini 2.0: глубокое погружение в компьютер

Компьютер tldraw построен на основе сети взаимосвязанных «компонентов», представляющих элементы на холсте (текстовые поля, изображения, аудиоклипы и т. д.). Эти компоненты связаны стрелками, визуализирующими поток данных и преобразований. Каждый компонент имеет связанные «процедуры» — наборы инструкций, выполняемых на основе входных данных подключенных компонентов. Компонент может принимать данные от любого количества других компонентов и передавать выходные данные множеству других компонентов, включая себя самого! Эта компонентная архитектура в сочетании с мощностью и скоростью Gemini 2.0 Flash позволяет создать быструю и гибкую систему, способную выполнять самые разные задачи.

Визуальное программирование искусственного интеллекта компьютера tldraw с генерацией текста с использованием Gemini 2.0 и генерацией изображений с помощью модели генерации изображений

Вот как прототипирование Gemini 2.0 Flash помогло нам в этом:


  • Молниеносное выполнение процедур: Gemini 2.0 Flash выполняет процедуры очень быстро. Например, компонент «Инструкция» может содержать команду «Написать короткий рекламный ролик». В считанные секунды после запуска компонент сгенерирует многоразовый сценарий, состоящий из шагов, способных превратить любую комбинацию входных данных в рекламный сценарий. Затем компонент использует этот сценарий вместе со своими текущими входными данными (например, компонент «Текст» с командой «Новые умные перчатки для кошек с искусственным интеллектом»), чтобы сформировать второй запрос к модели для вывода окончательного результата. Этот результат может быть передан другому связанному компоненту «Текст» для отображения, а также другим подключенным компонентам, таким как «Речь» для преобразования текста в речь, «Изображение» для создания визуальных эффектов или другим компонентам «Инструкция» для дальнейшего преобразования.

  • Множество контекста, множество режимов: максималистские наклонности компьютера tldraw требовали скорости, производительности и функциональности. Учитывая, что данные для каждого поколения предоставлялись несколькими компонентами, большое контекстное окно Gemini 2.0 Flash имело решающее значение для создания выходных данных, учитывающих все входные данные, как и поддержка изображений и файлов наряду с текстовыми подсказками.

  • Структурированные данные: Обмен данными между компонентами был бы невозможен без соблюдения единой схемы. Структурированный вывод JSON в Gemini 2.0 Flash гарантирует, что каждый компонент рабочего процесса может распознавать данные любого типа и выдавать выходные данные в единой структуре, предотвращая зависания, обеспечивая плавность выполнения и гарантируя надежное завершение даже больших рабочих процессов.

  • Динамическая генерация процедур: Помимо выполнения предопределённых процедур, Gemini 2.0 Flash может генерировать процедуры динамически. Пользователь может ввести «создать маркетинговую кампанию на основе этого описания продукта», и Gemini 2.0 Flash сгенерирует необходимые шаги (процедуры) и необходимые компоненты, выстраивая рабочий процесс на основе общего запроса пользователя. Такая динамическая генерация открывает огромный потенциал для инновационного пользовательского опыта и оптимизированных рабочих процессов.

Быстрая победа инноваций

Быстрое внедрение tldraw на компьютере подчёркивает ценность предложения Gemini для стартапов: быстрое создание прототипов, улучшенный пользовательский опыт благодаря интуитивно понятным интерфейсам на естественном языке и эффективная структурированная обработка данных благодаря таким моделям, как Gemini 2.0 Flash. Это сочетание позволяет небольшим командам быстро и экономично создавать инновационные функции на базе искусственного интеллекта.

Мы хотим показать, что любая команда может создавать амбициозные проекты с помощью Canvas SDK от tldraw. Gemini Flash стал идеальным движком для быстрого, мультимодального инструмента для управления рабочим процессом на основе Canvas. С Gemini 2.0 и, возможно, более удачным названием, я почти уверен, что уже завтра мы сможем представить компьютер как отдельный стартап.

— Стив Руис, основатель tldraw

Расширьте возможности своего приложения с помощью API Gemini

Вдохновлены успехом tldraw? API Gemini предлагает мощные модели, такие как Gemini 1.5 Pro, Gemini 1.5 Flash, а теперь и Gemini 2.0 Flash в качестве экспериментальной ознакомительной модели, чтобы добавить инновационные функции ИИ в ваше приложение. Изучите документацию по API Gemini и предоставьте своим пользователям возможности ИИ.

Для творческих профессионалов, разработчиков и команд любого уровня tldraw предлагает уникальную и мощную платформу для воплощения идей в жизнь. Запишитесь в список ожидания для пользователей компьютеров . Почувствуйте будущее визуального взаимодействия уже сегодня .

Toonsutra

Использование возможностей контекстного многоязыкового перевода Gemini 2.0 для того, чтобы сделать комиксы и веб-фильмы доступными для аудитории в Индии на всех региональных языках.