共有

2024 年 12 月 11 日

Gemini が tldraw の「自然言語コンピューティング」エクスペリエンスを強化

Vishal Dharmadhikari

プロダクト ソリューション エンジニア

Steve Ruiz

Tldraw

Tldraw のショーケース ヒーロー

Gemini API による自然言語インタラクションの活用

Gemini API を使用すると、デベロッパーは高度な AI 機能をアプリケーションにシームレスに統合し、ユーザー エクスペリエンスと機能の新たな可能性を解き放つことができます。この投稿では、tldraw が Gemini を活用して、新しいプロジェクト computer 内に革新的な「自然言語コンピューティング」エクスペリエンスを構築する方法について説明します。これは、スタートアップが Gemini API と tldraw の キャンバス SDK を使用して、強力な AI を迅速かつ簡単に統合できることを示しています。tldraw チームは、まもなく Gemini 1.5 Flash を搭載したパソコンをリリースする予定です(順番待ちリストに登録)。現在、今後の反復処理に向けて Gemini 2.0 Flash でプロトタイプを作成しています。

tldraw は Gemini API を使用して、会話型 AI の機能をビジュアル プログラミングに導入し、ユーザーが自然言語を使用してコンテンツを生成したり、情報を処理したりできるようにしています。これにより、AI を活用した直感的で効率的なユーザー エクスペリエンスの可能性が広がり、視覚的コミュニケーションの境界を押し広げることができます。

Computer のビジョン

tldraw は、図の作成をよりアクセスしやすく直感的にすることを目標に、ユーザーがキャンバスをより自然に操作できるようにしました。創設者の Steve Ruiz は、tldraw の無限キャンバス SDK の力を活用して、生成 AI を扱うための動的環境を構築しようとしました。このビジョンから、computer が開発されました。これは、ユーザーがテキスト、画像、手順のブロックからワークフローを作成する試験運用版のアプリです。実行時に、情報はコンポーネント間で流れ、各世代の出力が次の世代の入力として機能し、分岐、ループ、反復処理を実行して出力を生成する強力なプロセスが作成されます。

Gemini 2.0 を使用した構築: Computer の詳細

tldraw のコンピュータは、キャンバス上の要素(テキスト ボックス、画像、音声クリップなど)を表す相互接続された「コンポーネント」のネットワーク上に構築されています。これらのコンポーネントは矢印でリンクされ、データフローと変換フローを可視化します。各コンポーネントには「プロシージャ」が関連付けられています。これは、接続されたコンポーネントからの入力に基づいて実行される一連の手順です。コンポーネントは、任意の数の他のコンポーネントからデータを受け入れ、出力データを自分自身を含む他の多くのコンポーネントに渡すことができます。このコンポーネント ベースのアーキテクチャと Gemini 2.0 Flash のパワーと速度を組み合わせることで、さまざまなタスクを処理できる高速で柔軟なシステムを実現できます。

Gemini 2.0 を使用したテキスト生成と画像生成モデルを使用した画像生成による、tldraw コンピュータの AI ビジュアル プログラミング

Gemini 2.0 Flash のプロトタイピングによって、次のようなエクスペリエンスが実現されています。


  • 手続きの高速実行: Gemini 2.0 Flash は手続きを高速に実行します。たとえば、「指示」コンポーネントには「短いコマーシャルを作成」と記載できます。トリガーされるとすぐに、コンポーネントは、入力の組み合わせをコマーシャル スクリプトに変換できる、再利用可能な手順のスクリプトを生成します。コンポーネントは、このスクリプトと現在の入力(「猫向けの新しい AI 搭載スマートグローブ」を含む「テキスト」コンポーネントなど)を使用して、モデルに 2 つ目のプロンプトを送信し、最終的な出力を生成します。この出力は、表示用に別のリンクされた「テキスト」コンポーネントに渡すことができます。また、テキスト読み上げ用の「音声」、画像生成用の「画像」、さらなる変換用の他の「指示」コンポーネントなど、他の接続されたコンポーネントに渡すこともできます。

  • 多くのコンテキスト、多くのモード: tldraw のコンピュータには、速度、容量、機能が求められました。生成ごとに複数のコンポーネントがデータを提供するため、Gemini 2.0 Flash の大きなコンテキスト ウィンドウは、すべての入力を考慮した出力を生成するために重要でした。また、テキスト プロンプトに加えて画像とファイルをサポートすることも重要でした。

  • 構造化データ: 単一のスキーマに準拠しなければ、コンポーネント間でのデータフローは不可能です。Gemini 2.0 Flash からの構造化 JSON 出力により、ワークフローの各コンポーネントがあらゆるタイプのデータを認識し、同じ構造で出力を生成できるため、停止を防ぎ、実行をスムーズにし、大規模なワークフローでも確実に完了できます。

  • 動的プロシージャの生成: Gemini 2.0 Flash では、事前定義されたプロシージャを実行するだけでなく、プロシージャを動的に生成できます。ユーザーが「この商品説明に基づいてマーケティング キャンペーンを作成」と入力すると、Gemini 2.0 Flash が必要な手順(プロシージャ)と必要なコンポーネントを生成し、ユーザーの大まかなリクエストに基づいてキャンバス上にワークフローを構築します。この動的生成により、革新的なユーザー エクスペリエンスとワークフローの効率化という大きな可能性を実現できます。

イノベーションの早期成功

tldraw のコンピュータの迅速な実装は、スタートアップにとっての Gemini の価値提案を際立たせています。Gemini の価値提案とは、迅速なプロトタイピング、直感的な自然言語インターフェースによるユーザー エクスペリエンスの向上、Gemini 2.0 Flash などのモデルによる効率的な構造化データ処理です。この組み合わせにより、小規模なチームでも AI を活用した革新的な機能を迅速かつ費用対効果の高い方法で作成できます。

「tldraw のキャンバス SDK を使用すると、どのチームでも野心的なプロジェクトを構築できることを示したいと思っています。Gemini Flash は、高速でマルチモーダルなキャンバスベースのワークフロー ツールに最適なエンジンでした。Gemini 2.0 と、おそらくより良い名前があれば、明日からコンピュータを独自のスタートアップとして売り込めると思います。」

- tldraw 創設者、Steve Ruiz 氏

Gemini API でアプリを強化する

tldraw の成功に触発されたのでしょうか?Gemini API には、Gemini 1.5 Pro、Gemini 1.5 Flash、そして試験運用版プレビュー モデルとして Gemini 2.0 Flash などの強力なモデルが用意されており、革新的な AI 機能をアプリケーションに導入できます。Gemini API のドキュメントを参照して、AI を活用してユーザーを支援しましょう。

tldraw は、クリエイティブなプロフェッショナル、デベロッパー、あらゆる種類のチームにとって、アイデアを実現するためのユニークで強力なプラットフォームです。パソコンの順番待ちリストに登録します。今すぐ、ビジュアル コラボレーションの未来を体験してください。