2024 年 12 月 11 日
Gemini 为 tldraw 的“自然语言计算”体验提供支持
使用 Gemini API 实现自然语言互动
Gemini API 可让开发者将先进的 AI 功能无缝集成到其应用中,从而为用户体验和功能开拓新的可能性。本文重点介绍了 tldraw 如何利用 Gemini 在其新项目 computer 中打造革命性的“自然语言计算”体验。这证明了初创公司可以使用 Gemini API 和 tldraw 的 Canvas SDK 快速轻松地集成强大的 AI 技术。tldraw 团队即将推出采用 Gemini 1.5 Flash 的计算机版(加入等候名单),目前正在使用 Gemini 2.0 Flash 制作原型,以便日后进行迭代。
tldraw 使用 Gemini API 将对话式 AI 的强大功能引入到可视化编程中,让用户能够使用自然语言生成内容和处理信息。这为打造更直观、更高效的 AI 用户体验带来了令人兴奋的机遇,推动了视觉传达的边界。
计算机背后的愿景
tldraw 致力于让绘制图表变得简单易用且直观,因此设想了一种更自然的方式来让用户与画布互动。创始人 Steve Ruiz 力求利用 tldraw 的无限画布 SDK 的强大功能,打造一个可与生成式 AI 协同工作的动态环境。这一愿景促成了 computer 的开发,这是一个实验性应用,用户可以使用文本块、图片和说明来创建工作流。运行时,信息会从一个组件流向下一个组件,每个生成代的输出都作为下一个生成代的输入,从而创建强大的分支、循环和迭代过程来生成输出。
使用 Gemini 2.0 进行构建:深入了解 Computer
tldraw 的计算机基于由互连的“组件”组成的网络构建而成,这些组件代表画布上的元素(文本框、图片、音频片段等)。这些组件通过箭头相连,直观呈现数据和转换的流程。每个组件都有关联的“过程”:一系列根据来自关联组件的输入而执行的指令。一个组件可以接受来自任意数量的其他组件的数据,并将其输出数据传递给许多其他组件(包括自身)!这种基于组件的架构与 Gemini 2.0 Flash 的强大功能和速度相结合,可打造出能够处理各种任务的快速灵活系统。
下面是 Gemini 2.0 Flash 原型如何为该体验提供支持:
程序执行速度极快:Gemini 2.0 Flash 可快速执行程序。例如,“Instruction”组件可能包含“Write a short commercial”(撰写短广告)。在触发后几秒钟内,该组件就会生成可重复使用的步骤脚本,可将任何输入组合转换为广告脚本。然后,该组件将使用此脚本以及其当前输入(例如,包含“新推出的 AI 赋能的猫用智能手套”的“文本”组件)向模型发出第二个提示,以获取最终输出。此输出可以传递给另一个关联的“文本”组件以进行显示,以及其他关联的组件,例如用于文本转语音的“语音”组件、用于视觉生成的“图片”组件,或用于进一步转换的其他“Instruction”组件。
大量上下文、多种模式:tldraw 计算机的极简主义倾向需要速度、容量和功能。由于每次生成时都有多个组件提供数据,因此 Gemini 2.0 Flash 的大型上下文窗口对于生成能考虑到所有输入的输出至关重要,此外,它还支持图片和文件以及书面提示。
结构化数据:如果不遵循单一架构,组件之间就无法流通数据。Gemini 2.0 Flash 提供的结构化 JSON 输出可确保工作流中的每个组件都能识别任何类型的数据,并以相同的结构生成输出,从而防止卡顿、平滑执行,并确保即使大型工作流也能可靠完成。
动态过程生成:除了执行预定义的流程之外,Gemini 2.0 Flash 还可以动态生成流程。用户可以输入“根据此商品说明制作营销活动”,Gemini 2.0 Flash 会生成必要的步骤(流程)和所需的组件,并根据用户的高级请求在画布上构建工作流。这种动态生成功能为创新的用户体验和简化的工作流程释放了巨大潜力。
快速实现创新
tldraw 快速实现计算机,突出体现了 Gemini 对初创企业的价值主张:快速原型设计、通过直观的自然语言界面提升用户体验,以及借助 Gemini 2.0 Flash 等模型高效处理结构化数据。这种组合可让小型团队快速、经济高效地打造依托 AI 技术的创新功能。
我们希望向大家展示,任何团队都可以使用 tldraw 的画布 SDK 构建雄心勃勃的项目。Gemini Flash 是快速、多模态、基于画布的协作工作流工具的理想引擎。有了 Gemini 2.0,或许还能取个更好的名字,我很确定我们明天就可以将 computer 作为一家独立的创业公司推介了。”
利用 Gemini API 赋能您的应用
受到 tldraw 的成功启发?Gemini API 提供强大的模型(例如 Gemini 1.5 Pro、Gemini 1.5 Flash,现在还提供 Gemini 2.0 Flash 作为实验性预览模型),可为您的应用带来创新的 AI 功能。探索 Gemini API 文档,为用户赋予 AI 赋能。
tldraw 为各种类型的创意专业人士、开发者和团队提供了一个独特且强大的平台,可将创意变为现实。加入计算机等候名单。立即体验未来的视觉协作方式。