اشتراک گذاری

۱۱ دسامبر ۲۰۲۴

تجربه "محاسبات زبان طبیعی" در Gemini Powers tldraw

ویشال دارمادیکاری

مهندس راهکارهای محصول

استیو روئیز

تلدراو

قهرمان ویترین Tldraw

گشودن قفل تعاملات زبان طبیعی با Gemini API

رابط برنامه‌نویسی نرم‌افزار Gemini به توسعه‌دهندگان این امکان را می‌دهد تا قابلیت‌های پیشرفته هوش مصنوعی را به طور یکپارچه در برنامه‌های خود ادغام کنند و امکانات جدیدی را برای تجربه کاربری و عملکرد فراهم کنند. این پست نشان می‌دهد که چگونه tldraw از Gemini برای ایجاد یک تجربه انقلابی "محاسبات زبان طبیعی" در پروژه جدید خود، یعنی کامپیوتر، استفاده می‌کند. این نشان دهنده سرعت و سهولتی است که استارتاپ‌ها می‌توانند با استفاده از رابط برنامه‌نویسی نرم‌افزار Gemini و Canvas SDK tldraw، هوش مصنوعی قدرتمند را ادغام کنند. تیم tldraw به زودی کامپیوتر را با Gemini 1.5 Flash عرضه می‌کند ( به لیست انتظار بپیوندید ) و در حال حاضر در حال نمونه‌سازی اولیه با Gemini 2.0 Flash برای نسخه‌های آینده است.

tldraw از رابط برنامه‌نویسی Gemini برای آوردن قدرت هوش مصنوعی محاوره‌ای به برنامه‌نویسی بصری استفاده می‌کند و به کاربران اجازه می‌دهد تا با استفاده از زبان طبیعی، محتوا تولید کرده و اطلاعات را پردازش کنند. این امر فرصت‌های هیجان‌انگیزی را برای تجربه کاربری شهودی‌تر و کارآمدتر در حوزه هوش مصنوعی ایجاد می‌کند و مرزهای ارتباط بصری را جابه‌جا می‌کند.

چشم‌انداز پشت کامپیوتر

tldraw، که تلاش می‌کرد رسم نمودار را در دسترس و شهودی کند، روشی طبیعی‌تر برای تعامل کاربران با بوم نقاشی خود در نظر داشت. استیو رویز، بنیانگذار، در پی بهره‌گیری از قدرت SDK بوم نقاشی بی‌نهایت tldraw برای ایجاد محیطی پویا برای کار با هوش مصنوعی مولد بود. این چشم‌انداز منجر به توسعه computer شد، یک برنامه آزمایشی که در آن کاربران گردش کار را از بلوک‌های متن، تصاویر و دستورالعمل‌ها ایجاد می‌کنند. هنگام اجرا، اطلاعات از یک جزء به جزء دیگر جریان می‌یابد و خروجی هر نسل به عنوان ورودی نسل بعدی عمل می‌کند و فرآیندهای قدرتمندی ایجاد می‌کند که برای تولید خروجی‌ها، شاخه‌بندی، حلقه‌بندی و تکرار می‌شوند.

ساختن با Gemini 2.0: نگاهی عمیق به کامپیوتر

کامپیوتر tldraw بر اساس شبکه‌ای از «اجزای» به هم پیوسته ساخته شده است که عناصر روی بوم (جعبه‌های متنی، تصاویر، کلیپ‌های صوتی و غیره) را نشان می‌دهند. این اجزا توسط فلش‌ها به هم متصل شده‌اند و جریان داده‌ها و تبدیل‌ها را تجسم می‌کنند. هر جزء دارای «رویه‌ها»ی مرتبط است - مجموعه‌ای از دستورالعمل‌ها که بر اساس ورودی‌های اجزای متصل اجرا می‌شوند. یک جزء می‌تواند داده‌ها را از هر تعداد جزء دیگر بپذیرد و داده‌های خروجی خود را به بسیاری از اجزای دیگر - از جمله خودش - منتقل کند! این معماری مبتنی بر جزء، همراه با قدرت و سرعت Gemini 2.0 Flash، امکان ایجاد یک سیستم سریع و انعطاف‌پذیر را فراهم می‌کند که قادر به انجام وظایف متنوع است.

برنامه‌نویسی بصری هوش مصنوعی کامپیوتر tldraw با تولید متن با استفاده از Gemini 2.0 و تولید تصویر با یک مدل تولید تصویر

در اینجا نحوه‌ی تأثیرگذاری نمونه‌سازی اولیه‌ی Gemini 2.0 Flash بر این تجربه آمده است:


  • اجرای سریع رویه‌ها: فلش Gemini 2.0 رویه‌ها را به سرعت اجرا می‌کند. برای مثال، یک کامپوننت "دستورالعمل" ممکن است شامل "نوشتن یک تبلیغ کوتاه" باشد. در عرض چند لحظه پس از فعال شدن، این کامپوننت یک اسکریپت قابل استفاده مجدد از مراحل ایجاد می‌کند که می‌تواند هر ترکیبی از ورودی‌ها را به یک اسکریپت تجاری تبدیل کند. سپس این کامپوننت از این اسکریپت، همراه با ورودی‌های فعلی خود (مثلاً یک کامپوننت "متن" با "دستکش‌های هوشمند جدید با هوش مصنوعی برای گربه‌ها") استفاده می‌کند تا یک درخواست دوم به مدل برای خروجی نهایی خود ایجاد کند. این خروجی ممکن است برای نمایش به یک کامپوننت "متن" مرتبط دیگر و همچنین به سایر کامپوننت‌های متصل، مانند "گفتار" برای تبدیل متن به گفتار، "تصویر" برای تولید تصویر یا سایر کامپوننت‌های "دستورالعمل" برای تبدیل بیشتر، منتقل شود.

  • انبوهی از محتوا، حالت‌های مختلف: گرایش حداکثری به کامپیوتر tldraw، سرعت، ظرفیت و توانایی را ایجاب می‌کرد. با وجود اجزای متعدد که داده‌ها را برای هر نسل فراهم می‌کنند، پنجره بزرگ محتوا در Gemini 2.0 Flash برای تولید خروجی‌هایی که تمام ورودی‌ها را در نظر می‌گیرند، حیاتی بود، همانطور که پشتیبانی آن از تصاویر و فایل‌ها در کنار دستورات نوشتاری نیز مهم بود.

  • داده‌های ساختاریافته: جریان داده‌ها بین اجزا بدون پایبندی به یک طرحواره واحد امکان‌پذیر نخواهد بود. خروجی ساختاریافته JSON از Gemini 2.0 Flash تضمین می‌کند که هر جزء در یک گردش کار می‌تواند داده‌ها را از هر نوع تشخیص دهد و خروجی‌های خود را در همان ساختار تولید کند، از توقف‌ها جلوگیری کند، اجرا را روان‌تر کند و اطمینان حاصل کند که حتی گردش‌های کاری بزرگ نیز به طور قابل اعتمادی تکمیل می‌شوند.

  • تولید پویای رویه‌ها: فراتر از اجرای رویه‌های از پیش تعریف‌شده، Gemini 2.0 Flash می‌تواند رویه‌ها را به صورت پویا تولید کند. یک کاربر می‌تواند عبارت «ایجاد یک کمپین بازاریابی بر اساس این توضیحات محصول» را وارد کند و Gemini 2.0 Flash مراحل لازم (رویه‌ها) و اجزای مورد نیاز را تولید می‌کند و بر اساس درخواست سطح بالای کاربر، یک گردش کار روی بوم ایجاد می‌کند. این تولید پویا، پتانسیل فوق‌العاده‌ای را برای تجربیات کاربری نوآورانه و گردش‌های کاری ساده‌شده فراهم می‌کند.

یک پیروزی سریع برای نوآوری

پیاده‌سازی سریع tldraw از کامپیوتر، ارزش پیشنهادی Gemini را برای استارت‌آپ‌ها برجسته می‌کند: نمونه‌سازی سریع، تجربه کاربری بهبود یافته از طریق رابط‌های زبان طبیعی بصری و مدیریت کارآمد داده‌های ساختاریافته به لطف مدل‌هایی مانند Gemini 2.0 Flash. این ترکیب به تیم‌های کوچک قدرت می‌دهد تا ویژگی‌های نوآورانه و مبتنی بر هوش مصنوعی را به سرعت و با هزینه‌ای مقرون‌به‌صرفه ایجاد کنند.

«ما می‌خواهیم نشان دهیم که هر تیمی می‌تواند با استفاده از SDK بوم tldraw پروژه‌های بلندپروازانه‌ای بسازد. Gemini Flash یک موتور عالی برای یک ابزار گردش کار سریع، چندوجهی و مبتنی بر بوم بود. با Gemini 2.0 و شاید یک نام بهتر، مطمئنم که می‌توانیم فردا computer را به عنوان یک استارتاپ مستقل معرفی کنیم.»

— استیو رویز، بنیانگذار tldraw

برنامه خود را با Gemini API قدرتمند کنید

از موفقیت tldraw الهام گرفته‌اید؟ رابط برنامه‌نویسی نرم‌افزار Gemini مدل‌های قدرتمندی مانند Gemini 1.5 Pro، Gemini 1.5 Flash و اکنون Gemini 2.0 Flash را به عنوان یک مدل پیش‌نمایش آزمایشی ارائه می‌دهد تا ویژگی‌های نوآورانه هوش مصنوعی را به برنامه شما بیاورد. مستندات رابط برنامه‌نویسی نرم‌افزار Gemini را بررسی کنید و کاربران خود را با هوش مصنوعی توانمند سازید.

برای متخصصان خلاق، توسعه‌دهندگان و تیم‌های مختلف، tldraw یک پلتفرم منحصر به فرد و قدرتمند برای تحقق ایده‌ها ارائه می‌دهد. به لیست انتظار کامپیوتر بپیوندید . آینده همکاری بصری را امروز تجربه کنید.

تونسوترا

با بهره‌گیری از قابلیت‌های ترجمه چندزبانه متنی Gemini 2.0، کمیک‌ها و وب‌تون‌ها برای مخاطبان هندی در سراسر زبان‌های منطقه‌ای قابل دسترسی خواهند بود.