Gemini يتيح تجربة "الحوسبة باللغة الطبيعية" في tldraw
فيشال دارماديكاري
مهندس حلول المنتجات
ستيف رويز
Tldraw
إتاحة التفاعلات باللغة الطبيعية باستخدام Gemini API
تتيح Gemini API للمطوّرين دمج إمكانات الذكاء الاصطناعي المتقدّمة بسلاسة في تطبيقاتهم، ما يفتح آفاقًا جديدة لتجربة المستخدم ووظائف التطبيقات. توضّح هذه المشاركة كيف تستفيد tldraw من Gemini لإنشاء تجربة ثورية في "الحوسبة باللغة الطبيعية" ضمن مشروعها الجديد computer. يوضّح هذا المثال السرعة والسهولة التي يمكن للشركات الناشئة من خلالها دمج الذكاء الاصطناعي الفعّال باستخدام Gemini API وحزمة تطوير البرامج (SDK) الخاصة بلوحة العرض في tldraw. سيطلق فريق tldraw قريبًا تطبيق computer باستخدام Gemini 1.5 Flash (يمكنك الانضمام إلى قائمة الانتظار)، ويختبر حاليًا Gemini 2.0 Flash لإصدارات مستقبلية.
تستخدم منصة tldraw واجهة Gemini API للاستفادة من إمكانات الذكاء الاصطناعي الحواري في البرمجة المرئية، ما يتيح للمستخدمين إنشاء المحتوى ومعالجة المعلومات باستخدام اللغة الطبيعية. يفتح هذا التحديث فرصًا مثيرة لتقديم تجربة مستخدم أكثر سهولة وفعالية في ما يتعلّق بالذكاء الاصطناعي، ما يدفع حدود التواصل المرئي إلى آفاق جديدة.
الرؤية من وراء الكمبيوتر
سعت أداة tldraw إلى تسهيل عملية إنشاء المخططات وجعلها أكثر سلاسة، وتصوّرت طريقة أكثر طبيعية ليتفاعل المستخدمون من خلالها مع لوحة العرض. سعى المؤسس "ستيف رويز" إلى الاستفادة من إمكانات حزمة تطوير البرامج (SDK) الخاصة بلوحة tldraw اللانهائية لإنشاء بيئة ديناميكية للعمل باستخدام الذكاء الاصطناعي التوليدي. أدت هذه الرؤية إلى تطوير computer، وهو تطبيق تجريبي يتيح للمستخدمين إنشاء سير عمل من مربّعات النصوص والصور والتعليمات. عند تشغيلها، تنتقل المعلومات من مكوّن إلى آخر، وتكون نتيجة كل عملية إنشاء هي المدخل للعملية التالية، ما يؤدي إلى إنشاء عمليات فعّالة تتفرّع وتتكرّر وتتكرّر لإنتاج النتائج.
الاستفادة من Gemini 2.0: نظرة تفصيلية على علوم الكمبيوتر
تم إنشاء كمبيوتر tldraw استنادًا إلى شبكة من "المكوّنات" المترابطة التي تمثّل العناصر على لوحة العرض (مربّعات النصوص والصور ومقاطع الصوت وما إلى ذلك). يتم ربط هذه المكوّنات بواسطة أسهم، ما يوضّح تدفّق البيانات وعمليات التحويل. يتضمّن كل مكوّن "إجراءات" مرتبطة به، وهي مجموعات من التعليمات التي يتم تنفيذها استنادًا إلى المدخلات من المكوّنات المتصلة. يمكن لأحد المكوّنات قبول البيانات من أي عدد من المكوّنات الأخرى وتمرير بيانات الإخراج إلى العديد من المكوّنات الأخرى، بما في ذلك المكوّن نفسه. تتيح هذه البنية المستندة إلى المكوّنات، إلى جانب قوة وسرعة نموذج Gemini 2.0 Flash، نظامًا سريعًا ومرنًا قادرًا على التعامل مع مهام متنوعة.
tldraw computer: برمجة مرئية بالذكاء الاصطناعي مع إنشاء النصوص باستخدام Gemini 2.0 وإنشاء الصور باستخدام نموذج إنشاء الصور
في ما يلي كيف ساهمت النماذج الأولية من 2.0 Flash في Gemini في تحسين التجربة:
تنفيذ الإجراءات بسرعة فائقة: ينفّذ Gemini 2.0 Flash الإجراءات بسرعة. على سبيل المثال، قد يحتوي مكوّن "التعليمات" على "كتابة إعلان تجاري قصير". في غضون لحظات من تشغيل المكوّن، سينشئ نصًا برمجيًا قابلاً لإعادة الاستخدام يتضمّن خطوات يمكنها تحويل أي مجموعة من المدخلات إلى نص برمجي تجاري. سيستخدم المكوّن بعد ذلك هذا النص البرمجي، بالإضافة إلى مدخلاته الحالية (مثل مكوّن "نص" مع "قفازات ذكية جديدة تعمل بالذكاء الاصطناعي للقطط")، لإنشاء طلب ثانٍ إلى النموذج للحصول على الناتج النهائي. يمكن تمرير هذا الناتج إلى مكوّن "نص" آخر مرتبط لعرضه، بالإضافة إلى مكوّنات أخرى مرتبطة، مثل "كلام" لتحويل النص إلى كلام، أو "صورة" لإنشاء صور، أو مكوّنات "تعليمات" أخرى لإجراء المزيد من عمليات التحويل.
الكثير من السياق، والعديد من الأوضاع: يتطلّب النهج الأقصى في حاسوب tldraw السرعة والسعة والقدرة. بما أنّ ميزة "التفكير السريع" في Gemini 2.0 تستخدم عدة مكوّنات لتوفير البيانات لكل عملية إنشاء، كانت قدرة الاستيعاب الكبيرة ضرورية لإنتاج نتائج تأخذ جميع المدخلات في الاعتبار، كما أنّ إمكانية استخدام الصور والملفات إلى جانب الطلبات المكتوبة كانت ضرورية أيضًا.
البيانات المنظَّمة: لا يمكن أن يتم تبادل البيانات بين المكوّنات بدون الالتزام بمخطط واحد. يضمن الناتج المنظَّم بتنسيق JSON من Gemini 2.0 Flash أن يتمكّن كل مكوّن في سير العمل من التعرّف على البيانات من أي نوع وإنتاج مخرجاته في البنية نفسها، ما يمنع حدوث أي توقّف مؤقت ويؤدي إلى تنفيذ سلس ويضمن إكمال حتى عمليات سير العمل الكبيرة بشكل موثوق.
إنشاء إجراءات ديناميكية: بالإضافة إلى تنفيذ الإجراءات المحدّدة مسبقًا، يمكن لنموذج 2.0 Flash من Gemini إنشاء إجراءات ديناميكية. يمكن للمستخدم إدخال طلب مثل "إنشاء حملة تسويقية استنادًا إلى وصف المنتج هذا"، وسينشئ Gemini 2.0 Flash الخطوات اللازمة (الإجراءات) والمكوّنات المطلوبة، وينشئ سير عمل على لوحة العرض استنادًا إلى طلب المستخدم العام. تتيح هذه الميزة إمكانات هائلة لتوفير تجارب مبتكرة للمستخدمين وتبسيط سير العمل.
إنجاز سريع في مجال الابتكار
إنّ التنفيذ السريع الذي أجرته tldraw يسلّط الضوء على القيمة التي يقدّمها Gemini للشركات الناشئة، وهي: إنشاء نماذج أولية بسرعة، وتحسين تجربة المستخدم من خلال واجهات سهلة الاستخدام بلغة طبيعية، والتعامل بكفاءة مع البيانات المنظَّمة بفضل نماذج مثل Gemini 2.0 Flash. تتيح هذه المجموعة للفرق الصغيرة إنشاء ميزات مبتكرة مستندة إلى الذكاء الاصطناعي بسرعة وبتكلفة مناسبة.
"نريد أن نوضّح أنّ بإمكان أي فريق إنشاء مشاريع طموحة باستخدام حزمة تطوير البرامج (SDK) الخاصة بلوحة العرض tldraw. كان Gemini Flash محركًا مثاليًا لأداة سير عمل سريعة ومتعددة الوسائط تستند إلى لوحة العرض. أنا متأكد من أنّنا سنتمكّن من إطلاق شركة ناشئة جديدة غدًا إذا استخدمنا Gemini 2.0 وربما اسمًا أفضل."
— "ستيف رويز"، مؤسِّس tldraw
تعزيز تطبيقك باستخدام Gemini API
هل استلهمت فكرة تطبيقك من نجاح تطبيق tldraw؟ توفّر Gemini API نماذج قوية، مثل Gemini 1.5 Pro وGemini 1.5 Flash، والآن Gemini 2.0 Flash كنموذج تجريبي لمعاينة الميزات، وذلك بهدف توفير ميزات مبتكرة تعمل بالذكاء الاصطناعي لتطبيقك. استكشِف مستندات Gemini API وقدِّم للمستخدمين إمكانات الذكاء الاصطناعي.
[[["يسهُل فهم المحتوى.","easyToUnderstand","thumb-up"],["ساعَدني المحتوى في حلّ مشكلتي.","solvedMyProblem","thumb-up"],["غير ذلك","otherUp","thumb-up"]],[["لا يحتوي على المعلومات التي أحتاج إليها.","missingTheInformationINeed","thumb-down"],["الخطوات معقدة للغاية / كثيرة جدًا.","tooComplicatedTooManySteps","thumb-down"],["المحتوى قديم.","outOfDate","thumb-down"],["ثمة مشكلة في الترجمة.","translationIssue","thumb-down"],["مشكلة في العيّنات / التعليمات البرمجية","samplesCodeIssue","thumb-down"],["غير ذلك","otherDown","thumb-down"]],[],[],[],null,["[](/showcase) \nShare\nDEC 11, 2024 \n\nGemini Powers tldraw's \"Natural Language Computing\" Experience \nVishal Dharmadhikari\n\nProduct Solutions Engineer \nSteve Ruiz\n\nTldraw \n\nUnlocking Natural Language Interactions with the Gemini API \n\nThe Gemini API empowers developers to seamlessly integrate advanced AI capabilities into their applications, unlocking new possibilities for user experience and functionality. This post highlights how tldraw leverages Gemini to build a revolutionary \"natural language computing\" experience within their new project, [computer](https://computer.tldraw.com/). This demonstrates the speed and ease with which startups can integrate powerful AI using the Gemini API and tldraw's [canvas SDK](https://tldraw.dev). The tldraw team is launching computer with [Gemini 1.5 Flash](https://ai.google.dev/gemini-api/docs/models/gemini#gemini-1.5-flash) soon ([join the waitlist](https://computer.tldraw.com/)) and is currently prototyping with [Gemini 2.0](http://ai.google.dev/gemini-api/docs/models/gemini#gemini-2.0-flash) Flash for future iterations.\nvideo.title tldraw is using the Gemini API to bring the power of conversational AI to visual programming, allowing users to generate content and process information using natural language. This opens up exciting opportunities for more intuitive and efficient user experience around AI, pushing the boundaries of visual communication.\n\nThe Vision Behind Computer \n\ntldraw, striving to make diagramming accessible and intuitive, envisioned a more natural way for users to interact with their canvas. Founder Steve Ruiz sought to leverage the power of tldraw's infinite canvas SDK to create a dynamic environment for working with generative AI. This vision led to the development of [computer](http://computer.tldraw.com), an experimental application where users create workflows from blocks of text, images, and instructions. When run, information flows from one component to the next, with the output of each generation serving as the input to the next, creating powerful processes that branch, loop, and iterate to produce outputs.\n\nBuilding with Gemini 2.0: A Deep Dive into Computer \n\ntldraw's computer is built upon a network of interconnected \"components\" representing elements on the canvas (text boxes, images, audio clips, etc.). These components are linked by arrows, visualizing the flow of data and transformations. Each component has associated \"procedures\"---sets of instructions executed based on inputs from connected components. A component can accept data from any number of other components and pass its output data to many other components---including itself! This component-based architecture, combined with the power and speed of Gemini 2.0 Flash, allows for a fast and flexible system capable of handling diverse tasks.\nvideo.title \ntldraw computer's AI visual programming with text gen using Gemini 2.0 and image generation with an image gen model\nHere's how Gemini 2.0 Flash prototyping has powered the experience:\n\n- **Lightning-Fast Procedure Execution:** Gemini 2.0 Flash executes procedures rapidly. For example, an \"Instruction\" component might contain \"Write a short commercial.\" Within moments of being triggered, the component will have generated a re-usable script of steps that can turn any combination of inputs into a commercial script. The component will then use this script, together with its current inputs (e.g., a \"Text\" component with \"New AI-powered smartgloves for cats\"), to make a second prompt to the model for its final output. This output may be passed to another linked \"Text\" component for display, as well as other connected components, like \"Speech\" for text-to-speech, \"Image\" for visual generation, or other \"Instruction\" components for further transformation.\n\n- **Lots of Context, Many Modes:** The maximalist bent in tldraw's computer called for speed, capacity, and capability. With multiple components providing data for each generation, Gemini 2.0 Flash's large context window was critical for producing outputs that took all inputs into account, as was its support for images and files alongside written prompts.\n\n- **Structured Data:** The flow of data between components would not be possible without adherence to a single schema. The structured JSON output from Gemini 2.0 Flash ensures that each component in a workflow can recognize data of any type and produce its outputs in the same structure, preventing stalls, smoothing execution, and ensuring even large workflows will reliably complete.\n\n- **Dynamic Procedure Generation:** Beyond executing predefined procedures, Gemini 2.0 Flash can generate procedures dynamically. A user could input \"create a marketing campaign based on this product description,\" and Gemini 2.0 Flash would generate the necessary steps (procedures) and the required components, building a workflow on the canvas based on the user's high-level request. This dynamic generation unlocks tremendous potential for innovative user experiences and streamlined workflows.\n\nA Quick Win for Innovation \n\ntldraw's quick implementation of computer highlights Gemini's value proposition for startups: rapid prototyping, enhanced user experience through intuitive natural language interfaces, and efficient structured data handling thanks to models like Gemini 2.0 Flash. This combination empowers small teams to create innovative, AI-powered features quickly and cost-effectively.\n\u003e \"We want to show that any team can build ambitious projects with tldraw's canvas SDK. Gemini Flash was a perfect engine for a fast, multi-modal, canvas-based workflow tool. With Gemini 2.0 and perhaps a better name, I'm pretty sure we could pitch computer as its own startup tomorrow.\"\n\n--- Steve Ruiz, Founder of tldraw\n\nEmpower Your Application with the Gemini API \n\nInspired by tldraw's success? The Gemini API offers powerful models like Gemini 1.5 Pro, Gemini 1.5 Flash, and now Gemini 2.0 Flash as an experimental preview model to bring innovative AI features to your application. Explore the [Gemini API documentation](https://ai.google.dev/gemini-api/docs) and empower your users with AI.\n\n\n\u003cbr /\u003e\n\n\nFor creative professionals, developers, and teams of all kinds, tldraw offers a unique and powerful platform to bring ideas to life. [Join the computer waitlist](https://computer.tldraw.com/). Experience the future of visual collaboration [today](https://tldraw.dev/). \n\nRelated case studies \n[Rooms\nUnlocking richer avatar interactions with Gemini 2.0 text and audio capabilities](/showcase/rooms) [Viggle\nExperimenting with Gemini 2.0 to create virtual characters and audio narration for their AI powered video platform](/showcase/viggle) [Toonsutra\nLeveraging contextual multilingual translation abilities of Gemini 2.0 to make comics and webtoons accessible to audiences in India across regional languages.](/showcase/toonsutra)"]]