Gemini, tldraw'ın "Doğal Dil İşleme" deneyimine güç katıyor
Vishal Dharmadhikari
Ürün Çözümleri Mühendisi
Steve Ruiz
Tldraw
Gemini API ile doğal dil etkileşimlerinden yararlanma
Gemini API, geliştiricilerin gelişmiş yapay zeka özelliklerini uygulamalarına sorunsuz bir şekilde entegre etmelerini sağlayarak kullanıcı deneyimi ve işlevsellik açısından yeni olanakların önünü açar. Bu gönderide, tldraw'ın yeni projesi computer'da devrim niteliğinde bir "doğal dil işlem" deneyimi oluşturmak için Gemini'dan nasıl yararlandığı açıklanmaktadır. Bu, Gemini API ve tldraw'ın canvas SDK'sı kullanılarak güçlü yapay zekanın startup'lar tarafından ne kadar hızlı ve kolay bir şekilde entegre edilebileceğini gösteriyor. tldraw ekibi, yakında Gemini 1.5 Flash'i içeren bir bilgisayar piyasaya sürecek (bekleme listesine katılın) ve gelecekteki yinelemeler için şu anda Gemini 2.0 Flash ile prototip oluşturuyor.
tldraw, Gemini API'yi kullanarak görsel programlamaya yapay zeka ile sohbet etme gücünü getiriyor. Bu sayede kullanıcılar, doğal dili kullanarak içerik oluşturabiliyor ve bilgileri işleyebiliyor. Bu, yapay zeka ile ilgili daha sezgisel ve verimli bir kullanıcı deneyimi için heyecan verici fırsatlar sunarak görsel iletişimin sınırlarını zorlar.
Bilgisayarın Arkasındaki Vizyon
tldraw, diyagram oluşturmayı erişilebilir ve sezgisel hale getirmek için kullanıcıların tuvalle etkileşim kurmasının daha doğal bir yolunu tasarladı. Kurucu Steve Ruiz, üretken yapay zekayla çalışmak için dinamik bir ortam oluşturmak üzere tldraw'ın sonsuz tuval SDK'sının gücünden yararlanmak istedi. Bu vizyon, kullanıcıların metin, resim ve talimat bloklarından iş akışları oluşturduğu deneysel bir uygulama olan computer'ın geliştirilmesine yol açtı. Çalıştırıldığında bilgiler bir bileşenden diğerine akar. Her üretimin çıktısı, bir sonraki üretimin girişi olarak kullanılır. Böylece, çıktılar üretmek için dallanan, döngüye giren ve tekrarlanan güçlü süreçler oluşturulur.
Gemini 2.0 ile geliştirme: Bilgisayara ayrıntılı bakış
tldraw'un bilgisayarı, tuvaldeki öğeleri (metin kutuları, resimler, ses klipleri vb.) temsil eden birbirine bağlı "bileşenlerden" oluşan bir ağ üzerine kurulmuştur. Bu bileşenler, veri akışını ve dönüşümleri görselleştiren oklarla birbirine bağlanır. Her bileşenin ilişkili "prosedürleri" vardır. Bu prosedürler, bağlı bileşenlerden gelen girişlere göre yürütülen talimat kümeleridir. Bir bileşen, herhangi bir sayıda başka bileşenden veri kabul edebilir ve çıkış verilerini kendisi de dahil olmak üzere birçok başka bileşene iletebilir. Bu bileşen tabanlı mimari, Gemini 2.0 Flash'in gücü ve hızıyla birleştiğinde çeşitli görevleri yerine getirebilen hızlı ve esnek bir sistem ortaya çıkarır.
Gemini 2.0 ile metin oluşturma ve görüntü üretme modeliyle görüntü oluşturma kullanarak tldraw bilgisayarının yapay zeka görsel programlaması
Gemini 2.0 Flash prototipleme, deneyimi şu şekilde destekledi:
Yıldırım Hızında Prosedür Yürütme: Gemini 2.0 Flash, prosedürleri hızlı bir şekilde yürütür. Örneğin, bir "Talimat" bileşeni "Kısa bir reklam yaz" ifadesini içerebilir. Tetiklenmesinden kısa bir süre sonra bileşen, herhangi bir giriş kombinasyonunu ticari bir komut dosyasına dönüştürebilen, yeniden kullanılabilir bir adım komut dosyası oluşturur. Bileşen daha sonra bu komut dosyasını, mevcut girişleriyle (ör. "Kediler için yeni yapay zeka destekli akıllı eldivenler" içeren bir "Metin" bileşeni) birlikte kullanarak nihai çıkışı için modele ikinci bir istem gönderir. Bu çıkış, görüntüleme için başka bir bağlı "Metin" bileşenine ve diğer bağlı bileşenlere (ör. metin okuma için "Konuşma", görsel oluşturma için "Resim" veya daha fazla dönüştürme için diğer "Talimat" bileşenleri) aktarılabilir.
Çok Bağlam, Çok Mod: tldraw'un bilgisayarındaki maksimalist yaklaşım hız, kapasite ve yetenek gerektiriyordu. Her nesil için veri sağlayan birden fazla bileşenle birlikte Gemini 2.0 Flash'in büyük bağlam penceresi, tüm girişleri dikkate alan çıkışlar üretmek için kritik öneme sahipti. Ayrıca, yazılı istemlerin yanı sıra resim ve dosyaları desteklemesi de önemliydi.
Yapılandırılmış Veriler: Tek bir şemaya uyulmadığı takdirde bileşenler arasındaki veri akışı mümkün olmaz. Gemini 2.0 Flash'in yapılandırılmış JSON çıkışı, iş akışındaki her bileşenin her türden veriyi tanıyabilmesini ve çıkışlarını aynı yapıda üretebilmesini sağlar. Bu sayede duraksamalar önlenir, yürütme sorunsuz hale gelir ve büyük iş akışlarının bile güvenilir bir şekilde tamamlanması sağlanır.
Dinamik Prosedür Oluşturma: Gemini 2.0 Flash, önceden tanımlanmış prosedürleri yürütmenin yanı sıra prosedürleri dinamik olarak da oluşturabilir. Kullanıcılar "Bu ürün açıklamasına dayalı bir pazarlama kampanyası oluştur" yazabilir ve Gemini 2.0 Flash, gerekli adımları (prosedürler) ve bileşenleri oluşturarak kullanıcının üst düzey isteğine göre tuvalde bir iş akışı oluşturur. Bu dinamik oluşturma, yenilikçi kullanıcı deneyimleri ve kolaylaştırılmış iş akışları için muazzam bir potansiyel sunar.
Yenilik için Hızlı Kazanç
tldraw'ın bilgisayar vurgularını hızlı bir şekilde uygulaması, Gemini'ın startup'lar için değer önerisini vurguluyor: hızlı prototip oluşturma, sezgisel doğal dil arayüzleri aracılığıyla gelişmiş kullanıcı deneyimi ve Gemini 2.0 Flash gibi modeller sayesinde verimli yapılandırılmış veri işleme. Bu kombinasyon, küçük ekiplerin yenilikçi ve yapay zeka destekli özellikleri hızlı ve uygun maliyetli bir şekilde oluşturmasını sağlar.
"tldraw'un canvas SDK'sı ile her ekibin iddialı projeler oluşturabileceğini göstermek istiyoruz. Gemini Flash, hızlı, çok formatlı ve tuval tabanlı bir iş akışı aracı için mükemmel bir motordu. Gemini 2.0 ve belki daha iyi bir adla, yarın bilgisayarı kendi başına bir startup olarak tanıtabileceğimizden eminim."
— Steve Ruiz, tldraw'ın kurucusu
Uygulamanızı Gemini API ile Güçlendirme
tldraw'ın başarısından mı ilham aldınız? Gemini API, uygulamanıza yenilikçi yapay zeka özellikleri getirmek için Gemini 1.5 Pro, Gemini 1.5 Flash ve deneysel önizleme modeli olarak Gemini 2.0 Flash gibi güçlü modeller sunar. Gemini API belgelerini inceleyin ve kullanıcılarınıza yapay zeka gücü katın.
tldraw, yaratıcı profesyoneller, geliştiriciler ve her türden ekip için fikirleri hayata geçirebilecekleri benzersiz ve güçlü bir platform sunar. Bilgisayar bekleme listesine katılın. Görsel ortak çalışmanın geleceğini bugünden deneyimleyin.
[[["Anlaması kolay","easyToUnderstand","thumb-up"],["Sorunumu çözdü","solvedMyProblem","thumb-up"],["Diğer","otherUp","thumb-up"]],[["İhtiyacım olan bilgiler yok","missingTheInformationINeed","thumb-down"],["Çok karmaşık / çok fazla adım var","tooComplicatedTooManySteps","thumb-down"],["Güncel değil","outOfDate","thumb-down"],["Çeviri sorunu","translationIssue","thumb-down"],["Örnek veya kod sorunu","samplesCodeIssue","thumb-down"],["Diğer","otherDown","thumb-down"]],[],[],[],null,["[](/showcase) \nShare\nDEC 11, 2024 \n\nGemini Powers tldraw's \"Natural Language Computing\" Experience \nVishal Dharmadhikari\n\nProduct Solutions Engineer \nSteve Ruiz\n\nTldraw \n\nUnlocking Natural Language Interactions with the Gemini API \n\nThe Gemini API empowers developers to seamlessly integrate advanced AI capabilities into their applications, unlocking new possibilities for user experience and functionality. This post highlights how tldraw leverages Gemini to build a revolutionary \"natural language computing\" experience within their new project, [computer](https://computer.tldraw.com/). This demonstrates the speed and ease with which startups can integrate powerful AI using the Gemini API and tldraw's [canvas SDK](https://tldraw.dev). The tldraw team is launching computer with [Gemini 1.5 Flash](https://ai.google.dev/gemini-api/docs/models/gemini#gemini-1.5-flash) soon ([join the waitlist](https://computer.tldraw.com/)) and is currently prototyping with [Gemini 2.0](http://ai.google.dev/gemini-api/docs/models/gemini#gemini-2.0-flash) Flash for future iterations.\nvideo.title tldraw is using the Gemini API to bring the power of conversational AI to visual programming, allowing users to generate content and process information using natural language. This opens up exciting opportunities for more intuitive and efficient user experience around AI, pushing the boundaries of visual communication.\n\nThe Vision Behind Computer \n\ntldraw, striving to make diagramming accessible and intuitive, envisioned a more natural way for users to interact with their canvas. Founder Steve Ruiz sought to leverage the power of tldraw's infinite canvas SDK to create a dynamic environment for working with generative AI. This vision led to the development of [computer](http://computer.tldraw.com), an experimental application where users create workflows from blocks of text, images, and instructions. When run, information flows from one component to the next, with the output of each generation serving as the input to the next, creating powerful processes that branch, loop, and iterate to produce outputs.\n\nBuilding with Gemini 2.0: A Deep Dive into Computer \n\ntldraw's computer is built upon a network of interconnected \"components\" representing elements on the canvas (text boxes, images, audio clips, etc.). These components are linked by arrows, visualizing the flow of data and transformations. Each component has associated \"procedures\"---sets of instructions executed based on inputs from connected components. A component can accept data from any number of other components and pass its output data to many other components---including itself! This component-based architecture, combined with the power and speed of Gemini 2.0 Flash, allows for a fast and flexible system capable of handling diverse tasks.\nvideo.title \ntldraw computer's AI visual programming with text gen using Gemini 2.0 and image generation with an image gen model\nHere's how Gemini 2.0 Flash prototyping has powered the experience:\n\n- **Lightning-Fast Procedure Execution:** Gemini 2.0 Flash executes procedures rapidly. For example, an \"Instruction\" component might contain \"Write a short commercial.\" Within moments of being triggered, the component will have generated a re-usable script of steps that can turn any combination of inputs into a commercial script. The component will then use this script, together with its current inputs (e.g., a \"Text\" component with \"New AI-powered smartgloves for cats\"), to make a second prompt to the model for its final output. This output may be passed to another linked \"Text\" component for display, as well as other connected components, like \"Speech\" for text-to-speech, \"Image\" for visual generation, or other \"Instruction\" components for further transformation.\n\n- **Lots of Context, Many Modes:** The maximalist bent in tldraw's computer called for speed, capacity, and capability. With multiple components providing data for each generation, Gemini 2.0 Flash's large context window was critical for producing outputs that took all inputs into account, as was its support for images and files alongside written prompts.\n\n- **Structured Data:** The flow of data between components would not be possible without adherence to a single schema. The structured JSON output from Gemini 2.0 Flash ensures that each component in a workflow can recognize data of any type and produce its outputs in the same structure, preventing stalls, smoothing execution, and ensuring even large workflows will reliably complete.\n\n- **Dynamic Procedure Generation:** Beyond executing predefined procedures, Gemini 2.0 Flash can generate procedures dynamically. A user could input \"create a marketing campaign based on this product description,\" and Gemini 2.0 Flash would generate the necessary steps (procedures) and the required components, building a workflow on the canvas based on the user's high-level request. This dynamic generation unlocks tremendous potential for innovative user experiences and streamlined workflows.\n\nA Quick Win for Innovation \n\ntldraw's quick implementation of computer highlights Gemini's value proposition for startups: rapid prototyping, enhanced user experience through intuitive natural language interfaces, and efficient structured data handling thanks to models like Gemini 2.0 Flash. This combination empowers small teams to create innovative, AI-powered features quickly and cost-effectively.\n\u003e \"We want to show that any team can build ambitious projects with tldraw's canvas SDK. Gemini Flash was a perfect engine for a fast, multi-modal, canvas-based workflow tool. With Gemini 2.0 and perhaps a better name, I'm pretty sure we could pitch computer as its own startup tomorrow.\"\n\n--- Steve Ruiz, Founder of tldraw\n\nEmpower Your Application with the Gemini API \n\nInspired by tldraw's success? The Gemini API offers powerful models like Gemini 1.5 Pro, Gemini 1.5 Flash, and now Gemini 2.0 Flash as an experimental preview model to bring innovative AI features to your application. Explore the [Gemini API documentation](https://ai.google.dev/gemini-api/docs) and empower your users with AI.\n\n\n\u003cbr /\u003e\n\n\nFor creative professionals, developers, and teams of all kinds, tldraw offers a unique and powerful platform to bring ideas to life. [Join the computer waitlist](https://computer.tldraw.com/). Experience the future of visual collaboration [today](https://tldraw.dev/). \n\nRelated case studies \n[Rooms\nUnlocking richer avatar interactions with Gemini 2.0 text and audio capabilities](/showcase/rooms) [Viggle\nExperimenting with Gemini 2.0 to create virtual characters and audio narration for their AI powered video platform](/showcase/viggle) [Toonsutra\nLeveraging contextual multilingual translation abilities of Gemini 2.0 to make comics and webtoons accessible to audiences in India across regional languages.](/showcase/toonsutra)"]]