Gemini Mendukung Pengalaman "Natural Language Computing" tldraw
Vishal Dharmadhikari
Product Solutions Engineer
Steve Ruiz
Tldraw
Memanfaatkan Interaksi Bahasa Natural dengan Gemini API
Gemini API memungkinkan developer mengintegrasikan kemampuan AI canggih ke dalam aplikasi mereka dengan lancar, sehingga membuka kemungkinan baru untuk pengalaman dan fungsi pengguna. Postingan ini menyoroti cara tldraw memanfaatkan Gemini untuk membangun pengalaman "komputasi bahasa alami" revolusioner dalam project barunya, computer. Hal ini menunjukkan kecepatan dan kemudahan yang memungkinkan startup mengintegrasikan AI canggih menggunakan Gemini API dan SDK kanvas tldraw. Tim tldraw akan segera meluncurkan computer dengan Gemini 1.5 Flash (bergabung dengan daftar tunggu) dan saat ini membuat prototipe dengan Gemini 2.0 Flash untuk iterasi mendatang.
tldraw menggunakan Gemini API untuk menghadirkan kecanggihan AI percakapan ke pemrograman visual, sehingga pengguna dapat membuat konten dan memproses informasi menggunakan bahasa alami. Hal ini membuka peluang menarik untuk pengalaman pengguna yang lebih intuitif dan efisien seputar AI, yang mendorong batas komunikasi visual.
Visi di Balik Komputer
tldraw, yang berupaya membuat pembuatan diagram dapat diakses dan intuitif, membayangkan cara yang lebih alami bagi pengguna untuk berinteraksi dengan kanvas mereka. Pendiri Steve Ruiz berupaya memanfaatkan kemampuan SDK kanvas tak terbatas tldraw untuk menciptakan lingkungan dinamis dalam bekerja dengan AI generatif. Visi ini mendorong pengembangan computer, sebuah aplikasi eksperimental tempat pengguna membuat alur kerja dari blok teks, gambar, dan petunjuk. Saat dijalankan, informasi mengalir dari satu komponen ke komponen berikutnya, dengan output setiap generasi berfungsi sebagai input ke generasi berikutnya, sehingga menciptakan proses canggih yang bercabang, berulang, dan melakukan iterasi untuk menghasilkan output.
Membangun dengan Gemini 2.0: Mempelajari Komputer Secara Mendalam
Komputer tldraw dibangun di atas jaringan “komponen” yang saling terhubung yang merepresentasikan elemen di kanvas (kotak teks, gambar, klip audio, dll.). Komponen ini dihubungkan oleh panah, yang memvisualisasikan aliran data dan transformasi. Setiap komponen memiliki "prosedur" terkait—kumpulan petunjuk yang dijalankan berdasarkan input dari komponen yang terhubung. Komponen dapat menerima data dari sejumlah komponen lain dan meneruskan data outputnya ke banyak komponen lain—termasuk dirinya sendiri. Arsitektur berbasis komponen ini, jika dikombinasikan dengan kecanggihan dan kecepatan Gemini 2.0 Flash, memungkinkan sistem yang cepat dan fleksibel yang mampu menangani berbagai tugas.
Pemrograman visual AI komputer tldraw dengan pembuatan teks menggunakan Gemini 2.0 dan pembuatan gambar dengan model pembuatan gambar
Berikut cara pembuatan prototipe Gemini 2.0 Flash mendukung pengalaman:
Eksekusi Prosedur Secepat Kilat: Gemini 2.0 Flash mengeksekusi prosedur dengan cepat. Misalnya, komponen "Petunjuk" dapat berisi "Tulis iklan singkat". Dalam beberapa saat setelah dipicu, komponen akan menghasilkan skrip langkah-langkah yang dapat digunakan kembali yang dapat mengubah kombinasi input apa pun menjadi skrip komersial. Komponen kemudian akan menggunakan skrip ini, bersama dengan input saat ini (misalnya, komponen "Teks" dengan "Sarung tangan pintar baru berteknologi AI untuk kucing"), untuk membuat perintah kedua ke model untuk output akhirnya. Output ini dapat diteruskan ke komponen "Teks" tertaut lainnya untuk ditampilkan, serta komponen terhubung lainnya, seperti "Ucapan" untuk text-to-speech, "Gambar" untuk pembuatan visual, atau komponen “Petunjuk” lainnya untuk transformasi lebih lanjut.
Banyak Konteks, Banyak Mode: Kecenderungan maksimalis di komputer tldraw memerlukan kecepatan, kapasitas, dan kemampuan. Dengan beberapa komponen yang menyediakan data untuk setiap generasi, jendela konteks besar Gemini 2.0 Flash sangat penting untuk menghasilkan output yang mempertimbangkan semua input, begitu juga dukungan untuk gambar dan file bersama dengan perintah tertulis.
Data Terstruktur: Aliran data antar-komponen tidak akan mungkin terjadi tanpa kepatuhan terhadap satu skema. Output JSON terstruktur dari Gemini 2.0 Flash memastikan bahwa setiap komponen dalam alur kerja dapat mengenali data jenis apa pun dan menghasilkan outputnya dalam struktur yang sama, sehingga mencegah penundaan, memperlancar eksekusi, dan memastikan alur kerja yang besar sekalipun akan selesai dengan andal.
Pembuatan Prosedur Dinamis: Selain mengeksekusi prosedur yang telah ditentukan sebelumnya, Gemini 2.0 Flash dapat membuat prosedur secara dinamis. Pengguna dapat memasukkan "buat kampanye pemasaran berdasarkan deskripsi produk ini", dan Gemini 2.0 Flash akan membuat langkah-langkah (prosedur) yang diperlukan dan komponen yang diperlukan, serta membangun alur kerja di kanvas berdasarkan permintaan tingkat tinggi pengguna. Pembuatan dinamis ini membuka potensi besar untuk pengalaman pengguna yang inovatif dan alur kerja yang lancar.
Solusi Cepat untuk Inovasi
Implementasi cepat tldraw menyoroti proposisi nilai Gemini untuk startup: pembuatan prototipe yang cepat, peningkatan pengalaman pengguna melalui antarmuka bahasa alami yang intuitif, dan penanganan data terstruktur yang efisien berkat model seperti Gemini 2.0 Flash. Kombinasi ini memungkinkan tim kecil membuat fitur inovatif yang didukung AI dengan cepat dan hemat biaya.
“Kami ingin menunjukkan bahwa tim mana pun dapat membangun project ambisius dengan SDK kanvas tldraw. Gemini Flash adalah mesin yang sempurna untuk alat alur kerja berbasis kanvas yang cepat dan multimodal. Dengan Gemini 2.0 dan mungkin nama yang lebih baik, saya yakin kita bisa menawarkan komputer sebagai startup tersendiri besok.”
— Steve Ruiz, Pendiri tldraw
Memberdayakan Aplikasi Anda dengan Gemini API
Terinspirasi oleh kesuksesan tldraw? Gemini API menawarkan model canggih seperti Gemini 1.5 Pro, Gemini 1.5 Flash, dan kini Gemini 2.0 Flash sebagai model pratinjau eksperimental untuk menghadirkan fitur AI inovatif ke aplikasi Anda. Pelajari dokumentasi Gemini API dan berikan kemampuan AI kepada pengguna Anda.
Untuk profesional kreatif, developer, dan berbagai jenis tim, tldraw menawarkan platform unik dan canggih untuk mewujudkan ide. Bergabung ke daftar tunggu komputer. Rasakan masa depan kolaborasi visual sekarang.
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Informasi yang saya butuhkan tidak ada","missingTheInformationINeed","thumb-down"],["Terlalu rumit/langkahnya terlalu banyak","tooComplicatedTooManySteps","thumb-down"],["Sudah usang","outOfDate","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Masalah kode / contoh","samplesCodeIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],[],[],[],null,["[](/showcase) \nShare\nDEC 11, 2024 \n\nGemini Powers tldraw's \"Natural Language Computing\" Experience \nVishal Dharmadhikari\n\nProduct Solutions Engineer \nSteve Ruiz\n\nTldraw \n\nUnlocking Natural Language Interactions with the Gemini API \n\nThe Gemini API empowers developers to seamlessly integrate advanced AI capabilities into their applications, unlocking new possibilities for user experience and functionality. This post highlights how tldraw leverages Gemini to build a revolutionary \"natural language computing\" experience within their new project, [computer](https://computer.tldraw.com/). This demonstrates the speed and ease with which startups can integrate powerful AI using the Gemini API and tldraw's [canvas SDK](https://tldraw.dev). The tldraw team is launching computer with [Gemini 1.5 Flash](https://ai.google.dev/gemini-api/docs/models/gemini#gemini-1.5-flash) soon ([join the waitlist](https://computer.tldraw.com/)) and is currently prototyping with [Gemini 2.0](http://ai.google.dev/gemini-api/docs/models/gemini#gemini-2.0-flash) Flash for future iterations.\nvideo.title tldraw is using the Gemini API to bring the power of conversational AI to visual programming, allowing users to generate content and process information using natural language. This opens up exciting opportunities for more intuitive and efficient user experience around AI, pushing the boundaries of visual communication.\n\nThe Vision Behind Computer \n\ntldraw, striving to make diagramming accessible and intuitive, envisioned a more natural way for users to interact with their canvas. Founder Steve Ruiz sought to leverage the power of tldraw's infinite canvas SDK to create a dynamic environment for working with generative AI. This vision led to the development of [computer](http://computer.tldraw.com), an experimental application where users create workflows from blocks of text, images, and instructions. When run, information flows from one component to the next, with the output of each generation serving as the input to the next, creating powerful processes that branch, loop, and iterate to produce outputs.\n\nBuilding with Gemini 2.0: A Deep Dive into Computer \n\ntldraw's computer is built upon a network of interconnected \"components\" representing elements on the canvas (text boxes, images, audio clips, etc.). These components are linked by arrows, visualizing the flow of data and transformations. Each component has associated \"procedures\"---sets of instructions executed based on inputs from connected components. A component can accept data from any number of other components and pass its output data to many other components---including itself! This component-based architecture, combined with the power and speed of Gemini 2.0 Flash, allows for a fast and flexible system capable of handling diverse tasks.\nvideo.title \ntldraw computer's AI visual programming with text gen using Gemini 2.0 and image generation with an image gen model\nHere's how Gemini 2.0 Flash prototyping has powered the experience:\n\n- **Lightning-Fast Procedure Execution:** Gemini 2.0 Flash executes procedures rapidly. For example, an \"Instruction\" component might contain \"Write a short commercial.\" Within moments of being triggered, the component will have generated a re-usable script of steps that can turn any combination of inputs into a commercial script. The component will then use this script, together with its current inputs (e.g., a \"Text\" component with \"New AI-powered smartgloves for cats\"), to make a second prompt to the model for its final output. This output may be passed to another linked \"Text\" component for display, as well as other connected components, like \"Speech\" for text-to-speech, \"Image\" for visual generation, or other \"Instruction\" components for further transformation.\n\n- **Lots of Context, Many Modes:** The maximalist bent in tldraw's computer called for speed, capacity, and capability. With multiple components providing data for each generation, Gemini 2.0 Flash's large context window was critical for producing outputs that took all inputs into account, as was its support for images and files alongside written prompts.\n\n- **Structured Data:** The flow of data between components would not be possible without adherence to a single schema. The structured JSON output from Gemini 2.0 Flash ensures that each component in a workflow can recognize data of any type and produce its outputs in the same structure, preventing stalls, smoothing execution, and ensuring even large workflows will reliably complete.\n\n- **Dynamic Procedure Generation:** Beyond executing predefined procedures, Gemini 2.0 Flash can generate procedures dynamically. A user could input \"create a marketing campaign based on this product description,\" and Gemini 2.0 Flash would generate the necessary steps (procedures) and the required components, building a workflow on the canvas based on the user's high-level request. This dynamic generation unlocks tremendous potential for innovative user experiences and streamlined workflows.\n\nA Quick Win for Innovation \n\ntldraw's quick implementation of computer highlights Gemini's value proposition for startups: rapid prototyping, enhanced user experience through intuitive natural language interfaces, and efficient structured data handling thanks to models like Gemini 2.0 Flash. This combination empowers small teams to create innovative, AI-powered features quickly and cost-effectively.\n\u003e \"We want to show that any team can build ambitious projects with tldraw's canvas SDK. Gemini Flash was a perfect engine for a fast, multi-modal, canvas-based workflow tool. With Gemini 2.0 and perhaps a better name, I'm pretty sure we could pitch computer as its own startup tomorrow.\"\n\n--- Steve Ruiz, Founder of tldraw\n\nEmpower Your Application with the Gemini API \n\nInspired by tldraw's success? The Gemini API offers powerful models like Gemini 1.5 Pro, Gemini 1.5 Flash, and now Gemini 2.0 Flash as an experimental preview model to bring innovative AI features to your application. Explore the [Gemini API documentation](https://ai.google.dev/gemini-api/docs) and empower your users with AI.\n\n\n\u003cbr /\u003e\n\n\nFor creative professionals, developers, and teams of all kinds, tldraw offers a unique and powerful platform to bring ideas to life. [Join the computer waitlist](https://computer.tldraw.com/). Experience the future of visual collaboration [today](https://tldraw.dev/). \n\nRelated case studies \n[Rooms\nUnlocking richer avatar interactions with Gemini 2.0 text and audio capabilities](/showcase/rooms) [Viggle\nExperimenting with Gemini 2.0 to create virtual characters and audio narration for their AI powered video platform](/showcase/viggle) [Toonsutra\nLeveraging contextual multilingual translation abilities of Gemini 2.0 to make comics and webtoons accessible to audiences in India across regional languages.](/showcase/toonsutra)"]]