แชร์

11 ธ.ค. 2024

Gemini ขับเคลื่อนประสบการณ์ "การประมวลผลภาษาธรรมชาติ" ของ tldraw

Vishal Dharmadhikari

วิศวกรโซลูชันผลิตภัณฑ์

Steve Ruiz

Tldraw

รูปภาพหน้าแรกสำหรับ Tldraw

ปลดล็อกการโต้ตอบด้วยภาษาธรรมชาติด้วย Gemini API

Gemini API ช่วยให้นักพัฒนาแอปผสานรวมความสามารถขั้นสูงของ AI เข้ากับแอปพลิเคชันได้อย่างราบรื่น ซึ่งจะปลดล็อกประสบการณ์การใช้งานและฟังก์ชันการทำงานใหม่ๆ โพสต์นี้ไฮไลต์วิธีที่ tldraw ใช้ประโยชน์จาก Gemini เพื่อสร้างประสบการณ์ "การประมวลผลภาษาธรรมชาติ" ที่ปฏิวัติวงการภายในโปรเจ็กต์ใหม่อย่าง computer การดำเนินการนี้แสดงให้เห็นว่าสตาร์ทอัปผสานรวม AI ที่มีประสิทธิภาพได้อย่างรวดเร็วและง่ายดายเพียงใดโดยใช้ Gemini API และ Canvas SDK ของ tldraw ทีม tldraw จะเปิดตัวคอมพิวเตอร์ที่ใช้ Gemini 1.5 Flash ในเร็วๆ นี้ (สมัครเข้าร่วมคิวรอ) และกำลังสร้างต้นแบบด้วย Gemini 2.0 Flash สำหรับเวอร์ชันต่อๆ ไป

tldraw ใช้ Gemini API เพื่อนำความสามารถของ AI แบบสนทนามาสู่การเขียนโปรแกรมด้วยภาพ ซึ่งช่วยให้ผู้ใช้สร้างเนื้อหาและประมวลผลข้อมูลโดยใช้ภาษาที่เป็นธรรมชาติได้ โอกาสนี้เปิดโอกาสให้ผู้ใช้ได้รับประสบการณ์การใช้งาน AI ที่มีประสิทธิภาพและใช้งานง่ายยิ่งขึ้น ซึ่งจะขยายขอบเขตการสื่อสารด้วยภาพ

แนวคิดเบื้องหลังคอมพิวเตอร์

tldraw มุ่งมั่นที่จะทำให้การสร้างแผนภาพเข้าถึงได้ง่ายและใช้งานง่าย จึงคิดหาวิธีให้ผู้ใช้โต้ตอบกับผืนผ้าใบได้อย่างเป็นธรรมชาติมากขึ้น ผู้ก่อตั้ง Steve Ruiz ต้องการใช้ประโยชน์จากความสามารถของ SDK ของผืนผ้าใบแบบไม่จำกัดของ tldraw เพื่อสร้างสภาพแวดล้อมแบบไดนามิกสำหรับการทำงานร่วมกับ Generative AI วิสัยทัศน์นี้นำไปสู่การพัฒนา computer ซึ่งเป็นแอปพลิเคชันเวอร์ชันทดลองที่ผู้ใช้สร้างเวิร์กโฟลว์จากบล็อกข้อความ รูปภาพ และวิธีการ เมื่อเรียกใช้ ข้อมูลจะไหลจากคอมโพเนนต์หนึ่งไปยังอีกคอมโพเนนต์หนึ่ง โดยเอาต์พุตของรุ่นแต่ละรุ่นจะทำหน้าที่เป็นอินพุตของรุ่นถัดไป ซึ่งจะสร้างกระบวนการที่มีประสิทธิภาพซึ่งแยกสาขา ทำซ้ำ และวนซ้ำเพื่อสร้างเอาต์พุต

การสร้างด้วย Gemini 2.0: เจาะลึก Computer

คอมพิวเตอร์ของ tldraw สร้างขึ้นจากเครือข่าย "คอมโพเนนต์" ที่เชื่อมต่อกันซึ่งแสดงองค์ประกอบบนผืนผ้าใบ (กล่องข้อความ รูปภาพ คลิปเสียง ฯลฯ) องค์ประกอบเหล่านี้จะเชื่อมโยงกันด้วยลูกศร ซึ่งแสดงภาพการไหลของข้อมูลและการแปลง แต่ละคอมโพเนนต์มี "ขั้นตอน" ที่เชื่อมโยงกัน ซึ่งเป็นชุดคำสั่งที่ดำเนินการตามอินพุตจากคอมโพเนนต์ที่เชื่อมต่อ คอมโพเนนต์หนึ่งๆ สามารถรับข้อมูลจากคอมโพเนนต์อื่นๆ กี่รายการก็ได้ และส่งออกข้อมูลเอาต์พุตไปยังคอมโพเนนต์อื่นๆ อีกมากมาย รวมถึงส่งออกไปยังตัวเองได้ด้วย สถาปัตยกรรมแบบคอมโพเนนต์นี้เมื่อรวมกับความสามารถและความเร็วของ Gemini 2.0 Flash จะช่วยให้ระบบทำงานได้อย่างรวดเร็วและยืดหยุ่นเพื่อจัดการงานที่หลากหลาย

โปรแกรมคอมพิวเตอร์ tldraw ที่ใช้การเขียนโปรแกรมด้วยภาพ AI กับการสร้างข้อความโดยใช้ Gemini 2.0 และการสร้างรูปภาพด้วยโมเดลการสร้างรูปภาพ

การสร้างต้นแบบของ Gemini 2.0 Flash ช่วยเพิ่มประสิทธิภาพให้กับประสบการณ์การใช้งานดังนี้


  • การดำเนินการตามขั้นตอนที่รวดเร็วทันใจ: Gemini 2.0 Flash ดำเนินการตามขั้นตอนอย่างรวดเร็ว เช่น คอมโพเนนต์ "วิธีการ" อาจประกอบด้วย "เขียนโฆษณาสั้นๆ" ภายในไม่กี่วินาทีหลังจากทริกเกอร์ คอมโพเนนต์จะสร้างสคริปต์ขั้นตอนที่ใช้ซ้ำได้ ซึ่งจะเปลี่ยนชุดค่าผสมของอินพุตใดก็ได้เป็นสคริปต์เชิงพาณิชย์ จากนั้นคอมโพเนนต์จะใช้สคริปต์นี้ร่วมกับอินพุตปัจจุบัน (เช่น คอมโพเนนต์ "ข้อความ" ที่มี "ถุงมืออัจฉริยะรุ่นใหม่ที่ทำงานด้วยระบบ AI สำหรับแมว") เพื่อสร้างพรอมต์ที่ 2 ให้กับโมเดลสำหรับเอาต์พุตสุดท้าย ระบบอาจส่งเอาต์พุตนี้ไปยังคอมโพเนนต์ "ข้อความ" ที่ลิงก์ไว้อีกรายการหนึ่งเพื่อแสดงผล รวมถึงคอมโพเนนต์อื่นๆ ที่เชื่อมต่อ เช่น "คำพูด" สำหรับข้อความเป็นเสียง "รูปภาพ" สำหรับการสร้างภาพ หรือคอมโพเนนต์ "คำสั่ง" อื่นๆ สำหรับการเปลี่ยนรูปแบบเพิ่มเติม

  • บริบทจำนวนมาก โหมดหลายโหมด: คอมพิวเตอร์ของ tldraw ต้องใช้ความเร็ว ความจุ และความสามารถที่สูงสุด เนื่องจากมีองค์ประกอบหลายรายการที่ให้ข้อมูลสำหรับแต่ละรุ่น หน้าต่างบริบทขนาดใหญ่ของ Gemini 2.0 Flash จึงมีความสำคัญอย่างยิ่งต่อการสร้างเอาต์พุตที่พิจารณาอินพุตทั้งหมด รวมถึงการรองรับรูปภาพและไฟล์ควบคู่ไปกับพรอมต์ที่เป็นลายลักษณ์อักษร

  • Structured Data: การส่งผ่านข้อมูลระหว่างคอมโพเนนต์จะดำเนินการไม่ได้หากไม่ปฏิบัติตามสคีมาเดียว เอาต์พุต JSON ที่มีโครงสร้างจาก Gemini 2.0 Flash ช่วยให้มั่นใจได้ว่าคอมโพเนนต์แต่ละรายการในเวิร์กโฟลว์จะจดจำข้อมูลประเภทใดก็ได้และสร้างเอาต์พุตในโครงสร้างเดียวกัน ซึ่งจะช่วยป้องกันไม่ให้การดําเนินการหยุดชะงัก ทำงานได้อย่างราบรื่น และช่วยให้เวิร์กโฟลว์ขนาดใหญ่ทำงานได้อย่างสมบูรณ์

  • การสร้างขั้นตอนแบบไดนามิก: นอกจากการเรียกใช้ขั้นตอนที่กําหนดไว้ล่วงหน้าแล้ว Gemini 2.0 Flash ยังสามารถสร้างขั้นตอนแบบไดนามิกได้ ผู้ใช้สามารถป้อน "สร้างแคมเปญการตลาดตามคำอธิบายผลิตภัณฑ์นี้" แล้ว Gemini 2.0 Flash จะสร้างขั้นตอน (กระบวนการ) ที่จำเป็นและคอมโพเนนต์ที่จำเป็น สร้างเวิร์กโฟลว์บนผืนผ้าใบตามคำขอระดับสูงของผู้ใช้ การสร้างแบบไดนามิกนี้เปิดโอกาสให้ผู้ใช้ได้รับประสบการณ์การใช้งานที่แปลกใหม่และเวิร์กโฟลว์ที่มีประสิทธิภาพมากขึ้น

แนวทางปฏิบัติที่ได้ผลเร็วสำหรับนวัตกรรม

การติดตั้งใช้งานคอมพิวเตอร์อย่างรวดเร็วของ tldraw แสดงให้เห็นถึงข้อเสนอด้านคุณค่าของ Gemini สําหรับสตาร์ทอัพ ซึ่งได้แก่ การนําเสนอโมเดลต้นแบบอย่างรวดเร็ว ประสบการณ์ของผู้ใช้ที่ปรับปรุงให้ดียิ่งขึ้นผ่านอินเทอร์เฟซภาษาที่เป็นธรรมชาติที่ใช้งานง่าย และการจัดการ Structured Data ที่มีประสิทธิภาพด้วยโมเดลอย่าง Gemini 2.0 Flash การผสมผสานนี้ช่วยให้ทีมเล็กๆ สร้างฟีเจอร์ใหม่ๆ ที่ทำงานด้วยระบบ AI ได้อย่างรวดเร็วและประหยัดค่าใช้จ่าย

"เราต้องการแสดงให้เห็นว่าทีมใดก็ตามสามารถสร้างโปรเจ็กต์ที่มุ่งมั่นได้ด้วย Canvas SDK ของ tldraw Gemini Flash เป็นเครื่องมือที่เหมาะสําหรับเครื่องมือเวิร์กโฟลว์แบบแคนวาสที่รวดเร็วและเป็นแบบหลายสื่อ เมื่อใช้ Gemini 2.0 และอาจใช้ชื่อที่ดีขึ้น เรามั่นใจว่าสามารถเสนอขายคอมพิวเตอร์เป็นสตาร์ทอัปของตัวเองได้ในวันพรุ่งนี้เลย"

- Steve Ruiz ผู้ก่อตั้ง tldraw

เพิ่มประสิทธิภาพแอปพลิเคชันด้วย Gemini API

ได้รับแรงบันดาลใจจากความสำเร็จของ tldraw Gemini API มีโมเดลที่มีประสิทธิภาพ เช่น Gemini 1.5 Pro, Gemini 1.5 Flash และตอนนี้มี Gemini 2.0 Flash เป็นโมเดลเวอร์ชันตัวอย่างเวอร์ชันทดลองเพื่อนำฟีเจอร์ AI ที่ล้ำสมัยมาสู่แอปพลิเคชันของคุณ สำรวจเอกสารประกอบเกี่ยวกับ Gemini API และมอบประสบการณ์การใช้งานที่ดีขึ้นให้แก่ผู้ใช้ด้วย AI

tldraw เป็นแพลตฟอร์มที่ไม่เหมือนใครและมีประสิทธิภาพสำหรับมืออาชีพด้านครีเอทีฟโฆษณา นักพัฒนาซอฟต์แวร์ และทีมทุกประเภทในการนำไอเดียต่างๆ ให้เป็นจริง ลงชื่อในคิวรอรับคอมพิวเตอร์ สัมผัสประสบการณ์การทำงานร่วมกันด้วยภาพในอนาคตวันนี้