SynthID: ওয়াটারমার্কিং এবং এলএলএম-জেনারেটেড টেক্সট সনাক্ত করার জন্য টুল

জেনারেটিভ কৃত্রিম বুদ্ধিমত্তা (GenAI) পূর্বে অকল্পিত স্কেলে অত্যন্ত বৈচিত্র্যময় সামগ্রীর বিস্তৃত অ্যারে তৈরি করতে পারে। যদিও এই ব্যবহারের বেশিরভাগই বৈধ উদ্দেশ্যে, সেখানে উদ্বেগ রয়েছে যে এটি ভুল তথ্য এবং ভুল বণ্টন সমস্যায় অবদান রাখতে পারে। এই সম্ভাব্য প্রভাবগুলি কমানোর জন্য ওয়াটারমার্কিং হল একটি কৌশল। মানুষের কাছে অদৃশ্য জলছাপগুলি AI-উত্পাদিত সামগ্রীতে প্রয়োগ করা যেতে পারে এবং সনাক্তকরণ মডেলগুলি জলছাপ করা হওয়ার সম্ভাবনা নির্দেশ করতে নির্বিচারে সামগ্রী স্কোর করতে পারে।

SynthID হল Google DeepMind-এর একটি প্রযুক্তি যা AI-জেনারেটেড ছবি, অডিও, টেক্সট বা ভিডিওতে সরাসরি ডিজিটাল ওয়াটারমার্ক এম্বেড করে AI-জেনারেটেড কন্টেন্টকে ওয়াটারমার্ক করে এবং শনাক্ত করে। SynthID পাঠ্য বিকাশকারীদের জন্য উপলব্ধ পাঠ্য তৈরির জন্য ওয়াটারমার্কিং করার জন্য ওপেন সোর্স করা হয়েছে। পদ্ধতির আরও সম্পূর্ণ প্রযুক্তিগত বিবরণের জন্য আপনি প্রকৃতির কাগজটি পড়তে পারেন।

SynthID পাঠ্যের একটি উত্পাদন-গ্রেড বাস্তবায়ন Hugging Face Transformers v4.46.0+ এ উপলব্ধ, যেটি আপনি অফিসিয়াল SynthID পাঠ্য স্থানে চেষ্টা করে দেখতে পারেন। GitHub-এ একটি রেফারেন্স বাস্তবায়নও পাওয়া যায় যা ওপেন সোর্স রক্ষণাবেক্ষণকারী এবং অবদানকারীদের জন্য উপযোগী হতে পারে যারা এই কৌশলটিকে অন্যান্য কাঠামোতে আনতে চান।

ওয়াটারমার্ক অ্যাপ্লিকেশন

ব্যবহারিকভাবে বলতে গেলে, SynthID Text হল একটি লগিট প্রসেসর, যা আপনার মডেলের জেনারেশন পাইপলাইনে Top-K এবং Top-P-এর পরে প্রয়োগ করা হয়, যেটি একটি pseudorandom g -function ব্যবহার করে ওয়াটারমার্কিং তথ্যকে এমনভাবে এনকোড করার জন্য মডেলের লগিটগুলিকে বাড়িয়ে তোলে যা ওয়াটারমার্ক সনাক্তকরণের সাথে প্রজন্মের গুণমানের ভারসাম্য বজায় রাখে। . অ্যালগরিদমের সম্পূর্ণ প্রযুক্তিগত বর্ণনা এবং বিভিন্ন কনফিগারেশন মান কীভাবে কর্মক্ষমতাকে প্রভাবিত করে তার বিশ্লেষণের জন্য কাগজটি দেখুন।

ওয়াটারমার্কগুলিকে জি -ফাংশন প্যারামিটারাইজ করার জন্য কনফিগার করা হয়েছে এবং এটি প্রজন্মের সময় কীভাবে প্রয়োগ করা হয়। আপনার ব্যবহার করা প্রতিটি মডেলের নিজস্ব ওয়াটারমার্কিং কনফিগারেশন থাকা উচিত যা নিরাপদে এবং ব্যক্তিগতভাবে সংরক্ষণ করা উচিত , অন্যথায় আপনার ওয়াটারমার্ক অন্যদের দ্বারা তুচ্ছভাবে প্রতিলিপিযোগ্য হতে পারে।

প্রতিটি ওয়াটারমার্কিং কনফিগারেশনে আপনাকে অবশ্যই দুটি প্যারামিটার সংজ্ঞায়িত করতে হবে:

  • keys প্যারামিটার হল অনন্য, এলোমেলো পূর্ণসংখ্যার একটি তালিকা যা মডেলের শব্দভাণ্ডার জুড়ে জি -ফাংশন স্কোর গণনা করতে ব্যবহৃত হয়। এই তালিকার দৈর্ঘ্য নির্ধারণ করে কত স্তর ওয়াটারমার্কিং প্রয়োগ করা হয়েছে। আরও বিস্তারিত জানার জন্য কাগজে পরিশিষ্ট C.1 দেখুন।
  • ngram_len প্যারামিটারটি দৃঢ়তা এবং সনাক্তকরণের ভারসাম্যের জন্য ব্যবহৃত হয়; বৃহত্তর মান পরিবর্তন আরো ভঙ্গুর eing খরচে, জলছাপ আরো সনাক্তযোগ্য হবে. 5 এর দৈর্ঘ্য একটি ভাল ডিফল্ট মান।

আপনি আপনার কর্মক্ষমতা প্রয়োজনের উপর ভিত্তি করে ওয়াটারমার্ক আরও কনফিগার করতে পারেন:

  • একটি স্যাম্পলিং টেবিল দুটি বৈশিষ্ট্য দ্বারা কনফিগার করা হয়, sampling_table_size এবং sampling_table_seed । আপনি অন্তত একটি sampling_table_size ব্যবহার করতে চান\( 2^{16} \) নমুনা নেওয়ার সময় একটি নিরপেক্ষ এবং স্থিতিশীল g -ফাংশন নিশ্চিত করতে, তবে সচেতন থাকুন যে নমুনা টেবিলের আকার অনুমান করার সময় প্রয়োজনীয় মেমরির পরিমাণকে প্রভাবিত করে। আপনি sampling_table_seed হিসাবে আপনার পছন্দের যেকোনো পূর্ণসংখ্যা ব্যবহার করতে পারেন।
  • context_history_size পূর্ববর্তী টোকেনগুলিতে বারবার n -grams সনাক্তকরণের উন্নতির জন্য ওয়াটারমার্ক করা হয় না।

আপনার মডেলগুলি ব্যবহার করে একটি SynthID টেক্সট ওয়াটারমার্ক দিয়ে পাঠ্য তৈরি করার জন্য কোনও অতিরিক্ত প্রশিক্ষণের প্রয়োজন নেই, শুধুমাত্র একটি ওয়াটারমার্কিং কনফিগারেশন যা SynthID টেক্সট লগিট প্রসেসর সক্রিয় করতে মডেলের .generate() পদ্ধতিতে পাস করা হয়। ট্রান্সফরমার লাইব্রেরিতে কীভাবে ওয়াটারমার্ক প্রয়োগ করতে হয় তা দেখানো কোড উদাহরণগুলির জন্য ব্লগ পোস্ট এবং স্পেস দেখুন।

ওয়াটারমার্ক সনাক্তকরণ এবং যাচাইযোগ্যতা

ওয়াটারমার্ক সনাক্তকরণ সম্ভাব্য। হাগিং ফেস ট্রান্সফরমার এবং GitHub- এ একটি Bayesian ডিটেক্টর দেওয়া আছে। এই ডিটেক্টর তিনটি সম্ভাব্য সনাক্তকরণ অবস্থা আউটপুট করতে পারে-ওয়াটারমার্ক, ওয়াটারমার্ক নয়, বা অনিশ্চিত-এবং আচরণ দুটি থ্রেশহোল্ড মান সেট করে কাস্টমাইজ করা যেতে পারে। আরও বিস্তারিত জানার জন্য কাগজে পরিশিষ্ট C.8 দেখুন।

আপনি প্রম্পট বা দৈর্ঘ্যের একটি সেটে একটি নির্দিষ্ট মিথ্যা ইতিবাচক এবং মিথ্যা নেতিবাচক হার অর্জন করতে থ্রেশহোল্ডগুলি টিউন করতে পারেন। বিস্তারিত জানার জন্য কাগজে পরিশিষ্ট C.8 দেখুন।

একবার আপনার কাছে একটি প্রশিক্ষিত ডিটেক্টর হয়ে গেলে, আপনি যদি এবং কীভাবে এটি আপনার ব্যবহারকারীদের কাছে এবং সাধারণভাবে জনসাধারণের কাছে প্রকাশ করেন তার একটি পছন্দ থাকে৷

  • সম্পূর্ণ-ব্যক্তিগত বিকল্পটি কোনোভাবেই ডিটেক্টরকে প্রকাশ বা প্রকাশ করে না।
  • আধা-ব্যক্তিগত বিকল্পটি আবিষ্কারককে প্রকাশ করে না, তবে এটি একটি API এর মাধ্যমে প্রকাশ করে।
  • সর্বজনীন বিকল্পটি অন্যদের ডাউনলোড এবং ব্যবহার করার জন্য ডিটেক্টর প্রকাশ করে।

সংশ্লিষ্ট পরিকাঠামো এবং প্রক্রিয়াগুলিকে সমর্থন করার আপনার ক্ষমতার উপর ভিত্তি করে আপনাকে এবং আপনার সংস্থাকে সিদ্ধান্ত নিতে হবে যে কোন সনাক্তকরণ যাচাইকরণ পদ্ধতি আপনার প্রয়োজনের জন্য সর্বোত্তম।

সীমাবদ্ধতা

সিন্থিড টেক্সট ওয়াটারমার্কগুলি কিছু রূপান্তরগুলির জন্য দৃ ust ় - পাঠ্যের টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো

  • ওয়াটারমার্ক প্রয়োগ বাস্তব প্রতিক্রিয়ার ক্ষেত্রে কম কার্যকর, কারণ নির্ভুলতা না কমিয়ে প্রজন্মকে বাড়ানোর সুযোগ কম।
  • ডিটেক্টর আত্মবিশ্বাস স্কোর ব্যাপকভাবে হ্রাস করা যেতে পারে যখন একটি AI-উত্পাদিত পাঠ্য পুঙ্খানুপুঙ্খভাবে পুনরায় লেখা হয়, বা অন্য ভাষায় অনুবাদ করা হয়।

SynthID টেক্সটটি উদ্দেশ্যপ্রণোদিত প্রতিপক্ষদের ক্ষতির কারণ থেকে সরাসরি বন্ধ করার জন্য ডিজাইন করা হয়নি। যাইহোক, এটি দূষিত উদ্দেশ্যে AI-উত্পাদিত সামগ্রী ব্যবহার করা কঠিন করে তুলতে পারে এবং বিষয়বস্তুর ধরন এবং প্ল্যাটফর্মগুলিতে আরও ভাল কভারেজ দেওয়ার জন্য এটি অন্যান্য পদ্ধতির সাথে একত্রিত করা যেতে পারে।