এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

SynthID: ওয়াটারমার্কিং এবং এলএলএম-জেনারেটেড টেক্সট সনাক্ত করার জন্য টুল

জেনারেটিভ কৃত্রিম বুদ্ধিমত্তা (GenAI) পূর্বে অকল্পিত স্কেলে অত্যন্ত বৈচিত্র্যময় সামগ্রীর বিস্তৃত অ্যারে তৈরি করতে পারে। যদিও এই ব্যবহারের বেশিরভাগই বৈধ উদ্দেশ্যে, সেখানে উদ্বেগ রয়েছে যে এটি ভুল তথ্য এবং ভুল বণ্টন সমস্যায় অবদান রাখতে পারে। এই সম্ভাব্য প্রভাবগুলি কমানোর জন্য ওয়াটারমার্কিং হল একটি কৌশল। মানুষের কাছে অদৃশ্য জলছাপগুলি AI-উত্পাদিত সামগ্রীতে প্রয়োগ করা যেতে পারে এবং সনাক্তকরণ মডেলগুলি জলছাপ করা হওয়ার সম্ভাবনা নির্দেশ করতে নির্বিচারে সামগ্রী স্কোর করতে পারে।

SynthID হল Google DeepMind-এর একটি প্রযুক্তি যা AI-জেনারেটেড ছবি, অডিও, টেক্সট বা ভিডিওতে সরাসরি ডিজিটাল ওয়াটারমার্ক এম্বেড করে AI-জেনারেটেড কন্টেন্টকে ওয়াটারমার্ক করে এবং শনাক্ত করে। SynthID পাঠ্য বিকাশকারীদের জন্য উপলব্ধ পাঠ্য তৈরির জন্য ওয়াটারমার্কিং করার জন্য ওপেন সোর্স করা হয়েছে। পদ্ধতির আরও সম্পূর্ণ প্রযুক্তিগত বিবরণের জন্য আপনি প্রকৃতির কাগজটি পড়তে পারেন।

SynthID পাঠ্যের একটি উত্পাদন-গ্রেড বাস্তবায়ন Hugging Face Transformers v4.46.0+ এ উপলব্ধ, যেটি আপনি অফিসিয়াল SynthID পাঠ্য স্থানে চেষ্টা করে দেখতে পারেন। GitHub-এ একটি রেফারেন্স বাস্তবায়নও পাওয়া যায় যা ওপেন সোর্স রক্ষণাবেক্ষণকারী এবং অবদানকারীদের জন্য উপযোগী হতে পারে যারা এই কৌশলটিকে অন্যান্য কাঠামোতে আনতে চান।

ওয়াটারমার্ক অ্যাপ্লিকেশন

ব্যবহারিকভাবে বলতে গেলে, SynthID Text হল একটি লগিট প্রসেসর, যা Top-K এবং Top-P এর পরে আপনার মডেলের জেনারেশন পাইপলাইনে প্রয়োগ করা হয়, যেটি একটি pseudorandom g -function ব্যবহার করে ওয়াটারমার্কিং তথ্যকে এমনভাবে এনকোড করার জন্য মডেলের লগিটগুলিকে বৃদ্ধি করে যা পাঠ্যের গুণমানকে উল্লেখযোগ্যভাবে প্রভাবিত না করেই আপনার মডেল দ্বারা পাঠ্যটি তৈরি হয়েছে কিনা তা নির্ধারণ করতে সহায়তা করে৷ অ্যালগরিদমের সম্পূর্ণ প্রযুক্তিগত বর্ণনা এবং বিভিন্ন কনফিগারেশন মান কীভাবে কর্মক্ষমতাকে প্রভাবিত করে তার বিশ্লেষণের জন্য কাগজটি দেখুন।

ওয়াটারমার্কগুলিকে জি -ফাংশন প্যারামিটারাইজ করার জন্য কনফিগার করা হয়েছে এবং এটি প্রজন্মের সময় কীভাবে প্রয়োগ করা হয়। আপনার ব্যবহার করা প্রতিটি ওয়াটারমার্কিং কনফিগারেশন নিরাপদে এবং ব্যক্তিগতভাবে সংরক্ষণ করা উচিত , অন্যথায় আপনার ওয়াটারমার্ক অন্যদের দ্বারা তুচ্ছভাবে প্রতিলিপিযোগ্য হতে পারে।

প্রতিটি ওয়াটারমার্কিং কনফিগারেশনে আপনাকে অবশ্যই দুটি প্যারামিটার সংজ্ঞায়িত করতে হবে:

keys প্যারামিটার হল অনন্য, এলোমেলো পূর্ণসংখ্যার একটি তালিকা যা মডেলের শব্দভাণ্ডার জুড়ে জি -ফাংশন স্কোর গণনা করতে ব্যবহৃত হয়। এই তালিকার দৈর্ঘ্য নির্ধারণ করে কত স্তর ওয়াটারমার্কিং প্রয়োগ করা হয়েছে। আরও বিস্তারিত জানার জন্য কাগজে পরিশিষ্ট C.1 দেখুন।
ngram_len প্যারামিটারটি দৃঢ়তা এবং সনাক্তকরণের ভারসাম্যের জন্য ব্যবহৃত হয়; বৃহত্তর মান পরিবর্তনের জন্য আরো ভঙ্গুর হওয়ার খরচে, জলছাপ আরো সনাক্তযোগ্য হবে। 5 এর দৈর্ঘ্য একটি ভাল ডিফল্ট মান।

আপনি আপনার কর্মক্ষমতা প্রয়োজনের উপর ভিত্তি করে ওয়াটারমার্ক আরও কনফিগার করতে পারেন:

একটি স্যাম্পলিং টেবিল দুটি বৈশিষ্ট্য দ্বারা কনফিগার করা হয়, sampling_table_size এবং sampling_table_seed । আপনি অন্তত একটি sampling_table_size ব্যবহার করতে চান\( 2^{16} \) নমুনা নেওয়ার সময় একটি নিরপেক্ষ এবং স্থিতিশীল g -ফাংশন নিশ্চিত করতে, তবে সচেতন থাকুন যে নমুনা টেবিলের আকার অনুমান করার সময় প্রয়োজনীয় মেমরির পরিমাণকে প্রভাবিত করে। আপনি sampling_table_seed হিসাবে আপনার পছন্দের যেকোনো পূর্ণসংখ্যা ব্যবহার করতে পারেন।
context_history_size পূর্ববর্তী টোকেনগুলিতে বারবার n -grams সনাক্তকরণের উন্নতির জন্য ওয়াটারমার্ক করা হয় না।

আপনার মডেল ব্যবহার করে SynthID টেক্সট ওয়াটারমার্ক দিয়ে টেক্সট তৈরি করতে কোনো অতিরিক্ত প্রশিক্ষণের প্রয়োজন নেই, শুধুমাত্র একটি ওয়াটারমার্কিং কনফিগারেশন যা SynthID টেক্সট লজিট প্রসেসর সক্রিয় করতে মডেলের .generate() পদ্ধতিতে পাস করা হয়। ট্রান্সফরমার লাইব্রেরিতে কীভাবে ওয়াটারমার্ক প্রয়োগ করতে হয় তা দেখানো কোড উদাহরণগুলির জন্য ব্লগ পোস্ট এবং স্পেস দেখুন।

ওয়াটারমার্ক সনাক্তকরণ এবং যাচাইযোগ্যতা

ওয়াটারমার্ক সনাক্তকরণ সম্ভাব্য। হাগিং ফেস ট্রান্সফরমার এবং GitHub- এ একটি Bayesian ডিটেক্টর দেওয়া আছে। এই ডিটেক্টর তিনটি সম্ভাব্য সনাক্তকরণ অবস্থার আউটপুট করতে পারে-ওয়াটারমার্ক, ওয়াটারমার্ক নয়, বা অনিশ্চিত-এবং একটি নির্দিষ্ট মিথ্যা ইতিবাচক এবং মিথ্যা নেতিবাচক হার অর্জনের জন্য দুটি থ্রেশহোল্ড মান সেট করে আচরণটি কাস্টমাইজ করা যেতে পারে। আরও বিস্তারিত জানার জন্য কাগজে পরিশিষ্ট C.8 দেখুন।

যে মডেলগুলি একই টোকেনাইজার ব্যবহার করে তারাও ওয়াটারমার্কিং কনফিগারেশন এবং ডিটেক্টর শেয়ার করতে পারে, এইভাবে একটি সাধারণ ওয়াটারমার্ক ভাগ করে নিতে পারে, যতক্ষণ না ডিটেক্টরের প্রশিক্ষণ সেটে ওয়াটারমার্ক শেয়ার করা সমস্ত মডেলের উদাহরণ অন্তর্ভুক্ত থাকে।

একবার আপনার কাছে একটি প্রশিক্ষিত ডিটেক্টর হয়ে গেলে, আপনি যদি এবং কীভাবে এটি আপনার ব্যবহারকারীদের কাছে এবং সাধারণভাবে জনসাধারণের কাছে প্রকাশ করেন তার একটি পছন্দ থাকে৷

সম্পূর্ণ-ব্যক্তিগত বিকল্পটি কোনোভাবেই ডিটেক্টরকে প্রকাশ বা প্রকাশ করে না।
আধা-ব্যক্তিগত বিকল্পটি আবিষ্কারককে প্রকাশ করে না, তবে এটি একটি API এর মাধ্যমে প্রকাশ করে।
সর্বজনীন বিকল্পটি অন্যদের ডাউনলোড এবং ব্যবহার করার জন্য ডিটেক্টর প্রকাশ করে।

সংশ্লিষ্ট পরিকাঠামো এবং প্রক্রিয়াগুলিকে সমর্থন করার আপনার ক্ষমতার উপর ভিত্তি করে আপনাকে এবং আপনার সংস্থাকে সিদ্ধান্ত নিতে হবে যে কোন সনাক্তকরণ যাচাইকরণ পদ্ধতি আপনার প্রয়োজনের জন্য সর্বোত্তম।

সীমাবদ্ধতা

সিন্থিড পাঠ্য ওয়াটারমার্কগুলি কিছু রূপান্তরগুলির জন্য দৃ ust ়, পাঠ্যের টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো

ওয়াটারমার্ক প্রয়োগ বাস্তব প্রতিক্রিয়ার ক্ষেত্রে কম কার্যকর, কারণ নির্ভুলতা না কমিয়ে প্রজন্মকে বাড়ানোর সুযোগ কম।
ডিটেক্টর আত্মবিশ্বাস স্কোর ব্যাপকভাবে হ্রাস করা যেতে পারে যখন একটি AI-উত্পাদিত পাঠ্য পুঙ্খানুপুঙ্খভাবে পুনরায় লেখা হয়, বা অন্য ভাষায় অনুবাদ করা হয়।

SynthID টেক্সটটি উদ্দেশ্যপ্রণোদিত প্রতিপক্ষদের ক্ষতির কারণ থেকে সরাসরি বন্ধ করার জন্য ডিজাইন করা হয়নি। যাইহোক, এটি দূষিত উদ্দেশ্যে AI-উত্পাদিত সামগ্রী ব্যবহার করা কঠিন করে তুলতে পারে এবং বিষয়বস্তুর ধরন এবং প্ল্যাটফর্মগুলিতে আরও ভাল কভারেজ দেওয়ার জন্য এটি অন্যান্য পদ্ধতির সাথে একত্রিত করা যেতে পারে।