Utwórz środki ochrony danych wejściowych i wyjściowych

Aplikacje generatywnej AI często bazują na filtrowaniu danych wejściowych i wyjściowych, nazywane czasami środkami ochronnymi, aby zapewnić odpowiedzialny model zachowanie użytkownika. Techniki filtrowania danych wejściowych i wyjściowych sprawdzają dane przekazywane do wyjść z modelu, będzie zgodne z Twoimi zasadami. dla swojej aplikacji. Klasyfikatory danych wejściowych są zwykle używane do filtrowania treści, które nie są przeznaczone do użytku w aplikacji i mogą sprawi, że model naruszy Twoje zasady bezpieczeństwa. Filtry danych wejściowych są często kierowane agresywnych ataków, które mają na celu obejście Twojej polityki treści. Odpowiedź klasyfikatory współpracują z kolejnym filtrem w ramach szkoleń dotyczących bezpieczeństwa przechwytywanie wygenerowanych danych wyjściowych, które mogą naruszać Twoje zasady bezpieczeństwa. Zalecamy stosowanie klasyfikatorów, które obejmują wszystkie Twoje zasady dotyczące treści.

Gotowe zabezpieczenia

Nawet po wcześniejszym dostrojeniu pod kątem bezpieczeństwa i dobrze zaprojektowanym szablonie promptów model nadal może generować treści, które mogą wyrządzić niezamierzone szkody. Gotowe klasyfikatory treści mogą stanowić dodatkową warstwę zabezpieczeń jeszcze bardziej zmniejszysz ten potencjał w przypadku określonych typów naruszeń zasad.

ShieldGemma

ShieldGemma to zestaw gotowych, dostosowanych do instrukcji, otwartych nadaje wagi modelom klasyfikatorów treści opartym na Gemma 2, które mogą tego, czy treści przekazywane przez użytkowników, wygenerowane przez model czy mieszane polityką bezpieczeństwa treści. ShieldGemma jest trenowana do rozpoznawania 4 zagrożeń związanych z seksualnym treści, treści niebezpieczne, nękanie i szerzenie nienawiści) można podzielić na wersji klasy rozmiarów (parametry 2B, 9B i 27B), które pozwalają między szybkością, wydajnością i uniwersalnością, co pozwoli Ci zaspokoić lub wdrożenia. Na karcie modelu znajdziesz więcej informacji o różnica między tymi wariantami.

Chroń swoje modele dzięki ShieldGemma

Uruchom Google Colab (Keras) Uruchom Google Colab (Transformers)

Z modeli ShieldGemma możesz korzystać na podanych niżej platformach.

Oparta na interfejsie API

Google udostępnia oparte na interfejsie API klasyfikatory bezpieczeństwa treści, które można wykorzystać filtruj dane wejściowe i wyjściowe systemu:

  • Perspective API to bezpłatny interfejs API, który wykorzystuje systemy uczące się, modeli uczących się oceniających wpływ, jaki dany komentarz może mieć na rozmowy. Zapewnia wyniki, które przechwytują prawdopodobieństwo, czy komentarz jest toksyczny, obraźliwy, nie na temat lub zawiera groźby.
  • Usługa moderowania tekstu to interfejs Google Cloud API, który można używać poniżej określonego limitu wykorzystania, korzysta z systemów uczących się do analizowania dokumentu pod kątem zgodności z listą zabezpieczeń atrybutów, w tym różnych potencjalnie szkodliwych kategorii i tematów, mogą zostać uznane za wrażliwe.

Warto ocenić, w jakim stopniu gotowe klasyfikatory są zgodne z Twoimi zasadami. celów i jakościowej oceny przypadków niepowodzenia. Ważne jest też, aby nadmierne filtrowanie może również skutkować niezamierzonymi szkodami, a także przeznaczenia aplikacji, co oznacza, że ważne jest również zapoznanie się przypadków nadmiernego filtrowania. Więcej informacji na temat takiej oceny Więcej informacji znajdziesz w artykule na temat oceny modelu i układu pod kątem bezpieczeństwa.

Tworzenie niestandardowych klasyfikatorów bezpieczeństwa

Jest kilka powodów, dla których gotowe środki ochrony mogą nie być dobrym rozwiązaniem. w Twoim przypadku użycia, np. zasady, które nie są obsługiwane, bardziej optymalnie dostosować zabezpieczenie na podstawie zaobserwowanych danych mających wpływ na Twój system. W w tym przypadku elastyczne klasyfikatory zapewniają wydajną elastyczną platformę do tworzenia niestandardowych środków ochrony przez dostrajanie modeli, takich jak Gemma – zgodnie z Twoimi potrzebami. Zapewniają też pełną kontrolę nad tym, jak je wdrażać.

Samouczki Gemma Agile Classifier

Rozpocznij ćwiczenia z programowania Uruchom Google Colab

Klasyfikatory zwinne: codelab samouczek jak dostrajanie gemmy za pomocą LoRA działający jako klasyfikator moderacji treści przy użyciu KerasNLP bibliotece. Na podstawie tylko 200 przykładów ze zbioru danych EHOS udało się klasyfikator uzyskuje wynik F1 równy 0,80 i wynik ROC-AUC. wynosi 0,78, co jest korzystnym wynikiem Wyniki w tabeli wyników. Podczas trenowania na 800 przykładach takich jak inne klasyfikatory na tablicy wyników, elastyczny klasyfikator oparty na Gemmie uzyskuje wynik F1 równy 83,74 i wynik ROC-AUC wynoszący 88,17. Możesz dostosować instrukcji dotyczących dalszego zawężania klasyfikatora lub tworzenia własnego niestandardowych klasyfikatorów bezpieczeństwa.

Sprawdzone metody konfigurowania środków ochrony

Zdecydowanie zalecamy stosowanie klasyfikatorów bezpieczeństwa jako środków ochrony. Pamiętaj jednak: mogą sprawić, że model generatywny nie będzie generować żadnych danych użytkownika, jeśli treści są zablokowane. Aplikacje muszą być do tego dostosowane tych kwestii. Najpopularniejsze czatboty radzą sobie z tym, udzielając gotowych odpowiedzi („Jestem Jestem modelem językowym i nie mogę Ci pomóc w tej sprawie”).

Znajdź równowagę między przydatnością a nieszkodliwością: klasyfikatory zabezpieczeń, ważne jest, aby pamiętać, że popełniają błędy, Uwzględnianie obu wyników fałszywie pozytywnych (np. twierdzenie, że dane wyjściowe są niebezpieczne, gdy są not) i fałszywie negatywnych (brak oznaczenia danych wyjściowych jako niebezpiecznych, jeśli takie są). Według ocenianie klasyfikatorów na podstawie takich wskaźników jak F1, Precyzja, Czułość i AUC-ROC, może określić sposób równowagi między fałszywie pozytywnymi a fałszywymi błędów negatywnych. Zmieniając próg klasyfikatorów, możesz znaleźć idealna równowaga, która pozwala uniknąć nadmiernego filtrowania wyników, a jednocześnie zapewnia odpowiednie zasady bezpieczeństwa.

Sprawdzaj klasyfikatory pod kątem niezamierzonych uprzedzeń: klasyfikatory zabezpieczeń, takie jak innym modelem ML, mogą propagować niezamierzone uprzedzenia, takie jak socjokultura stereotypów. Aplikacje muszą zostać odpowiednio ocenione pod kątem problematycznych zachowań. Klasyfikatory bezpieczeństwa treści mogą na treści dotyczące tożsamości, które częściej obraźliwego języka w internecie. Na przykład, gdy Perspective API po wdrożeniu model zwrócił wyższe wyniki toksyczności w komentarzach odnoszące się do określonych grup tożsamości (blog). To nadmierne wyzwalacze może się zdarzyć, ponieważ komentarze, w których pojawiają się terminy związane z tożsamością, grupy często będące celem (np. „muzułmanki”, „muzułmańskie”, „feministyczne” „kobieta”, „gej” itp.) są częściej toksyczne. Kiedy zbiory danych klasyfikatory trenowania występują w przypadku komentarzy zawierających określone klasyfikatory mogą nadmiernie uogólniać i uwzględniać wszystkie komentarze z tymi słowami jako potencjalnie niebezpiecznych. Przeczytaj, jak zespół Jigsaw zminimalizowane to niezamierzone uprzedzenia.

Zasoby dla deweloperów