Utwórz środki ochrony danych wejściowych i wyjściowych

Aplikacje generatywnej AI często bazują na filtrowaniu danych wejściowych i wyjściowych, nazywane czasami środkami ochronnymi, aby zapewnić odpowiedzialny model zachowanie użytkownika. Techniki filtrowania danych wejściowych i wyjściowych sprawdzają dane przekazywane do wyjść z modelu, będzie zgodne z Twoimi zasadami. dla swojej aplikacji.

Gotowe zabezpieczenia

Nawet po wcześniejszym dostrojeniu pod kątem bezpieczeństwa i dobrze zaprojektowanym szablonie promptów model nadal może generować treści, które mogą wyrządzić niezamierzone szkody. Aby jeszcze bardziej to poprawić, klasyfikatory treści mogą dodać kolejną warstwę i ochrony danych. Klasyfikatory treści można stosować zarówno do danych wejściowych, jak i wyjściowych.

Klasyfikatory danych wejściowych są zwykle używane do filtrowania treści, które nie są przeznaczone mogą zostać użyte w aplikacji, co może spowodować naruszenie zasad zasady bezpieczeństwa. Filtry danych wejściowych są często celem ataków kontradyktoryjnych obchodzić tę politykę treści. Klasyfikatory wyjściowe mogą dalej filtrować model dane wyjściowe, wykrywając niezamierzone generowanie, które mogą naruszać Twoje zasady bezpieczeństwa. Zalecamy stosowanie klasyfikatorów, które obejmują wszystkie Twoje zasady dotyczące treści.

Google udostępnia oparte na interfejsie API klasyfikatory bezpieczeństwa treści, które można wykorzystać filtruj dane wejściowe i wyjściowe systemu:

  • Perspective API to bezpłatny interfejs API, który wykorzystuje systemy uczące się, modeli uczących się oceniających wpływ, jaki dany komentarz może mieć na rozmowy. Zapewnia wyniki, które przechwytują prawdopodobieństwo, czy komentarz jest toksyczny, obraźliwy, nie na temat lub zawiera groźby.
  • Usługa moderowania tekstu to interfejs Google Cloud API, który można używać poniżej określonego limitu wykorzystania, korzysta z systemów uczących się do analizowania dokumentu pod kątem zgodności z listą zabezpieczeń atrybutów, w tym różnych potencjalnie szkodliwych kategorii i tematów, mogą zostać uznane za wrażliwe.

Warto ocenić, w jakim stopniu gotowe klasyfikatory są zgodne z Twoimi zasadami. celów i jakościowej oceny przypadków niepowodzenia. Ważne jest też, aby nadmierne filtrowanie może również skutkować niezamierzonymi szkodami, a także przeznaczenia aplikacji, co oznacza, że ważne jest również zapoznanie się przypadków nadmiernego filtrowania. Więcej informacji na temat takiej oceny Więcej informacji znajdziesz w artykule na temat oceny modelu i układu pod kątem bezpieczeństwa.

Tworzenie niestandardowych klasyfikatorów bezpieczeństwa

Jest kilka powodów, dla których gotowe środki ochrony mogą nie być dobrym rozwiązaniem. w Twoim przypadku użycia, np. zasady, które nie są obsługiwane, bardziej optymalnie dostosować zabezpieczenie na podstawie zaobserwowanych danych mających wpływ na Twój system. W w tym przypadku elastyczne klasyfikatory zapewniają wydajną elastyczną platformę do tworzenia niestandardowych środków ochrony przez dostrajanie modeli, takich jak Gemma – zgodnie z Twoimi potrzebami. Zapewniają też pełną kontrolę nad tym, jak je wdrażać.

Samouczki Gemma Agile Classifier

Rozpocznij ćwiczenia z programowania Uruchom Google Colab

Klasyfikatory zwinne: codelab samouczek jak dostrajanie gemmy za pomocą LoRA działający jako klasyfikator moderacji treści przy użyciu KerasNLP bibliotece. Na podstawie tylko 200 przykładów ze zbioru danych EHOS udało się klasyfikator uzyskuje wynik F1 równy 0,80 i wynik ROC-AUC. wynosi 0,78, co jest korzystnym wynikiem Wyniki w tabeli wyników. Podczas trenowania na 800 przykładach takich jak inne klasyfikatory na tablicy wyników, elastyczny klasyfikator oparty na Gemmie uzyskuje wynik F1 równy 83,74 i wynik ROC-AUC wynoszący 88,17. Możesz dostosować instrukcji dotyczących dalszego zawężania klasyfikatora lub tworzenia własnego niestandardowych klasyfikatorów bezpieczeństwa.

Sprawdzone metody konfigurowania środków ochrony

Zdecydowanie zalecamy stosowanie klasyfikatorów bezpieczeństwa jako środków ochrony. Pamiętaj jednak: mogą sprawić, że model generatywny nie będzie generować żadnych danych użytkownika, jeśli treści są zablokowane. Aplikacje muszą być do tego dostosowane tych kwestii. Najpopularniejsze czatboty radzą sobie z tym, udzielając gotowych odpowiedzi („Jestem Jestem modelem językowym i nie mogę Ci pomóc w tej sprawie”).

Znajdź równowagę między przydatnością a nieszkodliwością: klasyfikatory zabezpieczeń, ważne jest, aby pamiętać, że popełniają błędy, Uwzględnianie obu wyników fałszywie pozytywnych (np. twierdzenie, że dane wyjściowe są niebezpieczne, gdy są not) i fałszywie negatywnych (brak oznaczenia danych wyjściowych jako niebezpiecznych, jeśli takie są). Według ocenianie klasyfikatorów na podstawie takich wskaźników jak F1, Precyzja, Czułość i AUC-ROC, może określić sposób równowagi między fałszywie pozytywnymi a fałszywymi błędów negatywnych. Zmieniając próg klasyfikatorów, możesz znaleźć idealna równowaga, która pozwala uniknąć nadmiernego filtrowania wyników, a jednocześnie zapewnia odpowiednie zasady bezpieczeństwa.

Sprawdzaj klasyfikatory pod kątem niezamierzonych uprzedzeń: klasyfikatory zabezpieczeń, takie jak innym modelem ML, mogą propagować niezamierzone uprzedzenia, takie jak socjokultura stereotypów. Aplikacje muszą zostać odpowiednio ocenione pod kątem problematycznych zachowań. Klasyfikatory bezpieczeństwa treści mogą na treści dotyczące tożsamości, które częściej obraźliwego języka w internecie. Na przykład, gdy Perspective API po wdrożeniu model zwrócił wyższe wyniki toksyczności w komentarzach odnoszące się do określonych grup tożsamości (blog). To nadmierne wyzwalacze może się zdarzyć, ponieważ komentarze, w których pojawiają się terminy związane z tożsamością, grupy często będące celem (np. „muzułmanki”, „muzułmańskie”, „feministyczne” „kobieta”, „gej” itp.) są częściej toksyczne. Kiedy zbiory danych klasyfikatory trenowania występują w przypadku komentarzy zawierających określone klasyfikatory mogą nadmiernie uogólniać i uwzględniać wszystkie komentarze z tymi słowami jako potencjalnie niebezpiecznych. Przeczytaj, jak zespół Jigsaw zminimalizowane to niezamierzone uprzedzenia.

Zasoby dla deweloperów