Ochrona modeli

Produkty wykorzystujące generatywną sztuczną inteligencję (GenAI) są stosunkowo nowe i ich działanie może się różnić bardziej niż w przypadku wcześniejszych wersji oprogramowania. Środki ochrony które chronią usługę przed niewłaściwym wykorzystywaniem funkcji generatywnej AI, rodzaj. W tym przewodniku wyjaśniamy, jak stosować narzędzia do sprawdzania zgodności z zasadami treści i narzędzia do znakowania, aby chronić swoje produkty korzystające z generatywnej AI.

Zgodność z polityką treści

Nawet po wcześniejszym dostrojeniu pod kątem bezpieczeństwa szablonu prompta, możliwe, że Twoja generatywna AI w celu generowania treści, które mogą wyrządzić niezamierzone szkody. Usługi generatywnej AI często korzystają z filtrowania danych wejściowych i wyjściowych, aby zapewnić odpowiedzialne działanie modelu. Te techniki sprawdzają, czy dane wejściowe i wyjściowe modelu są zgodne z zasadami. Często odbywa się to przez dodatkowe trenowanie modelu pod kątem bezpieczeństwa w celu utworzenia modelu klasyfikatora treści.

Klasyfikatory danych wejściowych służą do filtrowania treści, które są bezpośrednio lub mogą Wygenerować przez model treści naruszające Twoją politykę treści. Wejście filtry często są celem ataków kontradyktoryjnych, które mają na celu obejście treści .

Klasyfikatory danych wyjściowych filtrują dane wyjściowe modelu, odfiltrowując generowane treści, które naruszają Twoje zasady bezpieczeństwa. Dokładne monitorowanie zachowań związanych z odrzucaniem treści może ujawnić nowe klasy promptów, które można wykorzystać do rozszerzenia lub ulepszenia filtrów danych wejściowych.

Zalecamy korzystanie z klasyfikatorów, które obejmują wszystkie zasady dotyczące treści. Możesz to zrobić, korzystając z gotowych klasyfikatorów, ale może być konieczne utworzenie klasyfikatorów niestandardowych, które będą obsługiwać Twoje konkretne zasady.

Kluczowa jest też równowaga. Nadmierne filtrowanie może spowodować niezamierzone szkody lub ograniczyć użyteczność aplikacji; zapoznaj się z przypadkami, w których nadmierne filtrowanie mają miejsce. Więcej informacji znajdziesz w przewodniku po ocenie bezpieczeństwa.

Gotowe klasyfikatory zasad dotyczących treści

Gotowe klasyfikatory treści stanowią dodatkową warstwę ochrony w przypadku treningu bezpieczeństwa, który jest nieodłącznym elementem modelu, a co za tym idzie, jeszcze bardziej ograniczają ryzyko wystąpienia określonych rodzajów naruszeń zasad. Występują zwykle 2 rodzaje:

  1. Samoużywane klasyfikatory, takie jak ShieldGemma, można pobrać i hostować na różnych platformach, w tym w chmurach takich jak Google Cloud czy na sprzęcie prywatnym. Niektóre klasyfikatory mogą nawet działać na urządzeniach w przypadku aplikacji mobilnych.
  2. Klasyfikatory oparte na interfejsie API są udostępniane jako usługi, które zapewniają klasyfikację dużych ilości danych z krótkim czasem oczekiwania na podstawie różnych zasad. Google udostępnia trzech usług, które mogą Cię zainteresować:
    • Sprawdzanie bezpieczeństwa AI udostępnia oceny zgodności i panele wspierające ocenę i monitorowanie modeli. Narzędzie do sprawdzania bezpieczeństwa AI jest dostępne w wersji beta. Zarejestruj się, aby otrzymywać wiadomości, dostęp i demonstracje.
    • Usługa moderowania tekstu to interfejs Google Cloud API, który analizuje tekst pod kątem naruszeń zasad bezpieczeństwa, w tym szkodliwych kategorii i wrażliwych tematów, z uwzględnieniem częstotliwości użycia.
    • Perspective API to bezpłatny interfejs API, który wykorzystuje modele systemów uczących się do oceny postrzeganego wpływu komentarza na rozmowę. Podaje wyniki, które przechwytują prawdopodobieństwo, czy komentarz jest toksyczny, obraźliwy, nie na temat lub zawiera groźby.

Warto ocenić, w jakim stopniu gotowe klasyfikatory są zgodne z Twoimi zasadami. celów i jakościowej oceny przypadków niepowodzenia.

Klasyfikatory zasad dotyczących treści

Gotowe klasyfikatory zasad dotyczących treści to doskonały początek, ale ograniczeń, w tym:

  • Ustalona taksonomia zasad, która może nie obejmować wszystkich Twoich treści .
  • Wymagania dotyczące sprzętu i połączenia, które mogą nie być odpowiednie dla środowiska, w którym będzie wdrażana aplikacja oparta na sztucznej inteligencji generatywnej.
  • Ceny i inne ograniczenia użytkowania.

Jednym ze sposobów na rozwiązanie tych ograniczeń mogą być niestandardowe klasyfikatory zasad dotyczących treści, a metoda elastycznych klasyfikatorów zapewnia wydajną i elastyczną platformę ich tworzenia. Gdy ta metoda dostraja model dla bezpieczeństwa, zapoznaj się z podstawowe informacje o dostrajaniu modelu.

Identyfikowanie treści wygenerowanych przez AI za pomocą znaków wodnych tekstowych SynthID

Generatywna AI może wcześniej generować szerszą gamę bardzo zróżnicowanych treści na dużą skalę niespotykaną dotąd. Choć większość przypadków tego wykorzystania odbywa się w celach zgodnych z prawem, obawy, że mogą przyczynić się do powstania dezinformacji i problemów z nieprawidłową atrybucją. Znak wodny to jedna z technik łagodzących te potencjalne skutki. Znaki wodne, które są niewidoczne dla ludzi, mogą być stosowane do treści wygenerowanych przez AI, a modele wykrywania mogą oceniać dowolne treści, aby wskazać prawdopodobieństwo, że zostały one opatrzone znakiem wodnym.

SynthID to technologia opracowana przez Google DeepMind, która umożliwia dodawanie znaków wodnych i identyfikowanie treści generowanych przez AI poprzez umieszczanie cyfrowych znaków wodnych bezpośrednio w obrazach, plikach audio, tekstach lub filmach wygenerowanych przez AI. Obecny tekst SynthID: dostępne do produkcji w aplikacji Hugging Face Transformers, zobacz raport badawczy i dokumenty, aby dowiedzieć się więcej na temat korzystania z SynthID w aplikacji.

Google Cloud umożliwia dodawanie znaków wodnych przez SynthID: za pomocą innych modalności, takich jak zdjęcia generowane przez Imagen, klientom Vertex AI.

Sprawdzone metody konfigurowania zabezpieczeń

Zdecydowanie zalecamy używanie klasyfikatorów bezpieczeństwa jako zabezpieczeń. Pamiętaj jednak: mogą sprawić, że model generatywny nie będzie generować żadnych danych użytkownika, jeśli treści są zablokowane. Aplikacje muszą być zaprojektowane tak, aby obsługiwały ten przypadek użycia. Najpopularniejsze czatboty radzą sobie z tym, udzielając gotowych odpowiedzi („Jestem Jestem modelem językowym i nie mogę Ci pomóc w tej sprawie”).

Znalezienie odpowiedniej równowagi między przydatnością a nieszkodliwością: podczas korzystania z systemów klasyfikacji bezpieczeństwa należy pamiętać, że mogą one popełniać błędy, w tym fałszywie pozytywne (np. uznanie, że dane wyjściowe są niebezpieczne, gdy tak nie jest) i fałszywie negatywne (brak oznaczenia danych wyjściowych jako niebezpiecznych, gdy tak jest). Według ocenianie klasyfikatorów na podstawie takich wskaźników jak F1, Precyzja, Czułość i AUC-ROC, może określić sposób równowagi między fałszywie pozytywnymi a fałszywymi błędów negatywnych. Zmieniając próg klasyfikatorów, możesz znaleźć idealna równowaga, która pozwala uniknąć nadmiernego filtrowania wyników, a jednocześnie zapewnia odpowiednie zasady bezpieczeństwa.

Sprawdzanie klasyfikatorów pod kątem niezamierzonych uprzedzeń: klasyfikatory bezpieczeństwa, podobnie jak inne modele uczenia maszynowego, mogą rozpowszechniać niezamierzone uprzedzenia, takie jak stereotypy społeczno-kulturowe. Aplikacje muszą zostać odpowiednio ocenione pod kątem problematycznych zachowań. Klasyfikatory bezpieczeństwa treści mogą na treści dotyczące tożsamości, które częściej obraźliwego języka w internecie. Na przykład, gdy interfejs Perspective API został po raz pierwszy uruchomiony, model zwracał wyższe wyniki toksyczności w komentarzach odwołujących się do pewnych grup tożsamości (blog). To nadmierne wyzwalacze może się zdarzyć, ponieważ komentarze, w których pojawiają się terminy związane z tożsamością, grupy często będące celem (np. „muzułmanki”, „muzułmańskie”, „feministyczne” „kobieta”, „gej” itp.) są częściej toksyczne. Kiedy zbiory danych klasyfikatory trenowania występują w przypadku komentarzy zawierających określone klasyfikatory mogą nadmiernie uogólniać i uwzględniać wszystkie komentarze z tymi słowami jako potencjalnie niebezpiecznych. Przeczytaj, jak zespół Jigsaw zminimalizowane to niezamierzone uprzedzenia.

Zasoby dla deweloperów