Oceniaj ryzyko i ustawiaj zasady bezpieczeństwa

Zasady bezpieczeństwa treści określają, jakie typy szkodliwych treści są niedozwolone na platformie online. Prawdopodobnie znasz politykę treści obowiązującą na platformach takich jak YouTube czy Google Play. Zasady dotyczące treści w przypadku zastosowań generatywnej AI są podobne: określają, jakiego typu treści nie powinna generować Twoja aplikacja, a także jak dostrajać modele i jakie środki ochrony należy dodać.

Zasady powinny odzwierciedlać Twój przypadek użycia. Na przykład usługa generatywnej AI, która na podstawie sugestii społeczności przedstawia pomysły na zajęcia dla całej rodziny, może mieć politykę zabraniającą generowania treści drastycznych i zawierających przemoc, ponieważ mogą one być szkodliwe dla użytkowników. I na odwrót: aplikacja, która podsumowuje proponowane przez użytkowników pomysły na historie science fiction, może umożliwiać generowanie przemocy, ponieważ jest tematem wielu historii z tego gatunku.

Zasady bezpieczeństwa powinny zabraniać tworzenia treści szkodliwych dla użytkowników lub niezgodnych z prawem. Powinny też one określać, jakie typy treści spełniają te kryteria w przypadku Twojej aplikacji. Możesz też uwzględnić wyjątki od treści edukacyjnych, dokumentalnych, naukowych lub artystycznych, które w innym wypadku mogłyby zostać uznane za szkodliwe.

Sformułowanie jasnych zasad oraz bardzo szczegółowe informacje, w tym wyjątki od zasad wraz z przykładami, ma kluczowe znaczenie dla stworzenia odpowiedzialnej usługi. Zasady są używane na każdym etapie tworzenia modelu. W przypadku czyszczenia lub oznaczania danych niedokładność może spowodować błędne oznaczenie danych bądź ich nadmierne lub niedostateczne usunięcie, co będzie miało wpływ na odpowiedzi bezpieczeństwa modelu. Niejasno zdefiniowane zasady prowadzą do dużej wariancji między ocenami, co utrudnia ustalenie, czy model spełnia standardy bezpieczeństwa.

Hipotetyczne zasady (tylko w celach ilustracyjnych)

Oto kilka przykładów zasad, których możesz użyć w swojej aplikacji, o ile pasują do Twojego przypadku użycia.

Kategoria zasad Zasady
Poufne informacje umożliwiające identyfikację Aplikacja nie będzie podawać informacji poufnych ani umożliwiających identyfikację (np. adresów e-mail, numerów kart kredytowych czy numerów PESEL) osób prywatnych.
szerzenie nienawiści Aplikacja nie generuje negatywnych ani szkodliwych treści ukierunkowanych na tożsamość lub cechy chronione (np. rasistowskie obelgi, promowanie dyskryminacji, nawoływanie do przemocy wobec grup chronionych).
Nękanie Aplikacja nie będzie generować złośliwych, zastraszających, dręczących lub nękających treści skierowanych do innej osoby (np. gróźb fizycznych, zaprzeczania tragicznych wydarzeń czy ubliżania ofiarom przemocy).
Treści niebezpieczne Aplikacja nie będzie generować instrukcji ani porad dotyczących wyrządzania krzywdy sobie lub innym (np. dostępu do broni palnej i urządzeń wybuchowych, budowania ich, promowania terroryzmu czy instrukcji samobójstwa).
Treści erotyczne Aplikacja nie będzie generować treści zawierających odniesienia do aktów seksualnych lub innych lubieżnych treści (np. erotycznych opisów, treści mających na celu wywołanie podniecenia).
Umożliwianie dostępu do szkodliwych towarów i usług Aplikacja nie będzie generować treści, które promują potencjalnie szkodliwe towary, usługi i działania lub umożliwiają dostęp do nich (np. ułatwiają dostęp do promowania hazardu, środków farmaceutycznych, fajerwerków czy usług seksualnych).
Szkodliwe treści Aplikacja nie generuje instrukcji dotyczących działań niezgodnych z prawem lub nieuczciwych (np. generowania oszustw phishingowych, spamu lub treści mających na celu masowe nagabywanie, jailbreaki).

Materiały dla programistów

Przykłady zasad dotyczących generatywnej AI: