Modele sztucznej inteligencji (AI) Gemini zostały stworzone z myślą o różne typy danych wejściowych, w tym tekst, obraz i dźwięk. Ponieważ mogą obsługiwać więcej niż jeden typ lub tryb danych. Modele Gemini są nazywane modelami multimodalnymi lub zostały wyjaśnione jako mające możliwości multimodalne.
Na tej stronie znajdziesz wskazówki i sprawdzone metody dotyczące używania plików multimedialnych w dla interfejsu Gemini API. Informacje o korzystaniu z Gemini Files API: przesyłania plików multimedialnych i umieszczania ich w promptach, Vision, audio oraz Przewodniki po przetwarzaniu dokumentów.
Używanie plików multimedialnych z promptami
Użycie w promptach różnych typów danych pozwala lepiej co daje elastyczność w zakresie zadań, które można wykonać przy użyciu interfejsu Gemini API. Dla: można na przykład wysłać modelowi zdjęcie pysznego posiłku i poprosić go o napisanie krótki blog na temat posiłku.
Prompt | Odpowiedź |
Na podstawie tego zdjęcia napisz krótki, atrakcyjny post na blogu. Powinna dodaj opis posiłku na zdjęciu i opowiedz o mojej podróży przygotowywania posiłków. |
Przygotowywanie posiłków to świetny sposób na oszczędność czasu i pieniędzy, a także podpowie Ci, jak jeść zdrowiej. To świetny przykład zdrowego dania i pyszne dania, które można przygotować wcześniej. To danie składa się z brązowego ryżu, pieczonych warzyw i kurczaka teriyaki. brązowy ryż to zdrowe i złożone węglowodany, dzięki którym o utrzymującej się energii. Pieczone warzywa to świetny sposób na to, dawka witamin i minerałów, a kurczak teriyaki to pyszne opcji bogatej w białko. To danie jest również bardzo łatwe do przygotowania. Po prostu upiecz brązowy ryż, warzywa i przypiekam kurczaka teriyaki. Gdy wszystko będzie gotowe, podzielić go na pojemniki do przygotowywania posiłków i przechowywać w lodówce. Możesz wtedy wziąć pojemnik i ruszyć w zatłoczone poranki! Jeśli szukasz zdrowego i pysznego posiłku, który przyrządzane z wyprzedzeniem to świetna opcja. Jest tu mnóstwo składników odżywczych i smaku, co z pewnością sprawi, że poczujesz pełnię i satysfakcję. Przygotuj się na pyszne i zdrowe posiłki! |
Strategie dotyczące tworzenia promptów w mediach
Jeśli masz problem z uzyskaniem oczekiwanych wyników z promptów korzystających z funkcji plików multimedialnych, jest kilka strategii, które mogą pomóc w pobliżu. W sekcjach poniżej znajdziesz sposoby projektowania i rozwiązywania problemów wskazówek dotyczących ulepszania promptów, które używają danych wejściowych multimodalnych.
Prompty multimodalne możesz ulepszać, stosując te sprawdzone metody:
-
Podstawy projektowania promptów
- Instrukcje powinny być konkretne: instrukcje powinny być przejrzyste i zwięzłe, tak aby pozostawiać jak najmniej miejsca na błędy w interpretacji.
- Dodaj kilka przykładów do promptu: wykorzystaj realistyczne, krótkie przykłady, aby pokazać, co chcesz osiągnąć.
- Podział zadań krok po kroku: podziel złożone zadania na możliwe do realizacji cele podrzędne, aby wspierać model w trakcie całego procesu.
- Określ format wyjściowy: w prompcie poproś o utworzenie danych wyjściowych w wybranym formacie, np. markdown, JSON lub HTML.
- W przypadku promptów z jednym obrazem najpierw umieszczaj swój obraz w promptach z jednym obrazem: Gemini może obsługiwać wprowadzanie tekstu i obrazu w dowolnej kolejności, ale w przypadku promptów zawierających jeden obraz może działać lepiej, jeśli umieścisz go przed promptem tekstowym.
-
Rozwiązywanie problemów z promptem multimodalnym
- Jeśli model nie pobiera informacji z odpowiedniej części obrazu: dodaj wskazówki, na podstawie których prompt ma czerpać informacje.
- Jeśli dane wyjściowe modelu są zbyt ogólne (niedostosowane do poziomu obrazu): na początku promptu poproś model o opisanie obrazów, zanim przekażesz instrukcje dotyczące zadania. Możesz też poprosić model o omówienie zawartości obrazu.
Podstawy projektowania promptów
Ta sekcja zawiera rozwinięcie sprawdzonych metod wymienionych w poprzedniej sekcji.
Uwaga: wyniki modelu z tych przykładów Gemini mogą się różnić w zależności od uruchomienia.
Unikaj ogólników w instrukcjach
Największą skuteczność mają prompty, które są jasne i szczegółowe. Jeśli masz na myśli konkretne dane wyjściowe, lepiej uwzględnić to wymaganie w prompcie, aby mieć pewność, że otrzymasz oczekiwane wyniki.
Czasami intencja promptu może wydawać się jasna dla autora komunikatu, ale w rzeczywistości jest ona niedostatecznie określona. Aby dostosować działanie modelu, zastanów się, jak może zostać zinterpretowany Twój prompt, i zadbaj o to, aby podane przez Ciebie instrukcje były konkretne i jasne. Pamiętaj, aby zostawić jak najmniej miejsca na błędne interpretacje.
Na tym zdjęciu pokładu lotniska prosi model o „opisanie tego zdjęcia” by wygenerować ogólny opis. Jeśli model ma analizować czas i miasto z obrazu, możesz uwzględnić tę prośbę bezpośrednio w prompcie.
Prompt | Odpowiedź modelu |
---|---|
Opisz ten obraz. |
Obraz przedstawia tablicę przylotów i odlotów na lotnisku. |
Zaktualizowany prompt | Ulepszona odpowiedź |
---|---|
Przeanalizuj godzinę i miasto z tablicy lotniskowej pokazanej na tym obrazie, aby utworzyć listę. |
Dodaj kilka przykładów
Model Gemini może akceptować wiele danych wejściowych, których może używać jako przykładów do zrozumienia w dowolnym momencie. Dodanie tych przykładów może pomóc modelowi zidentyfikować wzorce i zastosować zależności między danymi obrazami a odpowiedziami w nowym przykładzie. Jest to tzw. „few-shot” systemów uczących się.
W poniższym przykładzie początkowe dane wyjściowe są zapisane w formie zdania i zawierają również kraju (Brazylia). Załóżmy, że chcesz uzyskać dane wyjściowe w innym formacie lub stylu i chcesz można określić tylko miasto, a nie kraj. Dodanie kilku ujęć do promptu może odpowiednio pokierować modelem. zareagować w sposób, który najbardziej Ci odpowiada.
Prompt | Odpowiedź modelu |
---|---|
Określ miasto i punkt orientacyjny. |
Znane miejsce to posąg Chrystusa Zbawiciela w Rio de Janeiro w Brazylii. |
Zaktualizowany prompt | Ulepszona odpowiedź |
---|---|
Określ miasto i punkt orientacyjny. |
miasto: Rzym, punkt orientacyjny: Koloseum. |
miasto: Pekin, punkt orientacyjny: Zakazane Miasto |
|
miasto: Rio de Janeiro, punkt orientacyjny: posąg Chrystusa Zbawiciela |
Szczegółowa analiza
W przypadku złożonych zadań, takich jak te, które wymagają zarówno zrozumienia, jak i rozumowania, i podzielić zadania na mniejsze, prostsze etapy. Może też być skuteczne, jeśli bezpośrednio poprosić model o „krok po kroku” w prompcie.
Prompt | Odpowiedź modelu |
---|---|
Kiedy skończy mi się papier toaletowy? |
Wkrótce zostały Ci już tylko 3 rzuty. |
Zaktualizowany prompt | Ulepszona odpowiedź |
---|---|
|
|
Zadania matematyczne i inne rodzaje zadań słownych są doskonałym narzędziem do zmuszenia modelu do szczegółowego myślenia.
Prompt | Odpowiedź |
---|---|
Jaki jest czwarty wyraz w ciągu? |
-135 |
Odpowiedź z modelu jest nieprawidłowa. Aby to poprawić, możesz poprosić model o przeanalizowanie problemu, zanim odpowie na prompt.
Prompt | Odpowiedź |
---|---|
Najpierw przeanalizuj formułę widoczną na obrazie. Następnie na podstawie wzoru odpowiedz „Jaki jest czwarty wyraz w ciągu?”. |
Kliknij, aby rozwinąć wynik$$ b(n) = b(n-1) * (-3) $$ $$ b(1) = 15 $$
$$ b(4) = b(4-1) * (-3) $$ $$ b(4) = b(3) * (-3) $$ $$ b(3) = b(3-1) * (-3) $$ $$ b(3) = b(2) * (-3) $$ $$ b(2) = b(2-1) * (-3) $$ $$ b(2) = b(1) * (-3) $$ $$ b(2) = 15 * (-3) $$ $$ b(2) = -45 $$ $$ b(3) = b(2) * (-3) $$ $$ b(3) = -45 * (-3) $$ $$ b(3) = 135 $$ $$ b(4) = b(3) * (-3) $$ $$ b(4) = 135 * (-3) $$ $$ b(4) = -405 $$ W związku z tym czwartym wyrazem w sekwencji jest liczba -405. |
Ta odpowiedź modelu jest prawidłowa – aby jeszcze bardziej usprawnić odpowiedź, możesz poprosić model, aby zajął się krok po kroku.
Zaktualizowany prompt | Ulepszona odpowiedź |
---|---|
Jaki jest czwarty wyraz w ciągu? Krok po kroku. |
Pierwsze hasło to 15. Drugi wyraz to b(1) * (-3) = 15 * (-3) = -45. Trzeci wyraz to b(2) * (-3) = -45 * (-3) = 135. Czwarty wyraz to b(3) * (-3) = 135 * (-3) = –405. |
Spróbuj określić format wyjściowy
Częstym problemem jest konieczność umieszczenia danych wyjściowych modelu w określonym formacie (np. markdown, JSON, HTML), szczególnie wtedy, gdy dane wyjściowe modelu muszą zostanie pozyskany przez zadanie podrzędne. Możesz spróbować wygenerować dane wyjściowe w tym formacie, instruując model w prompcie. Poniżej przedstawiamy 2 przykłady:
Prompt | Odpowiedź modelu |
---|---|
Przeanalizuj tabelę na tym obrazie do formatu Markdown |
| Temat | Stan | Godzina | Data rozpoczęcia | Termin | | ------- | ------ | ---- | --------- | ------ | | Matematyka | Gotowe | 1,5 godziny | 29.11.2023 r. | 1.12.2023 r. | | Geografia | Gotowe | 30 min | 2.12.2023 r. | 04.12.2023 r. | | Fizyka | W toku | 2 godz. | 3.12.2023 r. | 5.12.2023 r. | | Biologia | Nie rozpoczęto | 6 godzin | 2.11.2016 r. | 6.12.2023 r. | |
Prompt | Odpowiedź modelu |
---|---|
Podaj listę wszystkich tych atrybutów: składniki, rodzaj kuchni, potrawy wegetariańskie lub nie, w formacie JSON |
|
W prośbach o pojedynczy obraz umieść swój obraz na pierwszym miejscu
Gemini może interpretować obrazy i teksty w dowolnej kolejności w prompcie, ale umieszczając pojedynczy obraz może przynieść lepsze wyniki. W poniższych przykładach obraz jest poprzedzany tekstem w każdym promptie.
Rozwiązywanie problemów z promptem multimodalnym
Jeśli nie otrzymujesz przydatnej odpowiedzi, konieczne może być rozwiązanie problemu. Oto kilka strategii, które możesz wypróbować.
Jeśli model nie rysuje informacji z odpowiedniej części zdjęcia
Aby otrzymać bardziej szczegółową odpowiedź, możesz wskazać aspekty obrazu, które ma zawierać prompt pobierać informacje w celu ustalenia odpowiedzi.
Prompt | Odpowiedź modelu |
---|---|
Przez ile dni te pieluchy wystarczyły na dziecko? |
Pieluchy pozostaną ważne przez 198 dni. Po tym czasie się skończą. |
Zaktualizowany prompt | Ulepszona odpowiedź |
---|---|
Jak długo te pieluchy wystarczyą, zanim skończę? Aby określić wiek dziecka, użyj wagi podanej na pudełku i podaj całkowitą liczbę pieluch w pudełku. Podziel łączną liczbę przez liczbę pieluch, przez które dziecko przechodzi dziennie. |
Opakowanie zawiera 198 pieluch. Na pudełku znajduje się informacja, że pieluchy są przeznaczone dla dziecka ważącego 22-37 kg. Przeciętne dziecko w tym zakresie wagowe ma prawdopodobnie od 1 do 2 lat. 2-latki zwykle chodzą 6 pieluch dziennie, dlatego pieluchy wytrzymują około 33 dni (198/6). |
Jeśli dane wyjściowe modelu są zbyt ogólne i niedostosowane odpowiednio do danych wejściowych obrazu
Aby pomóc modelowi dostosować odpowiedź do obrazów, spróbuj poprosić go o opisanie obrazów, zanim wykonasz zadanie wyciągania wniosków.
Prompt | Odpowiedź modelu |
---|---|
Co łączy te obrazy? |
Wszystkie 4 zdjęcia to przykłady fotografii poziomej. |
Zaktualizowany prompt | Ulepszona odpowiedź |
---|---|
Najpierw opisz szczegółowo, co znajduje się na każdym ze zdjęć. Co łączy te obrazy? |
Pierwszy obraz przedstawia osobę pakującą walizkę. Drugi obraz przedstawia pusty korytarz w centrum handlowym. Trzecie zdjęcie przedstawia rolkę papieru toaletowego. Czwarty obraz przedstawia ciemne, burzowe morze. Wszystkie te obrazy mają cechy wspólne. Spacje liminalne to miejsca lub sytuacje pomiędzy 2 innymi miejscami lub sytuacjami. Charakteryzują się one często poczuciem niepewności lub niejasności. Pierwsze zdjęcie przedstawia osobę będącą w czasie pomiędzy byciem w domu a podróżą. Na drugim zdjęciu widać korytarz między dwoma sklepami. Trzecie zdjęcie przedstawia papier toaletowy, który może przedstawiać łazienkę. Łazienka to miejsce pośrednie, które łączy prywatne i obszarów publicznych. To miejsce, w którym przygotowujemy się do wejścia lub wyjazdu ze świata. Czwarty obraz przedstawia morze pomiędzy spokojem a sztormami. Przestrzenie liminalne mogą być zarówno ekscytujące, jak i niepokojące. Mogą być zarówno nowym początkiem, jak i zakończeniem. Mogą być miejscem refleksji lub działania. |
Możesz też poprosić model o odwołanie się do tego, co widać na obrazie.
Zaktualizowany prompt | Ulepszona odpowiedź |
---|---|
Co łączy te obrazy? Zapoznaj się z treścią zdjęć w odpowiedzi. |
Wszystkie zdjęcia są związane z podróżami. Pierwszy obraz przedstawia osobę pakującą walizkę, a na drugim – osobę pakującą walizkę. pusty korytarz w centrum handlowym, trzeci obraz przedstawia stos papieru toaletowego, a na czwartym – stos papieru toaletowego ciemne i burzowe morze. Te obrazy są związane z podróżami, ponieważ są tym, czego ludzie potrzebują lub używają w podróży. Pierwszy obraz przedstawia osobę pakującą walizkę, czyli czynność, którą ludzie robią, gdy są wybiera się w podróż. Drugi obraz przedstawia pusty korytarz w centrum handlowym, czyli miejscu, w którym ludzie często robią zakupy na wyjazd. Trzecie zdjęcie przedstawia stos papieru toaletowego, często używane podczas podróży. Czwarty obraz przedstawia ciemne, burzowe morze, co często spotykają się podczas podróży. |
Te same wskazówki sprawdzają się w przypadku kreacji tworzonych na podstawie obrazów. W przykładzie poniżej z użyciem parametru z królikiem, prosząc model o uwzględnienie niektórych elementów z obrazu, co może poprawić wynik.
Prompt | Odpowiedź modelu |
---|---|
Czy możesz napisać wiersz o tym obrazie? |
Mały króliczek, taki miękki i brązowy – Gładzisz trawę słodko i zielono. |
Zaktualizowany prompt | Ulepszona odpowiedź |
---|---|
Czy możesz napisać wiersz opisowy i dramatyczny na temat tego obrazu wraz z informacją o jego lokalizacji? |
Mały króliczek na zielonym terenie Czy to błękit oceanu? Mała króliczek, powiedz mi coś szczery Może w tym ogrom tego wszystkiego, Mała króliczku, zastanawiam się,co Ci przyjdzie do głowy Cokolwiek to jest, mały króliczek, |
Rozwiązywanie problemów z niezrealizowaną częścią promptu
Trudno określić, czy prompt nie powiódł się, ponieważ model nie rozumie obraz na początku lub jeśli rozpozna obraz, nie wykonał właściwych kroków rozumowania.
Aby rozróżnić te przyczyny, poproś model, aby opisał, co jest na obrazie.
W tym przykładzie poniżej, jeśli model odpowie przekąską, która po połączeniu z aparatem (np. popcorn), możesz najpierw rozwiązać problemy, aby określić, czy model poprawnie że obraz zawiera herbatę.
Prompt | Prośba o rozwiązanie problemu |
---|---|
Jaka przekąska mogę zrobić w ciągu minuty, która pasuje do tego? |
Opisz, co jest na tym obrazie. |
Inną strategią jest poproszenie modelu o wyjaśnienie swojego rozumowania. Pomoże Ci to zawęzić zakres uzasadnienia, jeśli tak się stało.
Prompt | Prośba o rozwiązanie problemu |
---|---|
Jaka przekąska mogę zrobić w ciągu minuty, która pasuje do tego? |
Jaka przekąska mogę zrobić w ciągu minuty, która pasuje do tego? W jaki sposób? |
Dostrajanie parametrów próbkowania
W każdym żądaniu wysyłasz do modelu nie tylko prompt multimodalny, ale też zestaw parametrów próbkowania. Model może generować różne wyniki zależnie od wartości parametrów. Eksperymentuj z różnymi parametrów, aby uzyskać najlepsze wartości dla danego zadania. Najczęściej korygowane parametry to:
- Temperatura
- górne P
- górne K
Temperatura
Temperatura jest używana do próbkowania podczas generowania odpowiedzi, która ma miejsce, gdy zastosowane są górne P i Top K.
Temperatura decyduje o stopniu losowości wyboru tokenów. Niższe temperatury są przydatne w przypadku promptów,
wymagają bardziej deterministycznej i mniej otwartej czy kreatywnej odpowiedzi, a wyższe temperatury mogą prowadzić do
zróżnicowanych lub kreatywnych wyników. Temperatura o wartości 0 jest deterministyczna, co oznacza, że odpowiedź o najwyższym prawdopodobieństwie
jest zawsze zaznaczony.
W większości przypadków dobrze jest zacząć od temperatury 0, 4. Jeśli chcesz uzyskać lepsze wyniki kreacji, zwiększ temperatury ciała. Jeśli zauważysz wyraźne halucynacje, spróbuj obniżyć temperaturę.
Top-K
Parametr Top-K zmienia sposób, w jaki model wybiera tokeny w celu wygenerowania odpowiedzi. Górne K o wartości 1 oznacza, że następny wybrany token jest
najbardziej prawdopodobne spośród wszystkich tokenów w słowniku modelu (nazywanego też dekodowaniem zachłannym), podczas gdy
Top-K o wartości 3 oznacza, że następny token jest wybierany spośród 3 najbardziej prawdopodobnych
za pomocą temperatury.
Na każdym etapie wyboru tokena próbkowane są tokeny o najwyższym prawdopodobieństwie K o najwyższym prawdopodobieństwie. Potem Tokeny są dodatkowo filtrowane na podstawie górnego P, a ostateczny wybór tokena dokonywany jest przy użyciu próbkowania z użyciem temperatury.
Jeśli chcesz uzyskiwać mniej losowe odpowiedzi, podaj niższą wartość, a jeśli bardziej – wyższą. Wartość domyślna parametru górnego K to 32.
Top-P
Parametr Top-P również zmienia sposób, w jaki model wybiera tokeny w celu wygenerowania odpowiedzi. Tokeny są wybierane spośród najczęściej (patrz górne K)
do najmniej prawdopodobnego do momentu, aż suma ich prawdopodobieństw będzie równa wartości górnego P. Jeśli na przykład tokeny
A, B i C mają prawdopodobieństwo 0,6; 0,3; 0,1, a wartością górnego P jest 0,9, to model
wybierz A lub B jako kolejny token (z użyciem temperatury) i wyklucz C jako kandydata.
Jeśli chcesz uzyskiwać mniej losowe odpowiedzi, podaj niższą wartość, a jeśli bardziej – wyższą. Wartość domyślna parametru górnego P to 1,0.
Dalsze kroki
- Spróbuj napisać własne prompty multimodalne za pomocą AI od Google Studio.
- Więcej wskazówek na temat projektowania promptów znajdziesz tutaj: Strategie dotyczące promptów.