Strategie dotyczące próśb o zgodę na wykorzystanie plików

Modele sztucznej inteligencji (AI) Gemini są przeznaczone do obsługi różnych typów danych wejściowych, w tym tekstu, obrazów i dźwięków. Mogą one obsługiwać więcej niż 1 typ lub tryb danych, dlatego są one nazywane modelami multimodalnymi lub mają możliwości multimodalne.

Na tej stronie znajdziesz wskazówki i sprawdzone metody dotyczące używania plików multimedialnych z prośbami o interfejs Gemini API. Informacje o używaniu interfejsu Gemini Files API do przesyłania plików multimedialnych i uwzględniania ich w promptach znajdziesz w artykule Wysyłanie zapytań dotyczących plików multimedialnych.

Używanie plików multimedialnych z promptami

Możliwość używania w promptach różnych typów danych zapewnia większą elastyczność w zakresie zadań, którymi można się zająć za pomocą interfejsu Gemini API. Możesz na przykład wysłać modelowi zdjęcie pysznego posiłku i poprosić go o napisanie krótkiego bloga o tym posiłku.

Prompt Odpowiedź

Napisz krótki, atrakcyjny post na blogu na podstawie tego zdjęcia. Powinien zawierać opis posiłku oraz informacje o gotowaniu posiłków.


Ciastka

Przygotowywanie posiłków to świetny sposób na zaoszczędzenie czasu i pieniędzy oraz zdrowe odżywianie. To świetny przykład zdrowego i pysznego posiłku, który można łatwo przygotować z wyprzedzeniem.

Ten posiłek składa się z brązowego ryżu, pieczonych warzyw i kurczaka teriyaki. Brązowy ryż to zdrowy i złożony węglowodan, który dostarczy Ci długotrwałej energii. Pieczone warzywa to świetny sposób na uzyskanie dziennej dawki witamin i minerałów. Teriyaki z kurczaka to pyszny, bogaty w białko dania.

Także danie jest bardzo proste w przygotowaniu. Ugotuj brązowy ryż, upiecz warzywa i upiecz kurczaka teriyaki. Gdy wszystko będzie gotowe, przenieś je do pojemników do przygotowywania posiłków i przechowuj je w lodówce. W takim razie chwyć pojemnik i ruszaj w pełne pracy rano.

Jeśli szukasz zdrowego i pysznego posiłku, który można łatwo przygotować z wyprzedzeniem, ten posiłek może być doskonałym rozwiązaniem. Jest pełne składników odżywczych i smaku, które z pewnością zagwarantują Ci poczucie sytości.

Przygotuj zdrowe i pyszne dania.

Strategie tworzenia promptów dla mediów

Jeśli masz problemy z uzyskaniem oczekiwanych wyników z promptów wykorzystujących pliki multimedialne, możesz skorzystać z kilku strategii, które mogą pomóc w osiągnięciu oczekiwanych rezultatów. W kolejnych sekcjach znajdziesz metody projektowania i wskazówki dotyczące rozwiązywania problemów, które pomogą Ci ulepszać prompty korzystające z multimodalnych danych wejściowych.

Możesz ulepszyć swoje multimodalne prompty, korzystając z tych sprawdzonych metod:

Podstawy projektowania promptów

  • Instrukcje powinny być konkretne: powinny być zrozumiałe i zwięzłe, tak aby nie popełnić błędu.
  • Dodaj kilka przykładów do promptu: wykorzystaj realistyczne przykłady kilku zdjęć, aby pokazać, co chcesz osiągnąć.
  • Podział zadań krok po kroku: dzielenie złożonych zadań na możliwe do opanowania celów podrzędnych, na których opiera się model.
  • Określ format wyjściowy: w prompcie poproś o wybrany format danych wyjściowych, np. Markdown, JSON, HTML itp.
  • Umieszczaj obrazy na pierwszym miejscu w przypadku promptów z jednym obrazem: Gemini może obsługiwać obrazy i tekst w dowolnej kolejności, ale w przypadku promptów zawierających pojedynczy obraz obraz może być skuteczniejszy, jeśli obraz zostanie umieszczony przed promptem tekstowym.

    Rozwiązywanie problemów z promptem multimodalnym

    • Jeśli model nie czerpie informacji z odpowiedniej części obrazu: określa elementy obrazu, z których ma on pochodzić informacje.
    • Jeśli dane wyjściowe modelu są zbyt ogólne (niedostosowane do obrazu): na początku promptu poproś model o opisanie obrazów, zanim przekażesz instrukcję wykonywania zadania, lub poproś model o odwołanie się do jego zawartości.
    • Podstawy projektowania promptów

      Ta sekcja zawiera rozwinięcie sprawdzonych metod wymienionych w poprzedniej sekcji.

      Uwaga: wyniki modelu z poniższych przykładów Gemini mogą się różnić w zależności od uruchomienia.

      Podawaj konkretne instrukcje

      Najskuteczniejsze są prompty, które są jasne i szczegółowe. Jeśli masz na myśli konkretne dane wyjściowe, lepiej zawrzyj je w prompcie, aby mieć pewność, że otrzymasz odpowiednie dane wyjściowe.

      Czasami intencja promptu może wydawać się jasna dla jego autora, ale w rzeczywistości nie jest ona określona. Aby dostosować działanie modelu, zastanów się, jak można (nieprawidłowo) zinterpretować prompt, i sprawdź, czy podane przez Ciebie instrukcje są konkretne i jasne. Pamiętaj, aby zostawić sobie jak najmniejszy margines na błędy.

      W przypadku tego zdjęcia tablicy lotniskowej prośba o „opisanie tego obrazu” może wygenerować ogólny opis. Jeśli potrzebujesz modelu, aby przeanalizować godzinę i miasto z obrazu, możesz uwzględnić to żądanie bezpośrednio w prompcie.

      Prompt Odpowiedź modelu

      Opisz ten obraz.

      Obraz przedstawia tablicę przylotów i odlotów na lotnisku.

      Zaktualizowany prompt Ulepszona odpowiedź
      Rozkład jazdy

      Przeanalizuj w postaci listę godziny i miasto z tablicy lotniska widocznej na ilustracji.

    • 10:50 Moskwa
    • 11:05 Edynburg
    • 11:05 Londyn
    • 11:10 Bukareszt
    • 11:30 Kijów
    • 11:35 Dublin
    • 11:45 – East Midlands
    • 12:15 Zosia
    • 12:30 Londyn
    • 12:30 Newcastle
    • 12:40 Petersburg
    • 12:40 Londyn
    • 12:45 Manchester
    • Dodaj kilka przykładów

      Model Gemini może akceptować wiele danych wejściowych, co może służyć jako przykłady pomagające w zrozumieniu pożądanych danych wyjściowych. Dodanie tych przykładów może pomóc modelowi rozpoznać wzorce i zastosować relację między danymi obrazami a odpowiedziami do nowego przykładu. Nazywamy to „few-shot”.

      W przykładzie poniżej pierwsze dane wyjściowe są zapisywane w zdaniu i zawierają również nazwę kraju (Brazylia). Załóżmy, że chcesz uzyskać dane wyjściowe w innym formacie lub stylu i tylko dla miasta, a nie kraju. Dodanie do promptu przykładów typu „few-shot” może skłonić model do zareagowania w oczekiwany sposób.

      Prompt Odpowiedź modelu
      Rozkład jazdy

      Wskaż miasto wraz z punktem orientacyjnym.

      Punktem orientacyjnym jest posąg Chrystusa Zbawiciela w Rio de Janeiro w Brazylii.

      Zaktualizowany prompt Ulepszona odpowiedź

      Wskaż miasto wraz z punktem orientacyjnym.

      Koloseum

      miasto: Rzym, punkt orientacyjny: Koloseum.

      Zakazane Miasto

      miasto: Pekin, punkt orientacyjny: Zakazane Miasto

      zakazane miasto

      miasto: Rio de Janeiro, punkt orientacyjny: pomnik Chrystusa Zbawiciela

      Podziel szczegóły krok po kroku

      W przypadku złożonych zadań, takich jak te, które wymagają zarówno wizualnego rozumienia, jak i rozumowania, pomocne może być podzielenie zadania na mniejsze, prostsze kroki. Dobrym pomysłem może być też poproszenie modelu o „zastanowienie się krok po kroku” w prompcie.

      Prompt Odpowiedź modelu

      Kiedy skończy mi się papier toaletowy?

      Wkrótce zostały Ci tylko 3 rzuty kostką.

      Zaktualizowany prompt Ulepszona odpowiedź

        1. Najpierw policz rolki z papieru toaletowego na tym obrazku.
        2. Następnie sprawdź, ile papieru toaletowego przeciętny człowiek używa dziennie.
        3. Oblicz, jak długo wytrzymają te rolki papieru toaletowego.

        1. Na tym zdjęciu widać 3 rolki papieru toaletowego.
        2. Przeciętny człowiek używa około 20 kartek papieru toaletowego dziennie.
        3. Jeśli każda rolka zawiera 200 arkuszy, każda rolka będzie działać przez około 10 dni. Dlatego 3 próby wytrzymują około miesiąca.

      Zadania matematyczne lub inne rodzaje problemów słownych to doskonały wybór, gdy model musi zacząć myśleć krok po kroku.

      Prompt Odpowiedź

      Jaki jest czwarty wyraz ciągu?

      -135

      Odpowiedź modelu jest nieprawidłowa. Aby go poprawić, możesz poprosić model o przeanalizowanie problemu przed udzieleniem odpowiedzi na pytanie.

      Prompt Odpowiedź

      Najpierw przeanalizuj formułę na obrazie.

      Następnie na podstawie wzoru odpowiedz: „Jakie jest czwarty wyraz w sekwencji?”.

      Kliknij, aby rozwinąć wynik

      $$ b(n) = b(n-1) * (-3) $$

      $$ b(1) = 15 $$

      1. Podstaw liczbę n = 4 do wzoru:
      2. $$ b(4) = b(4-1) * (-3) $$

        $$ b(4) = b(3) * (-3) $$

      3. Nie znamy wartości argumentu b(3), więc zastąp w formule n = 3:
      4. $$ b(3) = b(3-1) * (-3) $$

        $$ b(3) = b(2) * (-3) $$

      5. Nie znamy wartości argumentu b(2), więc zastąp w formule n = 2:
      6. $$ b(2) = b(2-1) * (-3) $$

        $$ b(2) = b(1) * (-3) $$

      7. Wiemy, że wartość b(1) wynosi 15, więc zastąp ją w wzorze:
      8. $$ b(2) = 15 * (-3) $$

        $$ b(2) = -45 $$

      9. Gdy znamy już wartość b(2), zastąp ją wzorem funkcji b(3):
      10. $$ b(3) = b(2) * (-3) $$

        $$ b(3) = -45 * (-3) $$

        $$ b(3) = 135 $$

      11. Gdy znamy już wartość b(3), zastąp ją wzorem funkcji b(4):
      12. $$ b(4) = b(3) * (-3) $$

        $$ b(4) = 135 * (-3) $$

        $$ b(4) = -405 $$

      Czwarty wyraz w sekwencji to -405.

      Ta odpowiedź modelu jest poprawna. Aby ta odpowiedź była jeszcze bardziej uproszczona, możesz poprosić model, by myślał krok po kroku.

      Zaktualizowany prompt Ulepszona odpowiedź

      Jaki jest czwarty wyraz ciągu? Myśl krok po kroku.

      Pierwszy wyraz to 15.

      Drugi wyraz to b(1) * (-3) = 15 * (-3) = -45.

      Trzeci wyraz to b(2) * (-3) = -45 * (-3) = 135.

      Czwarty wyraz to b(3) * (-3) = 135 * (-3) = -405.

      Spróbuj określić format wyjściowy

      Typowy problem polega na tym, że dane wyjściowe modelu muszą mieć określony format (np. Markdown, JSON, HTML), zwłaszcza jeśli dane wyjściowe modelu muszą zostać pozyskane przez zadanie podrzędne. Możesz spróbować wygenerować dane wyjściowe w tym formacie, instruując model w prompcie. Poniżej przedstawiamy 2 przykłady:

      Prompt Odpowiedź modelu

      Przeanalizuj tabelę na tym obrazie w formacie Markdown

      | Temat | Stan | Godzina | Data rozpoczęcia | Termin |

      | ------- | ------ | ---- | --------- | ------ |

      | Matematyka | Gotowe | 1,5 godz. | 29.11.2023 r. | 1.12.2023 r. |

      | Obszar geograficzny | Gotowe | 30 min | 2.12.2023 | 4.12.2023 |

      | Fizyka | W toku | 2 godz. | 3.12.2023 | 5.12.2023 |

      | Biologia | Nie rozpoczęto | 6 godz. | 2.11.2016 | 6.12.2023 |

      Prompt Odpowiedź modelu

      Podaj listę wszystkich tych atrybutów:

      składniki, rodzaj kuchni, wegetariańskie czy nie, w formacie JSON

      ```json```

      {

      "ingredients": [

      "rice",

      "shrimp",

      "clams",

      "mussels",

      "peas",

      "tomatoes",

      "onions",

      "garlic",

      "olive oil",

      "paprika",

      "salt",

      "pepper"

      ],

      "type of cuisine": "Spanish",

      "vegetarian": false

      Umieszczaj zdjęcie na pierwszym miejscu w promptach o pojedynczy obraz

      Gemini może interpretować obrazy i tekst w dowolnej kolejności w obrębie promptu, ale umieszczenie 1 obrazu przed promptem może poprawić wyniki. W przykładach poniżej zauważysz, że obraz występuje jako pierwszy przed tekstem w każdym promptie.

      Rozwiązywanie problemów z promptem multimodalnym

      Jeśli nie otrzymujesz przydatnych odpowiedzi, konieczne może być rozwiązanie problemu z promptem. Oto kilka strategii, które możesz wypróbować.

      Jeśli model nie czerpie informacji z odpowiedniej części obrazu

      Aby otrzymać bardziej szczegółową odpowiedź, możesz wskazać aspekty obrazu, z których ma ona pobierać informacje na potrzeby odpowiedzi.

      Prompt Odpowiedź modelu

      Przez ile dni pieluchy przetrwają u dziecka?

      Pieluchy przetrwają 198 dni, zanim się skończą.

      Zaktualizowany prompt Ulepszona odpowiedź

      Ile czasu przetrwają te pieluchy, zanim się skończę?

      Na podstawie wagi podanej w pudełku określ wiek dziecka i użyj łącznej liczby pieluch w pudełku.

      Podziel łączną liczbę przez liczbę pieluch, które dziecko otwiera dziennie.

      Opakowanie zawiera 198 pieluszek. Pudełko zawiera informację, że pieluchy są przeznaczone dla dziecka ważącego 10–13 kg.

      Przeciętne dziecko w tym zakresie wagowym powinno mieć zazwyczaj od 1 roku do 2 lat.

      Dwuletnia córka nosi zazwyczaj 6 pieluch dziennie, dlatego pieluchy działają przez około 33 dni (198/6).

      Jeśli dane wyjściowe modelu są zbyt ogólne i niedostosowane do danych wejściowych obrazu

      Aby pomóc modelowi dostosować jego odpowiedź do obrazów, poproś go o opisanie obrazów, zanim wykonasz jego zadanie rozumowania.

      Prompt Odpowiedź modelu

      Co łączy te obrazy?

      Wszystkie 4 obrazy to przykłady fotografii poziomej.

      Zaktualizowany prompt Ulepszona odpowiedź

      Najpierw opisz szczegółowo, co znajduje się na każdym obrazie. Co łączy te obrazy?

      Pierwsze zdjęcie przedstawia osobę pakującą walizkę. Drugie zdjęcie przedstawia pusty korytarz w centrum handlowym. Trzecie zdjęcie przedstawia rolkę papieru toaletowego. Czwarty obraz przedstawia ciemne i sztormowe morze.

      Wspólną cechą tych obrazów jest to, że są one przykładami przestrzeni cielesnych. Przestrzenie minimalistyczne to miejsca lub sytuacje, które znajdują się między 2 innymi miejscami lub sytuacjami. Często kojarzone z niepewnością lub niejasnością.

      Pierwsze zdjęcie przedstawia osobę przebywającą w domu i na wycieczkę. Drugie zdjęcie przedstawia korytarz między 2 sklepami. Trzeci obraz przedstawia papier toaletowy, który może reprezentować łazienkę. Łazienka to przestrzeń przejściowy między obszarem prywatnym a publicznym. To miejsce, w którym przygotowujemy się do wejścia w świat lub opuszczenia go.

      Czwarty obraz przedstawia morze pomiędzy spokojem a burzą.

      Przestrzenie minimalistyczne mogą być zarówno ekscytujące, jak i niepokojące. Mogą być miejscem nowego początku lub miejsca zakończenia. Mogą być miejscem refleksji lub działania.

      Możesz też poprosić model o odniesienie się do tego, co widać na obrazie.

      Zaktualizowany prompt Ulepszona odpowiedź

      Co łączy te obrazy? odwoływać się do obrazów w odpowiedzi.

      Wszystkie zdjęcia są związane z podróżą. Pierwsze zdjęcie przedstawia osobę pakującą walizkę, drugie – pusty korytarz w centrum handlowym, trzeci – stos papieru toaletowego, a czwarty – ciemne i sztormowe morze.

      Wszystkie te obrazy są związane z podróżami, ponieważ to wszystko, czego ludzie potrzebują w podróży. Pierwsze zdjęcie przedstawia osobę pakującą walizkę, czyli to, co robią osoby wybierające się w podróż. Na drugim zdjęciu widać pusty korytarz w centrum handlowym, do którego klienci często robią zakupy. Trzeci obraz przedstawia stos papieru toaletowego, którego użytkownicy często używają w podróży. Czwarty obraz przedstawia ciemne i sztormowe morze, co często spotyka się podczas podróży.

      Te same wskazówki dotyczą kreacji wyświetlanych na podstawie obrazów. W poniższym przykładzie z królikiem wyraźna prośba do modelu o uwzględnienie aspektów obrazu może poprawić wyniki.

      Prompt Odpowiedź modelu

      Czy możesz napisać wiersz o tym obrazie?

      Mały króliczek, taki miękki i brązowy,
      Przemierza pole, w górę i w dół.
      Masz tak długie uszy, ogon mały,
      Szkoda, że jesteś najsłodszym stworzeniem.

      Zielono i słodko, tak jak zjadasz trawę.
      A gdy mnie zobaczysz,odskakuj w dół.
      Tylko do końca będę Twoim przyjacielem
      Małym królikiem.

      Zaktualizowany prompt Ulepszona odpowiedź

      Czy możesz napisać opisowy i dramatyczny wiersz o tym zdjęciu i podać jego lokalizację?

      Mały króliczek na zielonym tle
      Tak długie uszy, tak mi zależy.
      Co widzisz tam,
      w oddali, w które patrzysz?

      Czy jest błękit oceanu?
      Błyszczący w odcieniach słońca?
      Albo falujące, które rozbrzmiewają
      Rytm, który uwielbiasz?

      Mały króliczek, powiedz mi prawdę
      Co tak przyciąga Twoją uwagę?
      Słona bryza,
      A może mewy płaczą?

      Może tkwi w tym bezmózgu
      Świat tak duży i mały.
      Miejsce, w którym mogą się bawić sny,
      A przygody można przeżyć.

      Mały króliczek, zastanawiam się, o czym śnisz,
      Siedząc na trawie, odpoczywasz.
      tęsknisz za eksploracją głębin
      A może chcesz pozostać na lądzie, gdzie można skakać?

      Cokolwiek to jest, mały króliczek
      Niech ten iskierka zachwyca Cię radością.
      W Twoich marzeniach i aspiracjach
      Cały świat czeka na Twoje dzieło.

      Jak sprawdzić, która część promptu zakończyła się niepowodzeniem

      Trudno stwierdzić, czy prompt nie powiódł się, ponieważ model nie zrozumiał obrazu od początku lub może rozumiał obraz, ale nie wykonał właściwych czynności wyjaśniających później.

      Aby odróżnić te przyczyny, poproś model o opisanie, co przedstawia obraz.

      Jeśli w tym przykładzie model zareaguje przekąską, która w połączeniu z herbatą wydaje się zaskakująca, to możesz najpierw rozwiązać problem, aby sprawdzić, czy model poprawnie rozpoznał, że obraz zawiera herbatę.

      Prompt Monituj o rozwiązanie problemu

      Jaką przekąskę mogę przygotować w minutę, która będzie do tego pasować?

      Opisz, co przedstawia ten obraz.

      Kolejną strategią jest poproszenie modelu o wyjaśnienie swojego rozumowania. Pomoże Ci to określić, która część rozumowania się popsuła.

      Prompt Monituj o rozwiązanie problemu

      Jaką przekąskę mogę przygotować w minutę, która będzie do tego pasować?

      Jaką przekąskę mogę przygotować w minutę, która będzie do tego pasować? W jaki sposób?

      Dostrajanie parametrów próbkowania

      W każdym żądaniu wysyłasz do modelu nie tylko multimodalny prompt, ale też zbiór parametrów próbkowania. Model może generować różne wyniki dla różnych wartości parametrów. Eksperymentuj z różnymi parametrami, aby uzyskać najlepsze wartości dla danego zadania. Najczęściej dostosowywane parametry to:

      • Temperatura
      • górne P
      • górne K

      Temperatura

      Temperatura jest używana do próbkowania podczas generowania odpowiedzi, gdy stosowane są wartości górne P i górne K. Temperatura decyduje o stopniu losowości wyboru tokenów. Niższe temperatury są przydatne w przypadku promptów, które wymagają bardziej deterministycznej i mniej otwartej reakcji, a wyższe mogą prowadzić do bardziej zróżnicowanych lub twórczych wyników. Temperatura o wartości 0 jest deterministyczna, co oznacza, że zawsze wybierana jest odpowiedź o najwyższym prawdopodobieństwie
      .

      W większości przypadków dobrze jest zacząć od temperatury 0, 4. Jeśli potrzebujesz większej liczby wyników kreacji, możesz zwiększyć temperaturę. Jeśli zauważysz wyraźne halucynacje, spróbuj obniżyć temperaturę.

      Top-K

      Parametr Top-K zmienia sposób, w jaki model wybiera tokeny w celu wygenerowania odpowiedzi. Górne K o wartości 1 oznacza, że następny wybrany token jest najbardziej prawdopodobnym spośród wszystkich tokenów w słowniku modelu (jest to też nazywane dekodowaniem zachłannym), natomiast górne K o wartości 3 oznacza, że następny token jest wybierany spośród 3 najbardziej prawdopodobnych na podstawie temperatury.

      W każdym kroku wyboru tokenów próbkowane są tokeny o najwyższym prawdopodobieństwie o najwyższym prawdopodobieństwie. Następnie tokeny są dodatkowo filtrowane według parametru najwyższego P. Ostatni token wybrany za pomocą próbkowania temperatury.

      Jeśli chcesz uzyskiwać mniej losowe odpowiedzi, podaj niższą wartość, a jeśli bardziej – wyższą. Wartość domyślna parametru górnego K to 32.

      Top-P

      Parametr Top-P również zmienia sposób, w jaki model wybiera tokeny w celu wygenerowania odpowiedzi. Tokeny są wybierane od największej wartości (patrz górne K) do najmniej prawdopodobnego do momentu, aż suma ich prawdopodobieństw będzie równa wartości górnego P. Jeśli na przykład tokeny A, B i C mają prawdopodobieństwo 0,6, 0,3, 0,1, a wartością górnego P to 0,9, model wybierze A lub B jako kolejny token, używając temperatury i wykluczy C jako kandydata.

      Jeśli chcesz uzyskiwać mniej losowe odpowiedzi, podaj niższą wartość, a jeśli bardziej – wyższą. Wartość domyślna parametru górnego P to 1,0.

      Dalsze kroki