Strategie dotyczące próśb o zgodę na wykorzystanie plików

Modele sztucznej inteligencji (AI) Gemini zostały stworzone z myślą o różne typy danych wejściowych, w tym tekst, obraz i dźwięk. Ponieważ mogą obsługiwać więcej niż jeden typ lub tryb danych. Modele Gemini są nazywane modelami multimodalnymi lub zostały wyjaśnione jako mające możliwości multimodalne.

Na tej stronie znajdziesz wskazówki i sprawdzone metody dotyczące używania plików multimedialnych w dla interfejsu Gemini API. Informacje o korzystaniu z Gemini Files API: przesyłania plików multimedialnych i umieszczania ich w promptach, Vision, audio oraz Przewodniki po przetwarzaniu dokumentów.

Używanie plików multimedialnych z promptami

Użycie w promptach różnych typów danych pozwala lepiej co daje elastyczność w zakresie zadań, które można wykonać przy użyciu interfejsu Gemini API. Dla: można na przykład wysłać modelowi zdjęcie pysznego posiłku i poprosić go o napisanie krótki blog na temat posiłku.

Prompt Odpowiedź

Na podstawie tego zdjęcia napisz krótki, atrakcyjny post na blogu. Powinna dodaj opis posiłku na zdjęciu i opowiedz o mojej podróży przygotowywania posiłków.


Pliki cookie

Przygotowywanie posiłków to świetny sposób na oszczędność czasu i pieniędzy, a także podpowie Ci, jak jeść zdrowiej. To świetny przykład zdrowego dania i pyszne dania, które można przygotować wcześniej.

To danie składa się z brązowego ryżu, pieczonych warzyw i kurczaka teriyaki. brązowy ryż to zdrowe i złożone węglowodany, dzięki którym o utrzymującej się energii. Pieczone warzywa to świetny sposób na to, dawka witamin i minerałów, a kurczak teriyaki to pyszne opcji bogatej w białko.

To danie jest również bardzo łatwe do przygotowania. Po prostu upiecz brązowy ryż, warzywa i przypiekam kurczaka teriyaki. Gdy wszystko będzie gotowe, podzielić go na pojemniki do przygotowywania posiłków i przechowywać w lodówce. Możesz wtedy wziąć pojemnik i ruszyć w zatłoczone poranki!

Jeśli szukasz zdrowego i pysznego posiłku, który przyrządzane z wyprzedzeniem to świetna opcja. Jest tu mnóstwo składników odżywczych i smaku, co z pewnością sprawi, że poczujesz pełnię i satysfakcję.

Przygotuj się na pyszne i zdrowe posiłki!

Strategie dotyczące tworzenia promptów w mediach

Jeśli masz problem z uzyskaniem oczekiwanych wyników z promptów korzystających z funkcji plików multimedialnych, jest kilka strategii, które mogą pomóc w pobliżu. W sekcjach poniżej znajdziesz sposoby projektowania i rozwiązywania problemów wskazówek dotyczących ulepszania promptów, które używają danych wejściowych multimodalnych.

Prompty multimodalne możesz ulepszać, stosując te sprawdzone metody:

  • Podstawy projektowania promptów

    • Instrukcje powinny być konkretne: instrukcje powinny być przejrzyste i zwięzłe, tak aby pozostawiać jak najmniej miejsca na błędy w interpretacji.
    • Dodaj kilka przykładów do promptu: wykorzystaj realistyczne, krótkie przykłady, aby pokazać, co chcesz osiągnąć.
    • Podział zadań krok po kroku: podziel złożone zadania na możliwe do realizacji cele podrzędne, aby wspierać model w trakcie całego procesu.
    • Określ format wyjściowy: w prompcie poproś o utworzenie danych wyjściowych w wybranym formacie, np. markdown, JSON lub HTML.
    • W przypadku promptów z jednym obrazem najpierw umieszczaj swój obraz w promptach z jednym obrazem: Gemini może obsługiwać wprowadzanie tekstu i obrazu w dowolnej kolejności, ale w przypadku promptów zawierających jeden obraz może działać lepiej, jeśli umieścisz go przed promptem tekstowym.
  • Rozwiązywanie problemów z promptem multimodalnym

    • Jeśli model nie pobiera informacji z odpowiedniej części obrazu: dodaj wskazówki, na podstawie których prompt ma czerpać informacje.
    • Jeśli dane wyjściowe modelu są zbyt ogólne (niedostosowane do poziomu obrazu): na początku promptu poproś model o opisanie obrazów, zanim przekażesz instrukcje dotyczące zadania. Możesz też poprosić model o omówienie zawartości obrazu.

Podstawy projektowania promptów

Ta sekcja zawiera rozwinięcie sprawdzonych metod wymienionych w poprzedniej sekcji.

Uwaga: wyniki modelu z tych przykładów Gemini mogą się różnić w zależności od uruchomienia.

Unikaj ogólników w instrukcjach

Największą skuteczność mają prompty, które są jasne i szczegółowe. Jeśli masz na myśli konkretne dane wyjściowe, lepiej uwzględnić to wymaganie w prompcie, aby mieć pewność, że otrzymasz oczekiwane wyniki.

Czasami intencja promptu może wydawać się jasna dla autora komunikatu, ale w rzeczywistości jest ona niedostatecznie określona. Aby dostosować działanie modelu, zastanów się, jak może zostać zinterpretowany Twój prompt, i zadbaj o to, aby podane przez Ciebie instrukcje były konkretne i jasne. Pamiętaj, aby zostawić jak najmniej miejsca na błędne interpretacje.

Na tym zdjęciu pokładu lotniska prosi model o „opisanie tego zdjęcia” by wygenerować ogólny opis. Jeśli model ma analizować czas i miasto z obrazu, możesz uwzględnić tę prośbę bezpośrednio w prompcie.

Prompt Odpowiedź modelu

Opisz ten obraz.

Obraz przedstawia tablicę przylotów i odlotów na lotnisku.

Zaktualizowany prompt Ulepszona odpowiedź
Rozkład podróży

Przeanalizuj godzinę i miasto z tablicy lotniskowej pokazanej na tym obrazie, aby utworzyć listę.

  • 10:50 Moskwa
  • 11:05 Edynburg
  • 11:05 Londyn
  • 11:10 – Bukareszt
  • 11:30 Kijów
  • 11:35 Dublin
  • 11:45 – East Midlands
  • 12:15 – Sofia
  • 12:30 Londyn
  • 12:30, Newcastle
  • 12:40, Petersburg
  • 12:40 Londyn
  • 12:45: Manchester
  • Dodaj kilka przykładów

    Model Gemini może akceptować wiele danych wejściowych, których może używać jako przykładów do zrozumienia w dowolnym momencie. Dodanie tych przykładów może pomóc modelowi zidentyfikować wzorce i zastosować zależności między danymi obrazami a odpowiedziami w nowym przykładzie. Jest to tzw. „few-shot” systemów uczących się.

    W poniższym przykładzie początkowe dane wyjściowe są zapisane w formie zdania i zawierają również kraju (Brazylia). Załóżmy, że chcesz uzyskać dane wyjściowe w innym formacie lub stylu i chcesz można określić tylko miasto, a nie kraj. Dodanie kilku ujęć do promptu może odpowiednio pokierować modelem. zareagować w sposób, który najbardziej Ci odpowiada.

    Prompt Odpowiedź modelu
    Rozkład podróży

    Określ miasto i punkt orientacyjny.

    Znane miejsce to posąg Chrystusa Zbawiciela w Rio de Janeiro w Brazylii.

    Zaktualizowany prompt Ulepszona odpowiedź

    Określ miasto i punkt orientacyjny.

    Koloseum

    miasto: Rzym, punkt orientacyjny: Koloseum.

    Zakazane Miasto

    miasto: Pekin, punkt orientacyjny: Zakazane Miasto

    zakazane miasto

    miasto: Rio de Janeiro, punkt orientacyjny: posąg Chrystusa Zbawiciela

    Szczegółowa analiza

    W przypadku złożonych zadań, takich jak te, które wymagają zarówno zrozumienia, jak i rozumowania, i podzielić zadania na mniejsze, prostsze etapy. Może też być skuteczne, jeśli bezpośrednio poprosić model o „krok po kroku” w prompcie.

    Prompt Odpowiedź modelu

    Kiedy skończy mi się papier toaletowy?

    Wkrótce zostały Ci już tylko 3 rzuty.

    Zaktualizowany prompt Ulepszona odpowiedź

      1. Najpierw policz na tym obrazku rolki po papierze toaletowym.
      2. Następnie ustal, ile papieru toaletowego zużywa dana osoba dziennie.
      3. Oblicz, na jak długo wystarczy rolki papieru toaletowego.

      1. To zdjęcie przedstawia 3 rolki papieru toaletowego.
      2. Przeciętna osoba zużywa około 20 arkuszy papieru toaletowego dziennie.
      3. Jeśli każda rolka zawiera 200 arkuszy, będzie ona działać przez około 10 dni. Dlatego te 3 rzuty wystarczą przez około miesiąc.

    Zadania matematyczne i inne rodzaje zadań słownych są doskonałym narzędziem do zmuszenia modelu do szczegółowego myślenia.

    Prompt Odpowiedź

    Jaki jest czwarty wyraz w ciągu?

    -135

    Odpowiedź z modelu jest nieprawidłowa. Aby to poprawić, możesz poprosić model o przeanalizowanie problemu, zanim odpowie na prompt.

    Prompt Odpowiedź

    Najpierw przeanalizuj formułę widoczną na obrazie.

    Następnie na podstawie wzoru odpowiedz „Jaki jest czwarty wyraz w ciągu?”.

    Kliknij, aby rozwinąć wynik

    $$ b(n) = b(n-1) * (-3) $$

    $$ b(1) = 15 $$

    1. Podstaw we wzorze n = 4:
    2. $$ b(4) = b(4-1) * (-3) $$

      $$ b(4) = b(3) * (-3) $$

    3. Nie wiemy, jaką wartość ma b(3), więc podmień do wzoru n = 3:
    4. $$ b(3) = b(3-1) * (-3) $$

      $$ b(3) = b(2) * (-3) $$

    5. Nie wiemy, jaką wartość ma b(2), więc podmień do wzoru n = 2:
    6. $$ b(2) = b(2-1) * (-3) $$

      $$ b(2) = b(1) * (-3) $$

    7. Wiemy, że wartość b(1) to 15, więc zastąp ją wzorze:
    8. $$ b(2) = 15 * (-3) $$

      $$ b(2) = -45 $$

    9. Skoro znamy już wartość funkcji b(2), zastąp ją wzorem na b(3):
    10. $$ b(3) = b(2) * (-3) $$

      $$ b(3) = -45 * (-3) $$

      $$ b(3) = 135 $$

    11. Skoro znamy już wartość funkcji b(3), zastąp ją wzorem na b(4):
    12. $$ b(4) = b(3) * (-3) $$

      $$ b(4) = 135 * (-3) $$

      $$ b(4) = -405 $$

    W związku z tym czwartym wyrazem w sekwencji jest liczba -405.

    Ta odpowiedź modelu jest prawidłowa – aby jeszcze bardziej usprawnić odpowiedź, możesz poprosić model, aby zajął się krok po kroku.

    Zaktualizowany prompt Ulepszona odpowiedź

    Jaki jest czwarty wyraz w ciągu? Krok po kroku.

    Pierwsze hasło to 15.

    Drugi wyraz to b(1) * (-3) = 15 * (-3) = -45.

    Trzeci wyraz to b(2) * (-3) = -45 * (-3) = 135.

    Czwarty wyraz to b(3) * (-3) = 135 * (-3) = –405.

    Spróbuj określić format wyjściowy

    Częstym problemem jest konieczność umieszczenia danych wyjściowych modelu w określonym formacie (np. markdown, JSON, HTML), szczególnie wtedy, gdy dane wyjściowe modelu muszą zostanie pozyskany przez zadanie podrzędne. Możesz spróbować wygenerować dane wyjściowe w tym formacie, instruując model w prompcie. Poniżej przedstawiamy 2 przykłady:

    Prompt Odpowiedź modelu

    Przeanalizuj tabelę na tym obrazie do formatu Markdown

    | Temat | Stan | Godzina | Data rozpoczęcia | Termin |

    | ------- | ------ | ---- | --------- | ------ |

    | Matematyka | Gotowe | 1,5 godziny | 29.11.2023 r. | 1.12.2023 r. |

    | Geografia | Gotowe | 30 min | 2.12.2023 r. | 04.12.2023 r. |

    | Fizyka | W toku | 2 godz. | 3.12.2023 r. | 5.12.2023 r. |

    | Biologia | Nie rozpoczęto | 6 godzin | 2.11.2016 r. | 6.12.2023 r. |

    Prompt Odpowiedź modelu

    Podaj listę wszystkich tych atrybutów:

    składniki, rodzaj kuchni, potrawy wegetariańskie lub nie, w formacie JSON

    ```json```

    {

    "ingredients": [

    "rice",

    "shrimp",

    "clams",

    "mussels",

    "peas",

    "tomatoes",

    "onions",

    "garlic",

    "olive oil",

    "paprika",

    "salt",

    "pepper"

    ],

    "type of cuisine": "Spanish",

    "vegetarian": false

    W prośbach o pojedynczy obraz umieść swój obraz na pierwszym miejscu

    Gemini może interpretować obrazy i teksty w dowolnej kolejności w prompcie, ale umieszczając pojedynczy obraz może przynieść lepsze wyniki. W poniższych przykładach obraz jest poprzedzany tekstem w każdym promptie.

    Rozwiązywanie problemów z promptem multimodalnym

    Jeśli nie otrzymujesz przydatnej odpowiedzi, konieczne może być rozwiązanie problemu. Oto kilka strategii, które możesz wypróbować.

    Jeśli model nie rysuje informacji z odpowiedniej części zdjęcia

    Aby otrzymać bardziej szczegółową odpowiedź, możesz wskazać aspekty obrazu, które ma zawierać prompt pobierać informacje w celu ustalenia odpowiedzi.

    Prompt Odpowiedź modelu

    Przez ile dni te pieluchy wystarczyły na dziecko?

    Pieluchy pozostaną ważne przez 198 dni. Po tym czasie się skończą.

    Zaktualizowany prompt Ulepszona odpowiedź

    Jak długo te pieluchy wystarczyą, zanim skończę?

    Aby określić wiek dziecka, użyj wagi podanej na pudełku i podaj całkowitą liczbę pieluch w pudełku.

    Podziel łączną liczbę przez liczbę pieluch, przez które dziecko przechodzi dziennie.

    Opakowanie zawiera 198 pieluch. Na pudełku znajduje się informacja, że pieluchy są przeznaczone dla dziecka ważącego 22-37 kg.

    Przeciętne dziecko w tym zakresie wagowe ma prawdopodobnie od 1 do 2 lat.

    2-latki zwykle chodzą 6 pieluch dziennie, dlatego pieluchy wytrzymują około 33 dni (198/6).

    Jeśli dane wyjściowe modelu są zbyt ogólne i niedostosowane odpowiednio do danych wejściowych obrazu

    Aby pomóc modelowi dostosować odpowiedź do obrazów, spróbuj poprosić go o opisanie obrazów, zanim wykonasz zadanie wyciągania wniosków.

    Prompt Odpowiedź modelu

    Co łączy te obrazy?

    Wszystkie 4 zdjęcia to przykłady fotografii poziomej.

    Zaktualizowany prompt Ulepszona odpowiedź

    Najpierw opisz szczegółowo, co znajduje się na każdym ze zdjęć. Co łączy te obrazy?

    Pierwszy obraz przedstawia osobę pakującą walizkę. Drugi obraz przedstawia pusty korytarz w centrum handlowym. Trzecie zdjęcie przedstawia rolkę papieru toaletowego. Czwarty obraz przedstawia ciemne, burzowe morze.

    Wszystkie te obrazy mają cechy wspólne. Spacje liminalne to miejsca lub sytuacje pomiędzy 2 innymi miejscami lub sytuacjami. Charakteryzują się one często poczuciem niepewności lub niejasności.

    Pierwsze zdjęcie przedstawia osobę będącą w czasie pomiędzy byciem w domu a podróżą. Na drugim zdjęciu widać korytarz między dwoma sklepami. Trzecie zdjęcie przedstawia papier toaletowy, który może przedstawiać łazienkę. Łazienka to miejsce pośrednie, które łączy prywatne i obszarów publicznych. To miejsce, w którym przygotowujemy się do wejścia lub wyjazdu ze świata.

    Czwarty obraz przedstawia morze pomiędzy spokojem a sztormami.

    Przestrzenie liminalne mogą być zarówno ekscytujące, jak i niepokojące. Mogą być zarówno nowym początkiem, jak i zakończeniem. Mogą być miejscem refleksji lub działania.

    Możesz też poprosić model o odwołanie się do tego, co widać na obrazie.

    Zaktualizowany prompt Ulepszona odpowiedź

    Co łączy te obrazy? Zapoznaj się z treścią zdjęć w odpowiedzi.

    Wszystkie zdjęcia są związane z podróżami. Pierwszy obraz przedstawia osobę pakującą walizkę, a na drugim – osobę pakującą walizkę. pusty korytarz w centrum handlowym, trzeci obraz przedstawia stos papieru toaletowego, a na czwartym – stos papieru toaletowego ciemne i burzowe morze.

    Te obrazy są związane z podróżami, ponieważ są tym, czego ludzie potrzebują lub używają w podróży. Pierwszy obraz przedstawia osobę pakującą walizkę, czyli czynność, którą ludzie robią, gdy są wybiera się w podróż. Drugi obraz przedstawia pusty korytarz w centrum handlowym, czyli miejscu, w którym ludzie często robią zakupy na wyjazd. Trzecie zdjęcie przedstawia stos papieru toaletowego, często używane podczas podróży. Czwarty obraz przedstawia ciemne, burzowe morze, co często spotykają się podczas podróży.

    Te same wskazówki sprawdzają się w przypadku kreacji tworzonych na podstawie obrazów. W przykładzie poniżej z użyciem parametru z królikiem, prosząc model o uwzględnienie niektórych elementów z obrazu, co może poprawić wynik.

    Prompt Odpowiedź modelu

    Czy możesz napisać wiersz o tym obrazie?

    Mały króliczek, taki miękki i brązowy –
    Skacz po polu, w górę i w dół.
    Twoje uszy tak długie, ogon tak mały.
    Jesteś najmilszym stworzeniem.

    Gładzisz trawę słodko i zielono.
    I odskocz, gdy mnie zobaczysz.
    Ale zawsze będę Twoim przyjacielem,
    Króliku, do samego końca.

    Zaktualizowany prompt Ulepszona odpowiedź

    Czy możesz napisać wiersz opisowy i dramatyczny na temat tego obrazu wraz z informacją o jego lokalizacji?

    Mały króliczek na zielonym terenie
    Aż tak długie uszy.
    Co tam widzisz?
    Gdzie patrzysz w oddali?

    Czy to błękit oceanu?
    Błyszczy w odcieniu słońca?
    Albo uderzające i brzęczące fale,
    Rytm, który uwielbiasz?

    Mała króliczek, powiedz mi coś szczery
    Co tak przykuwa Twoją uwagę?
    Czy to słona bryza?
    Albo mewy To płacz?

    Może w tym ogrom tego wszystkiego,
    Świat tak duży i mały.
    Miejsce,w którym mogą pojawiać się sny
    A przygody można przeżywać.

    Mała króliczku, zastanawiam się,co Ci przyjdzie do głowy
    Siadasz na trawie w spokoju.
    Chcesz odkrywać głębiny,
    A może zostać na lądzie, gdzie możesz skakać?

    Cokolwiek to jest, mały króliczek,
    Niech płonie ta iskra.
    W swoich marzeniach i dążeniach
    Leży świat, który czeka na Twoje stworzenie.

    Rozwiązywanie problemów z niezrealizowaną częścią promptu

    Trudno określić, czy prompt nie powiódł się, ponieważ model nie rozumie obraz na początku lub jeśli rozpozna obraz, nie wykonał właściwych kroków rozumowania.

    Aby rozróżnić te przyczyny, poproś model, aby opisał, co jest na obrazie.

    W tym przykładzie poniżej, jeśli model odpowie przekąską, która po połączeniu z aparatem (np. popcorn), możesz najpierw rozwiązać problemy, aby określić, czy model poprawnie że obraz zawiera herbatę.

    Prompt Prośba o rozwiązanie problemu

    Jaka przekąska mogę zrobić w ciągu minuty, która pasuje do tego?

    Opisz, co jest na tym obrazie.

    Inną strategią jest poproszenie modelu o wyjaśnienie swojego rozumowania. Pomoże Ci to zawęzić zakres uzasadnienia, jeśli tak się stało.

    Prompt Prośba o rozwiązanie problemu

    Jaka przekąska mogę zrobić w ciągu minuty, która pasuje do tego?

    Jaka przekąska mogę zrobić w ciągu minuty, która pasuje do tego? W jaki sposób?

    Dostrajanie parametrów próbkowania

    W każdym żądaniu wysyłasz do modelu nie tylko prompt multimodalny, ale też zestaw parametrów próbkowania. Model może generować różne wyniki zależnie od wartości parametrów. Eksperymentuj z różnymi parametrów, aby uzyskać najlepsze wartości dla danego zadania. Najczęściej korygowane parametry to:

    • Temperatura
    • górne P
    • górne K

    Temperatura

    Temperatura jest używana do próbkowania podczas generowania odpowiedzi, która ma miejsce, gdy zastosowane są górne P i Top K. Temperatura decyduje o stopniu losowości wyboru tokenów. Niższe temperatury są przydatne w przypadku promptów, wymagają bardziej deterministycznej i mniej otwartej czy kreatywnej odpowiedzi, a wyższe temperatury mogą prowadzić do zróżnicowanych lub kreatywnych wyników. Temperatura o wartości 0 jest deterministyczna, co oznacza, że odpowiedź o najwyższym prawdopodobieństwie jest zawsze zaznaczony.

    W większości przypadków dobrze jest zacząć od temperatury 0, 4. Jeśli chcesz uzyskać lepsze wyniki kreacji, zwiększ temperatury ciała. Jeśli zauważysz wyraźne halucynacje, spróbuj obniżyć temperaturę.

    Top-K

    Parametr Top-K zmienia sposób, w jaki model wybiera tokeny w celu wygenerowania odpowiedzi. Górne K o wartości 1 oznacza, że następny wybrany token jest najbardziej prawdopodobne spośród wszystkich tokenów w słowniku modelu (nazywanego też dekodowaniem zachłannym), podczas gdy Top-K o wartości 3 oznacza, że następny token jest wybierany spośród 3 najbardziej prawdopodobnych za pomocą temperatury.

    Na każdym etapie wyboru tokena próbkowane są tokeny o najwyższym prawdopodobieństwie K o najwyższym prawdopodobieństwie. Potem Tokeny są dodatkowo filtrowane na podstawie górnego P, a ostateczny wybór tokena dokonywany jest przy użyciu próbkowania z użyciem temperatury.

    Jeśli chcesz uzyskiwać mniej losowe odpowiedzi, podaj niższą wartość, a jeśli bardziej – wyższą. Wartość domyślna parametru górnego K to 32.

    Top-P

    Parametr Top-P również zmienia sposób, w jaki model wybiera tokeny w celu wygenerowania odpowiedzi. Tokeny są wybierane spośród najczęściej (patrz górne K) do najmniej prawdopodobnego do momentu, aż suma ich prawdopodobieństw będzie równa wartości górnego P. Jeśli na przykład tokeny A, B i C mają prawdopodobieństwo 0,6; 0,3; 0,1, a wartością górnego P jest 0,9, to model wybierz A lub B jako kolejny token (z użyciem temperatury) i wyklucz C jako kandydata.

    Jeśli chcesz uzyskiwać mniej losowe odpowiedzi, podaj niższą wartość, a jeśli bardziej – wyższą. Wartość domyślna parametru górnego P to 1,0.

    Dalsze kroki