긴 컨텍스트

Gemini 1.5 Flash는 100만 개의 토큰으로 구성된 컨텍스트 윈도우와 함께 표준으로 제공됩니다. Gemini 1.5 Pro에는 200만 개의 토큰이 포함된 컨텍스트 윈도우가 제공됩니다. 이전에는 기존 언어 모델(LLM)은 텍스트 양에 의해 한 번에 모델에 전달할 수 있는 토큰)입니다. Gemini 1.5(긴 버전) 거의 완벽한 검색 기능을 제공하여 (99% 초과) 새로운 사용 사례와 개발자 패러다임이 다양하게 열립니다.

텍스트와 같은 사례에 이미 사용하고 있는 코드 생성 또는 멀티모달 입력은 긴 컨텍스트에서 즉시 작동합니다.

이 가이드에서는 환경설정 기간의 기본사항과 개발자는 긴 컨텍스트, 다양한 실제 사용 사례에 대해 긴 컨텍스트, 긴 컨텍스트 사용을 최적화하는 방법을 알아봅니다.

환경설정 기간이란 무엇인가요?

Gemini 1.5 모델을 사용하는 기본적인 방법은 정보 (컨텍스트)를 전달하는 것입니다 모델에 전달하여 이후에 응답을 생성합니다. 비유는 단기 메모리입니다 제공되는 정보의 양이 제한되어 있습니다. 개인의 단기 기억에 저장할 수 있는 것을 기억할 수 있으며, 살펴보겠습니다

모델이 내부적으로 작동하는 방식에 대한 자세한 내용은 Google의 생성 모델에서 확인할 수 있습니다. 가이드를 참조하세요.

긴 컨텍스트로 시작하기

지난 몇 년 동안 만들어진 대부분의 생성 모델은 한 번에 8,000개의 토큰을 처리합니다 최신 모델에서는 이러한 목표를 한 단계 더 발전시켰습니다 32,000개 토큰 또는 128,000개 토큰입니다. Gemini 1.5는 100만 개의 토큰 허용, 이제 Gemini 1.5로 200만 개의 토큰 허용 Pro.

실제로 100만 개의 토큰은 다음과 같습니다.

  • 코드 50,000줄 (한 줄당 표준 80자)
  • 지난 5년 동안 보낸 모든 문자 메시지
  • 평균 길이 영어 소설 8권
  • 평균 길이인 200개 이상의 팟캐스트 에피소드 스크립트

모델이 점점 더 많은 컨텍스트를 받아들일 수 있지만, 대부분의 모델은 대규모 언어 모델을 사용하는 기존의 통념은 모델에 대한 제약은 2024년부터는 더 이상 적용되지 않습니다.

작은 컨텍스트 윈도우의 제한사항을 처리하기 위한 몇 가지 일반적인 전략 포함:

  • 환경설정 창에서 이전 메시지 / 텍스트를 임의로 새 텍스트로 삭제 들어옵니다
  • 이전 콘텐츠를 요약하고 컨텍스트 윈도우가 가득 차기 전에
  • 시맨틱 검색과 함께 RAG를 사용하여 컨텍스트 윈도우 밖으로 데이터를 이동하고 벡터 데이터베이스로
  • 결정론적 필터 또는 생성적 필터를 사용하여 특정 텍스트 삭제 토큰 저장을 위한 프롬프트의 문자

이 중 상당수는 경우에 따라 여전히 관련이 있지만, 기본적으로 이제 모든 토큰을 컨텍스트 창에 넣기만 하면 됩니다. 왜냐하면 Gemini 1.5 모델은 긴 컨텍스트 윈도우를 기반으로 특별히 빌드되었으며 더 잘 이해할 수 있습니다 예를 들어, 오로지 자료 (500페이지 분량의 참고문법, 사전 1개, 약 400페이지의 추가 병렬식) Gemini 1.5 Pro와 Gemini 1.5 Flash는 번역을 배울 수 있는 영어에서 칼라망어까지, 200명 미만의 사용자가 있는 파푸아어로, 온라인 활동을 거의 하지 않았다는 점, 즉 학업 성향이 비슷한 가져온 것입니다.

이 예는 인간의 머릿속을 들여다보는 법으로 가능한 것이 긴 컨텍스트와 컨텍스트 내 학습 기능을 살펴보겠습니다.

긴 컨텍스트 사용 사례

대부분의 생성 모델의 표준 사용 사례는 여전히 텍스트 입력이지만 Gemini 1.5 모델 제품군은 멀티모달 사용 사례의 새로운 패러다임을 실현합니다. 이러한 텍스트, 동영상, 오디오, 이미지를 기본적으로 이해할 수 있습니다. 그들은 멀티모달 파일을 사용하는 Gemini API가 함께 제공됨 유형이 제공합니다

긴 형식의 텍스트

텍스트는 정보의 많은 부분을 뒷받침하는 인텔리전스의 계층으로 입증되었습니다 큰 도움이 되었습니다. 앞서 언급했듯이 API의 실질적 한계는 LLM은 특정 작업을 수행하기에 충분한 컨텍스트 윈도우가 없기 때문이었습니다. 할 수 있습니다 이는 검색 증강 생성 (RAG)의 급속한 채택으로 이어졌습니다. 모델에 관련성 있는 정보를 동적으로 제공하는 기억하실 것입니다. 이제 컨텍스트 윈도우 (현재 최대 2백만 개까지 가능), 새로운 기술이 개발되고 있습니다. 새로운 사용 사례를 활용할 수 있습니다

텍스트 기반 긴 컨텍스트의 새로운 표준 사용 사례는 다음과 같습니다.

  • 대량의 텍스트 요약 <ph type="x-smartling-placeholder">
      </ph>
    • 더 작은 컨텍스트 모델을 사용하는 이전의 요약 옵션에는 슬라이딩 기간 또는 이전 섹션의 상태를 유지하는 다른 기법 모델에 새 토큰이 전달될 때
  • 질문과 답변 <ph type="x-smartling-placeholder">
      </ph>
    • 예전에는 제한된 시간 내에 RAG를 사용하는 경우에만 가능했습니다. 컨텍스트와 모델의 사실 회상도가 낮음
  • 에이전트 워크플로 <ph type="x-smartling-placeholder">
      </ph>
    • 텍스트는 상담사가 수행한 작업의 상태를 유지하는 기반이 됩니다. 그들이 해야 할 일 세상에 대한 정보가 충분하지 않아 상담사의 목표는 상담사의 신뢰성을

다샷 컨텍스트 내 학습은 가장 고유한 역량이 드러나도록 합니다. 연구에 따르면 일반적인 '단일 샷' 또는 '멀티샷' 예시 패러다임에서 모델에 작업 예시가 하나 또는 몇 개 제시되어 수백, 수천 또는 수십만 개의 예시가 있으면 역량을 갖출 수 있습니다 이러한 다샷 접근 방식은 특정 작업에 맞게 미세 조정된 모델과 비슷하다는 것을 알 수 있습니다. 사용 사례 Gemini 모델의 성능이 아직 프로덕션에 충분하지 않은 경우 다회성 접근 방법을 시도해 볼 수 있습니다 이는 과정 후반부에서 살펴보겠지만 긴 컨텍스트 최적화 섹션, 컨텍스트 캐싱은 이러한 유형의 높은 입력을 훨씬 더 경제적으로 실현 가능하고 일부 국가에서는 있습니다.

긴 형식 동영상

동영상 콘텐츠의 유용성은 오랫동안 접근성의 부재로 인해 제한되었습니다. 매체 자체를 이해하게 됩니다. 콘텐츠를 훑어보는 것이 어려웠으며 스크립트가 종종 실패함 대부분의 도구는 이미지, 텍스트, 이미지, 오디오 등의 들을 수 있습니다. Gemini 1.5에서는 긴 컨텍스트 텍스트 기능이 머신러닝 모델을 사용하여 멀티모달 입력에 관한 추론 및 질문에 지속 가능한 성능을 제공합니다 Gemini 1.5 Flash, 동영상에서 바늘로 테스트한 경우 100만 개의 토큰으로 haystack 문제를 해결했습니다. 1.5 Pro가 웹 환경에서 최고의 성능을 동영상-MME 벤치마크.

긴 동영상 맥락과 관련된 새로운 표준 사용 사례와 표준 사용 사례는 다음과 같습니다.

  • 동영상 질문 및 답변
  • Google의 Project Astra에 표시된 동영상 메모리
  • 동영상 캡션
  • 동영상 추천 시스템은 새로운 콘텐츠로 기존 메타데이터를 보강하여 멀티모달 이해
  • 데이터 및 관련 동영상의 코퍼스를 검토하여 동영상 맞춤설정 메타데이터를 한 다음 해당 뉴스와 관련이 없는 동영상에서 뷰어
  • 동영상 콘텐츠 검토
  • 실시간 동영상 처리

동영상을 다룰 때는 동영상이 어떤 식으로 구현되는지를 고려해야 합니다. 토큰으로 처리되며 이는 청구 및 사용 한도 동영상 파일을 사용하여 메시지를 표시하는 방법에 대한 자세한 내용은 메시지 표시 가이드를 참조하세요.

긴 형식 오디오

Gemini 1.5 모델은 최초의 네이티브 멀티모달 대규모 언어 모델이었습니다. 알 수 있습니다. 지금까지 일반적인 개발자 워크플로는 모델 학습과 같은 여러 도메인별 모델을 두 가지 방법이 있습니다. 이 여러 번의 왕복 요청을 수행하여 지연 시간이 추가로 발생했습니다. 일반적으로 네트워크의 연결이 끊긴 아키텍처로 인해 발생하거나 여러 모델 설정에 대해 알아보겠습니다.

Gemini 1.5 Pro는 표준 오디오 Haystack 평가에서 숨겨진 오디오를 찾아내고 Gemini 1.5 Flash의 98.7% 의 테스트를 참조하세요. Gemini 1.5 Flash는 단일 사운드로 최대 9.5시간의 오디오를 요청 및 Gemini 1.5 Pro는 200만 개의 토큰을 사용하여 최대 19시간의 오디오를 허용할 수 있습니다. 컨텍스트 윈도우 또한 15분 오디오 클립 테스트 세트에서 Gemini 1.5 Pro를 실행했습니다. 5.5%의 단어 오류율 (WER)을 기록하며 추가적인 입력 세분화로 인한 복잡성 없이 음성 텍스트 변환 모델을 사용할 수 있습니다. 전처리가 포함됩니다

오디오 컨텍스트의 새로운 표준 사용 사례는 다음과 같습니다.

  • 실시간 스크립트 작성 및 번역
  • 팟캐스트 / 동영상 질문 및 답변
  • 회의 스크립트 작성 및 요약
  • 음성 어시스턴트

오디오 파일을 사용하여 메시지를 표시하는 방법에 대한 자세한 내용은 메시지 표시 가이드를 참조하세요.

긴 컨텍스트 최적화

긴 컨텍스트와 Gemini 1.5를 사용하여 작업할 때의 기본 최적화 컨텍스트를 사용하여 캐싱을 사용합니다. 과거를 뛰어넘는 단일 요청으로 많은 토큰을 처리할 수 없기 때문에 비용이었습니다 '데이터와 채팅'하는 경우 사용자가 앱을 찾고 10개의 PDF, 동영상 및 몇 가지 업무 문서를 업로드합니다. 보다 복잡한 검색 증강 생성 (RAG) 툴 사용 / 이 요청을 처리하고 해당 요청에 대해 상당한 비용을 토큰이 컨텍스트 창으로 이동됨 이제 사용자가 파일을 캐시할 수 있습니다. 비용을 지불하고 업로드할 수 있습니다 입력 / 출력 비용 Gemini로 요청 예를 들어 1.5 플래시는 표준 입출력 비용보다 최대 4배 저렴합니다. 채팅을 하게 되면 많은 비용을 절약할 수 있습니다. 개발자에게 문의하세요.

긴 컨텍스트 제한

이 가이드의 여러 섹션에서 Gemini 1.5 모델이 어떻게 달성하는지 설명했습니다. 다양한 검색 평가에서 높은 성능을 발휘할 수 있습니다. 이러한 가장 기본적인 설정을 고려하는 것입니다. 찾을 수 있습니다. '바늘'이 여러 개 있는 경우 또는 특정 광고 단위를 모델이 원하는 정보가 동일하지 않더라도 정확해야 합니다. 실적은 상황에 따라 크게 달라질 수 있습니다. 이 선택하는 것 사이에는 내재된 장단점이 있기 때문에 적절한 정보를 얻을 수 있습니다. 단일 쿼리에서 최대 99% 를 얻을 수 있지만 해당 쿼리를 전송할 때마다 입력 토큰 비용을 지불해야 합니다. 따라서 100개의 99% 의 성능이 필요한 경우 100개의 요청을 보내야 할 것입니다 이것은 컨텍스트가 사용 가능한 캐싱은 Gemini 모델 사용과 관련된 비용을 크게 줄일 수 있습니다. 높은 성능을 유지할 수 있습니다

FAQ

쿼리에 토큰을 더 추가하면 모델 성능이 저하되나요?

일반적으로 모델에 토큰을 전달할 필요가 없다면 전달하지 않도록 해야 합니다 그러나 일부 토큰이 포함된 대규모 토큰이 있는 경우 질문하려고 한다면 모델은 해당 정보를 추출하는 능력이 매우 높으며, 여러 시스템에서 사례)

Gemini 1.5 Pro는 일반적인 needle-in-a-haystack 테스트에서 어떤 성능을 발휘하나요?

Gemini 1.5 Pro는 최대 53만 개의 토큰까지 100% 의 재현율과 99.7% 가 넘는 재현율 달성 1백만 토큰을 사용합니다.

긴 컨텍스트 쿼리로 비용을 낮추려면 어떻게 해야 하나요?

여러 토큰을 재사용하려는 유사한 토큰 / 컨텍스트 세트가 있는 경우 컨텍스트 캐싱으로 해당 정보에 대해 질문하는 것과 관련이 있습니다.

200만 개의 토큰이 포함된 컨텍스트 윈도우에 액세스하려면 어떻게 해야 하나요?

이제 모든 개발자가 Gemini를 통해 200만 개의 토큰이 포함된 컨텍스트 윈도우에 액세스할 수 있습니다 1.5 Pro.

컨텍스트 길이가 모델 지연 시간에 영향을 주나요?

요청 성능에 관계없이 특정 요청에는 일정 수준의 지연 시간이 일반적으로 쿼리가 길수록 지연 시간이 더 깁니다( 토큰).

Gemini 1.5 Flash와 Gemini 1.5 Pro의 긴 컨텍스트 기능은 서로 다른가요?

예, 이 가이드의 여러 섹션에서 일부 수치를 언급했지만 일반적으로 Gemini 1.5 Pro는 대부분의 긴 컨텍스트 사용 사례에서 더 높은 성능을 발휘합니다.