Gemini는 개발자가 콘텐츠를 생성하고 문제를 해결할 수 있는 생성형 AI 모델 제품군입니다 이러한 모델은 텍스트와 이미지를 모두 입력으로 처리하도록 설계되고 학습됩니다 이 가이드에서는 사용 사례에 가장 적합한 모델을 결정하는 데 도움이 되도록 각 모델 변형에 대한 정보를 제공합니다.
안전 및 사용 목적
생성형 인공지능 모델은 강력한 도구지만 그 한계가 없는 것은 아닙니다. 이러한 기능의 다양성과 적용 가능성은 때때로 부정확하거나 편향되거나 불쾌감을 주는 출력과 같은 예기치 않은 출력으로 이어질 수 있습니다. 이러한 출력으로 인한 피해 위험을 제한하려면 후처리와 엄격한 수동 평가가 필수적입니다. 추가적인 안전 사용 권장사항은 안전 가이드를 참고하세요.
Gemini API에서 제공하는 모델은 다양한 생성형 AI 및 자연어 처리 (NLP) 애플리케이션에 사용할 수 있습니다. 이러한 함수는 Gemini API 또는 Google AI Studio 웹 앱을 통해서만 사용할 수 있습니다. Gemini API 사용에는 생성형 AI 금지된 사용 정책 및 Gemini API 서비스 약관도 적용됩니다.
모델 변형
Gemini API는 특정 사용 사례에 최적화된 다양한 모델을 제공합니다. 다음은 사용 가능한 Gemini 변형에 대한 간략한 개요입니다.
모델 변형 | 입력 | 출력 | 최적화 목표 |
---|---|---|---|
Gemini 1.5 Pro (미리보기) | 오디오, 이미지, 텍스트 | 텍스트 | 코드 및 텍스트 생성, 텍스트 편집, 문제 해결, 데이터 추출 및 생성을 포함하되 이에 국한되지 않는 이유 파악 |
Gemini 1.5 Flash (미리보기) | 오디오, 이미지, 텍스트 | 텍스트 | 다양한 작업에 적합한 빠르고 다재다능한 성능 |
Gemini 1.0 Pro | 텍스트 | 텍스트 | 자연어 작업, 멀티턴 텍스트 및 코드 채팅, 코드 생성 |
Gemini 1.0 Pro Vision | 이미지 및 텍스트 | 텍스트 | 이미지 설명 생성 또는 이미지 속 객체 식별과 같은 시각적 관련 작업에 최적화된 성능 |
텍스트 임베딩 | 텍스트 | 텍스트 임베딩 | 최대 2,048개 토큰의 텍스트에 대해 최대 768차원의 탄력적 텍스트 임베딩 생성 |
임베딩 | 텍스트 | 텍스트 임베딩 | 최대 2,048개 토큰의 텍스트에 대해 768차원으로 텍스트 임베딩 생성 |
AQA | 텍스트 | 텍스트 | 제공된 텍스트에 대해 기여 질의 응답 관련 작업 수행 |
다음 표에서는 모든 모델 변형에 공통된 Gemini 모델의 속성을 설명합니다.
속성 | 설명 |
---|---|
학습 데이터 | Gemini의 지식 컷오프는 2023년 초입니다. 이 기간 이후의 이벤트에 관한 지식은 제한적입니다. |
지원 언어 | 사용 가능한 언어 보기 |
구성 가능한 모델 매개변수 |
|
이러한 각 매개변수에 대한 자세한 내용은 생성 모델 가이드의 모델 매개변수 섹션을 참조하세요.
Gemini 1.5 Pro (미리보기)
Gemini 1.5 Pro는 다음과 같은 광범위한 추론 태스크에 최적화된 중간 크기 멀티모달 모델입니다.
- 코드 생성
- 텍스트 생성
- 텍스트 수정
- 문제 해결
- 추천 생성
- 정보 추출
- 데이터 추출 또는 생성
- AI 에이전트 만들기
1.5 Pro는 1시간 분량의 동영상, 9.5시간 분량의 오디오, 30,000줄 이상의 코드가 포함된 코드베이스 또는 700,000개 이상의 단어를 포함한 대량의 데이터를 한 번에 처리할 수 있습니다.
1.5 Pro는 제로, 원, 퓨샷 학습 작업을 처리할 수 있습니다.
모델 세부정보
속성 | 설명 |
---|---|
모델 코드 | models/gemini-1.5-pro-latest |
입력 | 오디오, 이미지, 텍스트 |
출력 | 텍스트 |
지원되는 생성 방법 |
generateContent
|
입력 토큰 한도[**] | 1,048,576건 |
출력 토큰 한도[**] | 8,192 |
프롬프트당 최대 이미지 수 | 3,600개 |
최대 동영상 길이 | 1시간 |
최대 오디오 길이 | 약 9.5시간 |
프롬프트당 최대 오디오 파일 수 | 1 |
모델 안전성 | 개발자가 조정할 수 있는 안전 설정이 자동으로 적용됩니다. 자세한 내용은 안전 설정 페이지를 참고하세요. |
요금 제한[*] |
|
시스템 안내 | 지원됨 |
JSON 모드 | 지원됨 |
최신 버전 | gemini-1.5-pro-latest |
최신 정식 버전 | gemini-1.5-pro |
최근 업데이트 | 2024년 4월 |
Gemini 1.5 Flash (미리보기)
Gemini 1.5 Flash는 다양한 태스크에서 확장하기 위한 빠르고 다목적 멀티모달 모델입니다.
모델 세부정보
속성 | 설명 |
---|---|
모델 코드 | gemini-1.5-flash |
입력 | 오디오, 이미지, 텍스트 |
출력 | 텍스트 |
지원되는 생성 방법 |
generateContent
|
입력 토큰 한도[**] | 1,048,576건 |
출력 토큰 한도[**] | 8,192 |
프롬프트당 최대 이미지 수 | 3,600개 |
최대 동영상 길이 | 1시간 |
최대 오디오 길이 | 약 9.5시간 |
프롬프트당 최대 오디오 파일 수 | 1 |
모델 안전성 | 개발자가 조정할 수 있는 안전 설정이 자동으로 적용됩니다. 자세한 내용은 안전 설정 페이지를 참고하세요. |
요금 제한[*] |
|
시스템 안내 | 지원됨 |
JSON 모드 | 지원됨 |
최신 버전 | gemini-1.5-flash-latest |
최신 정식 버전 | gemini-1.5-flash |
Gemini 1.0 Pro
Gemini 1.0 Pro는 멀티턴 텍스트 및 코드 채팅, 코드 생성과 같은 태스크를 처리하는 NLP 모델입니다.
1.0 Pro는 제로, 원, 퓨샷 학습 작업을 처리할 수 있습니다.
모델 세부정보
속성 | 설명 |
---|---|
모델 코드 | models/gemini-pro |
입력 | 텍스트 |
출력 | 텍스트 |
지원되는 생성 방법 |
generate_content
generateContent
|
요금 제한[*] |
|
시스템 안내 | 지원되지 않음 |
JSON 모드 | 지원되지 않음 |
최신 버전 | gemini-1.0-pro-latest |
최신 정식 버전 | gemini-1.0-pro |
정식 버전 | gemini-1.0-pro-001 |
최근 업데이트 | 2024년 2월 |
Gemini 1.0 Pro Vision
Gemini 1.0 Pro Vision은 시각적 관련 작업을 수행할 수 있는 성능 최적화 멀티모달 모델입니다. 예를 들어 1.0 Pro Vision은 이미지 설명을 생성하고, 이미지에 있는 객체를 식별하고, 이미지에 있는 장소나 사물에 관한 정보를 제공하는 등의 작업을 할 수 있습니다.
1.0 Pro Vision은 제로샷, 원샷, 퓨샷 작업을 처리할 수 있습니다.
모델 세부정보
속성 | 설명 |
---|---|
모델 코드 | models/gemini-pro-vision |
입력 | 텍스트 및 이미지 |
출력 | 텍스트 |
지원되는 생성 방법 |
generate_content
generateContent
|
입력 토큰 한도[*] | 12,288 |
출력 토큰 한도[*] | 4,096 |
최대 이미지 크기 | 제한 없음 |
프롬프트당 최대 이미지 수 | 16 |
최대 동영상 길이 | 2분 |
프롬프트당 최대 동영상 수 | 1 |
모델 안전성 | 개발자가 조정할 수 있는 안전 설정이 자동으로 적용됩니다. 자세한 내용은 안전 설정 페이지를 참고하세요. |
비율 제한[*] | 요청 60개/분 |
최신 버전 | gemini-1.0-pro-vision-latest |
최신 정식 버전 | gemini-1.0-pro-vision |
최근 업데이트 | 2023년 12월 |
텍스트 임베딩 및 임베딩
텍스트 임베딩
텍스트 임베딩 모델을 사용하여 입력 텍스트의 텍스트 임베딩을 생성할 수 있습니다. 텍스트 임베딩 모델에 대한 자세한 내용은 텍스트 임베딩에 대한 Vertex AI의 생성형 AI 문서를 참조하세요.
텍스트 임베딩 모델은 최대 2,048개 토큰의 텍스트에 대해 768차원으로 임베딩을 만드는 데 최적화되어 있습니다. 텍스트 임베딩은 768 미만의 탄력적 임베딩 크기를 제공합니다. 탄력적 임베딩을 사용하여 출력 차원을 더 작게 생성하고, 약간의 성능 손실로 컴퓨팅 및 스토리지 비용을 절감할 수 있습니다.
모델 세부정보
속성 | 설명 |
---|---|
모델 코드 |
models/text-embedding-004 (Vertex AI의 text-embedding-preview-0409 )
|
입력 | 텍스트 |
출력 | 텍스트 임베딩 |
입력 토큰 한도 | 2,048 |
출력 크기 크기 | 768 |
지원되는 생성 방법 |
embed_content
embedContent
|
모델 안전성 | 조정 가능한 안전 설정이 없습니다. |
비율 제한[*] | 요청 1,500개/분 |
최근 업데이트 | 2024년 4월 |
임베딩
임베딩 모델을 사용하여 입력 텍스트의 텍스트 임베딩을 생성할 수 있습니다.
임베딩 모델은 최대 2,048개의 토큰으로 구성된 텍스트에 대해 768차원으로 임베딩을 만드는 데 최적화되어 있습니다.
모델 세부정보 임베딩
속성 | 설명 |
---|---|
모델 코드 | models/embedding-001 |
입력 | 텍스트 |
출력 | 텍스트 임베딩 |
입력 토큰 한도 | 2,048 |
출력 크기 크기 | 768 |
지원되는 생성 방법 |
embed_content
embedContent
|
모델 안전성 | 조정 가능한 안전 설정이 없습니다. |
비율 제한[*] | 요청 1,500개/분 |
최근 업데이트 | 2023년 12월 |
품질보증
AQA 모델을 사용하여 문서, 코퍼스 또는 문구 집합에 대해 기여 질의 응답(AQA) 관련 작업을 수행할 수 있습니다. AQA 모델은 답변 가능한 확률을 추정하면서 제공된 소스를 기반으로 하는 질문에 대한 답변을 반환합니다.
모델 세부정보
속성 | 설명 |
---|---|
모델 코드 | models/aqa |
입력 | 텍스트 |
출력 | 텍스트 |
지원되는 생성 방법 |
GenerateAnswerRequest
generateAnswer
|
지원 언어 | 영어 |
입력 토큰 한도[**] | 7,168 |
출력 토큰 한도[**] | 1,024 |
모델 안전성 | 개발자가 조정할 수 있는 안전 설정이 자동으로 적용됩니다. 자세한 내용은 안전 설정 페이지를 참고하세요. |
비율 제한[*] | 요청 60개/분 |
최근 업데이트 | 2023년 12월 |
이러한 모델 변형의 기능을 살펴보려면 예를 참고하세요.
[*] Gemini 모델의 토큰은 약 4자(영문 기준)에 해당합니다. 토큰 100개는 약 60~80개의 영어 단어입니다.
[**] RPM: 분당 요청 수
TPM: 분당 토큰
RPD: 일일 요청 수
TPD: 일일 토큰 수
용량 제한으로 인해 지정된 최대 비율 제한은 보장되지 않습니다.
모델 버전 이름 패턴
Gemini 모델은 미리보기 또는 안정화 버전으로 제공됩니다. 코드에서 다음 모델 이름 형식 중 하나를 사용하여 사용할 모델과 버전을 지정할 수 있습니다.
최신: 지정된 세대 및 변형에 맞는 최첨단 버전의 모델을 가리킵니다. 기본 모델은 정기적으로 업데이트되며 미리보기 버전일 수 있습니다. 탐색 테스트 앱과 프로토타입에서만 이 별칭을 사용해야 합니다.
최신 버전을 지정하려면
<model>-<generation>-<variation>-latest
패턴을 사용합니다. 예를 들면gemini-1.0-pro-latest
입니다.최신 안정화 버전: 지정된 모델 생성 및 변형을 위해 출시된 최신 안정화 버전을 가리킵니다.
최신 안정화 버전을 지정하려면
<model>-<generation>-<variation>
패턴을 사용하세요. 예를 들면 다음과 같습니다.gemini-1.0-pro
공개 버전: 특정 안정화 모델을 가리킵니다. 안정화 모델은 변경되지 않습니다. 대부분의 프로덕션 앱은 특정한 안정적인 모델을 사용해야 합니다.
안정화 버전을 지정하려면
<model>-<generation>-<variation>-<version>
패턴을 사용합니다. 예를 들면gemini-1.0-pro-001
입니다.