FunctionGemma 모델 카드

모델 페이지: FunctionGemma

리소스 및 기술 문서:

이용약관: 약관
저자: Google DeepMind

모델 정보

입력 및 출력의 요약 설명과 간단한 정의입니다.

설명

참고: FunctionGemma는 멀티턴 사용 사례를 비롯한 특정 함수 호출 작업에 맞게 미세 조정하도록 설계되었습니다.

FunctionGemma는 자체 전문 함수 호출 모델을 만들기 위한 기반으로 빌드된 Google의 경량 개방형 모델입니다. FunctionGemma는 직접 대화 모델로 사용하기 위한 것이 아니며, 이 크기의 모델에서 일반적으로 볼 수 있듯이 추가 미세 조정 후 높은 성능을 발휘하도록 설계되었습니다. FunctionGemma는 Gemma 3 270M 모델을 기반으로 하며 Gemini 모델을 만드는 데 사용된 것과 동일한 연구 및 기술을 사용하여 함수 호출을 위해 특별히 학습되었습니다. 이 모델은 Gemma 3와 동일한 아키텍처를 사용하지만 다른 채팅 형식을 사용합니다. 이 모델은 텍스트 전용 함수 호출에 적합합니다. 고유하게 작은 크기로 인해 노트북, 데스크톱 또는 자체 클라우드 인프라와 같은 제한된 리소스가 있는 환경에 배포할 수 있어 최첨단 AI 모델에 대한 액세스를 민주화하고 모든 사람의 혁신을 촉진할 수 있습니다. 또한 기본 Gemma 270M과 마찬가지로 이 모델은 매우 다재다능하고 단일 턴 시나리오에서 다양한 하드웨어에서 성능을 발휘하도록 최적화되었지만, 특정 도메인에서 최고의 정확도를 달성하려면 단일 턴 또는 멀티턴 작업별 데이터로 미세 조정해야 합니다. 2억 7천만 개의 파라미터 모델을 전문화하여 특정 에이전트 워크플로에서 높은 성능을 달성하는 방법을 보여주기 위해 Google AI Edge 갤러리 앱에서 두 가지 사용 사례를 강조했습니다.

  • Tiny Garden: 음성 제어 대화형 게임을 지원하도록 미세 조정된 모델입니다. 가상 토지를 관리하는 게임 로직을 처리하고 '맨 위 줄에 해바라기 심기', '1번과 2번 구획에 물 주기'와 같은 명령어를 앱별 함수 (예: plant_seed, water_plots)로 분해하고 타겟을 조정합니다. 이를 통해 서버 연결 없이 맞춤 앱 메커니즘을 구동하는 모델의 기능을 확인할 수 있습니다.

  • 모바일 작업: 개발자가 자체 전문가 에이전트를 빌드할 수 있도록 Google에서는 FunctionGemma 미세 조정 방법을 보여주는 데이터 세트미세 조정 레시피를 게시했습니다. 사용자 입력 (예: '점심 식사 일정 만들어 줘', '손전등 켜 줘')를 Android OS 시스템 도구를 트리거하는 함수 호출로 변환합니다. 이 대화형 노트북에서는 기본 FunctionGemma 모델을 가져와 Google AI Edge 갤러리 앱에서 사용할 '모바일 작업' 미세 조정 모델을 처음부터 빌드하는 방법을 보여줍니다. 이 사용 사례는 개인 기기 작업을 위한 오프라인 비공개 에이전트 역할을 하는 모델의 기능을 보여줍니다.

입력 및 출력

  • 입력:
    • 질문, 프롬프트, 요약할 문서와 같은 텍스트 문자열
    • 총 입력 컨텍스트: 32,000개 토큰
  • 출력:
    • 입력에 대한 응답으로 생성된 텍스트(예: 질문에 대한 답변 또는 문서 요약)
    • 요청당 최대 32, 000개의 토큰에서 요청 입력 토큰을 뺀 총 출력 컨텍스트

모델 데이터

모델 학습에 사용된 데이터와 데이터 처리 방식

학습 데이터 세트

이러한 모델은 다양한 소스가 포함된 텍스트 데이터 세트를 기반으로 학습되었습니다. 이 모델은 6T 토큰으로 학습되었습니다. 학습 데이터의 지식 단절 날짜는 2024년 8월입니다. 주요 구성요소는 다음과 같습니다.

  • 공개 도구 정의 - 웹에서 찾을 수 있는 일반적인 API
  • 도구 사용 상호작용 - 프롬프트, 함수 호출, 함수 응답, 모델의 자연어 응답이 혼합되어 함수 호출 응답을 요약하거나 프롬프트가 모호하거나 불완전한 경우 설명을 요청합니다.

데이터 전처리

학습 데이터에 적용된 주요 데이터 정리 및 필터링 방법은 다음과 같습니다.

  • CSAM 필터링: 데이터 준비 프로세스의 여러 단계에서 엄격한 CSAM (아동 성적 학대 콘텐츠) 필터링을 적용하여 유해하고 불법적인 콘텐츠를 제외했습니다.
  • 민감한 정보 필터링: Gemma의 선행 학습된 모델을 안전하고 신뢰할 수 있게 만들기 위한 노력의 일환으로, 학습 세트에서 특정한 개인 정보와 기타 민감한 정보를 필터링하기 위한 자동화된 기술이 사용되었습니다.
  • 추가 방법: Google 정책에 따라 콘텐츠 품질 및 안전을 기반으로 필터링

구현 정보

모델 내부 구조에 관한 세부정보입니다.

하드웨어

Gemma는 Tensor Processing Unit(TPU) 하드웨어 (TPUv4p, TPUv5p, TPUv5e)를 사용하여 학습되었습니다. 비전 언어 모델 (VLM)을 학습하려면 상당한 컴퓨팅 성능이 필요합니다. 머신러닝에서 흔히 사용되는 행렬 연산을 위해 특별히 설계된 TPU는 이 도메인에서 다음과 같은 여러 이점을 제공합니다.

  • 성능: TPU는 VLM 학습에 필요한 대규모 연산을 처리하도록 특별히 설계되었습니다. CPU에 비해 학습 속도를 크게 높일 수 있습니다.
  • 메모리: TPU에는 고대역폭 메모리가 많이 제공되는 경우가 많으므로 학습 중에 대규모 모델과 배치 크기를 처리할 수 있습니다. 이렇게 하면 모델 품질이 향상될 수 있습니다.
  • 확장성: TPU 포드 (TPU의 대규모 클러스터)는 대규모 파운데이션 모델의 증가하는 복잡성을 처리하기 위한 확장 가능한 솔루션을 제공합니다. 여러 TPU 기기에 학습을 분산하여 더 빠르고 효율적으로 처리할 수 있습니다.
  • 비용 효율성: 많은 시나리오에서 TPU는 특히 더 빠른 학습으로 인해 절약되는 시간과 리소스를 고려할 때 CPU 기반 인프라에 비해 대규모 모델 학습을 위한 더 비용 효율적인 솔루션을 제공할 수 있습니다.
  • 이러한 이점은 지속 가능한 운영을 위한 Google의 약속과 일치합니다.

소프트웨어

학습은 JAXML Pathways를 사용하여 진행되었습니다. JAX를 사용하면 연구자가 TPU를 비롯한 최신 세대의 하드웨어를 활용하여 대규모 모델을 더 빠르고 효율적으로 학습할 수 있습니다. ML Pathways는 여러 작업에서 일반화할 수 있는 인공 지능 시스템을 구축하기 위한 Google의 최신 노력입니다. 이는 이러한 대규모 언어 모델을 비롯한 파운데이션 모델에 특히 적합합니다.
JAX와 ML Pathways는 Gemini 모델 제품군에 관한 논문에 설명된 대로 함께 사용됩니다. 'Jax와 Pathways의 '단일 컨트롤러' 프로그래밍 모델을 사용하면 단일 Python 프로세스가 전체 학습 실행을 오케스트레이션하여 개발 워크플로를 크게 간소화할 수 있습니다.'

평가

모델 평가 측정항목 및 결과입니다.

벤치마크 결과

벤치마크 n-shot 함수 Gemma 270m
BFCL Simple 0샷 61.6
BFCL Parallel 0샷 63.5
BFCL Multiple 0샷 39
BFCL 병렬 배수 0샷 29.5
BFCL Live Simple 0샷 36.2
BFCL 라이브 병렬 0샷 25.7
BFCL 라이브 배수 0샷 22.9
BFCL 라이브 병렬 다중 0샷 20.8
BFCL 관련성 0샷 61.1
BFCL 관련성 없음 0샷 70.6

모바일 작업 데이터 세트에서 파인 튜닝 후 성능에 미치는 영향
소규모 언어 모델의 전문화의 가치를 입증하기 위해 기본 FunctionGemma 모델을 '모바일 작업' 레시피를 사용하여 파인 튜닝된 모델과 비교했습니다. 미세 조정으로 기본 FunctionGemma 모델이 모바일 시스템 호출을 올바르게 식별하고 포맷하는 기능이 크게 개선되었습니다.


모델

모바일 작업 평가 결과

기본 기능Gemma 모델

58%

모바일 작업 미세 조정

85%

Gemma 270m 미세 조정된 사용 사례의 온디바이스 성능
온디바이스 지연 시간과 메모리 사용량을 평가하기 위해 Samsung S25 Ultra에서 미세 조정된 사용 사례를 평가했습니다.

  • 컨텍스트: 512개의 사전 입력 토큰과 32개의 디코딩 토큰
  • 하드웨어: LiteRT XNNPACK 위임자를 4개 스레드와 함께 사용하는 S25 Ultra CPU

기기 성능에 대한 모바일 작업


백엔드

양자화 방식

컨텍스트 길이

사전 채우기 (초당 토큰)

디코딩 (초당 토큰 수)

첫 번째 토큰까지의 시간 (초)

모델 크기 (MB)

최고 RSS 메모리 (MB)

CPU

dynamic_int8

1024

1718

125.9

0.3

288

551

Tiny Garden 온디바이스 성능


백엔드

양자화 방식

컨텍스트 길이

사전 채우기 (초당 토큰)

디코딩 (초당 토큰 수)

첫 번째 토큰까지의 시간 (초)

모델 크기 (MB)

최고 RSS 메모리 (MB)

CPU

dynamic_int8

1024

1743

125.7

0.3

288

549

윤리 및 안전

윤리 및 안전 평가 접근 방식과 결과

평가 접근 방식

Google의 평가 방법에는 관련 콘텐츠 정책에 대한 구조화된 평가와 내부 레드팀 테스트가 포함됩니다. 레드팀은 각각 다른 목표와 인간 평가 지표를 가진 여러 팀에 의해 수행되었습니다. 이러한 모델은 다음을 비롯한 윤리 및 안전과 관련된 다양한 카테고리에 대해 평가되었습니다.

  • 아동 보호: 아동 성적 학대 및 착취를 비롯한 아동 보호 정책을 다루는 텍스트-텍스트 및 이미지-텍스트 프롬프트 평가
  • 콘텐츠 안전: 괴롭힘, 폭력 및 유혈, 증오심 표현 등 안전 정책을 다루는 텍스트-텍스트 및 이미지-텍스트 프롬프트 평가
  • 표현적 피해: 편향, 고정관념, 유해한 연관성 또는 부정확성을 비롯한 안전 정책을 다루는 텍스트-텍스트 및 이미지-텍스트 프롬프트 평가

평가 결과

모든 안전 테스트 영역에서 이전 Gemma 모델에 비해 아동 안전, 콘텐츠 안전, 표현적 피해 카테고리가 크게 개선되었습니다. 모든 테스트는 모델 기능과 동작을 평가하기 위해 안전 필터 없이 진행되었습니다. 이 모델은 정책 위반이 최소화되었으며, 근거 없는 추론과 관련하여 이전 Gemma 모델의 성능에 비해 크게 개선되었습니다. Google 평가의 한계는 영어 프롬프트만 포함된다는 점이었습니다.

사용 및 제한사항

이러한 모델에는 사용자가 알아야 할 특정 제한사항이 있습니다.

용도

이 모델은 직접 대화 모델로 사용하기 위한 것이 아닙니다.
개방형 대규모 언어 모델 (LLM)은 다양한 산업과 도메인에서 광범위하게 적용됩니다. 다음은 잠재적 사용 사례의 목록이며, 이 목록의 목적은 모델 학습 및 개발의 일환으로 모델 제작자가 고려한 가능한 사용 사례에 관한 컨텍스트 정보를 제공하는 것입니다.

  • 콘텐츠 제작 및 커뮤니케이션
    • 텍스트 생성: 이러한 모델을 사용하여 시, 스크립트, 코드, 마케팅 문구, 이메일 초안과 같은 창의적인 텍스트 형식을 생성할 수 있습니다.
    • 챗봇 및 대화형 AI: 고객 서비스, 가상 어시스턴트 또는 대화형 애플리케이션을 위한 대화형 인터페이스를 지원합니다.
    • 텍스트 요약: 텍스트 말뭉치, 연구 논문 또는 보고서의 간결한 요약을 생성합니다.
  • 연구 및 교육
    • 자연어 처리 (NLP) 연구: 이러한 모델은 연구자가 NLP 기술을 실험하고, 알고리즘을 개발하고, 이 분야의 발전에 기여할 수 있는 기반이 될 수 있습니다.
    • 언어 학습 도구: 문법 교정을 지원하거나 쓰기 연습을 제공하여 대화형 언어 학습 환경을 지원합니다.
    • 지식 탐색: 요약을 생성하거나 특정 주제에 관한 질문에 답변하여 연구자가 대량의 텍스트를 탐색하도록 지원합니다.

제한사항

  • 학습 데이터
    • 학습 데이터의 품질과 다양성은 모델의 기능에 큰 영향을 미칩니다. 학습 데이터의 편향이나 격차로 인해 모델의 대답에 제한이 발생할 수 있습니다.
    • 학습 데이터 세트의 범위에 따라 모델이 효과적으로 처리할 수 있는 주제 영역이 결정됩니다.
  • 맥락 및 작업 복잡성
    • 모델은 명확한 프롬프트와 요청 사항으로 구성할 수 있는 작업에 더 적합합니다. 개방형 또는 매우 복잡한 작업은 어려울 수 있습니다.
    • 모델의 성능은 제공된 컨텍스트의 양에 영향을 받을 수 있습니다 (일반적으로 컨텍스트가 길수록 특정 지점까지는 출력이 더 좋습니다).
  • 언어의 모호성과 뉘앙스
    • 자연어는 본질적으로 복잡합니다. 모델은 미묘한 뉘앙스, 비꼬는 표현, 비유적 표현을 파악하는 데 어려움을 겪을 수 있습니다.
  • 사실 정확성
    • 모델은 학습 데이터 세트에서 학습한 정보를 기반으로 대답을 생성하지만, 지식 기반은 아닙니다. 부정확하거나 오래된 사실적 진술을 생성할 수 있습니다.
  • Common Sense
    • 모델은 언어의 통계적 패턴을 사용합니다. 특정 상황에서 상식적인 추론을 적용하는 능력이 부족할 수 있습니다.

윤리적 고려사항 및 위험

대규모 언어 모델 (LLM)의 개발은 여러 윤리적 우려를 야기합니다. 개방형 모델을 만들 때 다음 사항을 신중하게 고려했습니다.

  • 편향 및 공정성
    • 대규모 실제 텍스트 데이터로 학습된 LLM은 학습 자료에 내장된 사회문화적 편향을 반영할 수 있습니다. 이러한 모델은 신중한 조사를 거쳤으며, 입력 데이터 사전 처리 및 사후 평가는 이 카드에 설명되어 있습니다.
  • 잘못된 정보 및 오용
    • LLM은 거짓이거나, 혼동을 야기하거나, 유해한 텍스트를 생성하는 데 악용될 수 있습니다.
    • 모델의 책임감 있는 사용을 위한 가이드라인이 제공됩니다(책임감 있는 생성형 AI 툴킷 참고).
  • 투명성 및 책임성:
    • 이 모델 카드에는 모델의 아키텍처, 기능, 제한사항, 평가 프로세스에 관한 세부정보가 요약되어 있습니다.
    • 책임감 있게 개발된 개방형 모델은 AI 생태계 전반의 개발자와 연구자가 LLM 기술에 액세스할 수 있도록 하여 혁신을 공유할 기회를 제공합니다.

확인된 위험 및 완화:

  • 편향 지속: 모델 학습, 미세 조정, 기타 사용 사례 중에 평가 측정항목, 인적 검토를 사용하여 지속적으로 모니터링하고 편향 제거 기법을 탐색하는 것이 좋습니다.
  • 유해한 콘텐츠 생성: 콘텐츠 안전을 위한 메커니즘과 가이드라인이 필수입니다. 개발자는 특정 제품 정책 및 애플리케이션 사용 사례에 따라 주의를 기울이고 적절한 콘텐츠 안전 보호 장치를 구현하는 것이 좋습니다.
  • 악의적인 목적으로 오용: 기술적 제한과 개발자 및 최종 사용자 교육은 LLM의 악의적인 적용을 완화하는 데 도움이 될 수 있습니다. 사용자가 오용을 신고할 수 있는 교육 리소스와 신고 메커니즘이 제공됩니다. Gemma 모델의 금지된 사용은 Gemma 금지된 사용 정책에 설명되어 있습니다.
  • 개인 정보 보호 위반: 모델이 PII (개인 식별 정보) 삭제를 위해 필터링된 데이터로 학습되었습니다. 개발자는 개인 정보 보호 기술을 사용하여 개인 정보 보호 규정을 준수하는 것이 좋습니다.

이점

출시 시점에 이 모델 제품군은 유사한 크기의 모델에 비해 책임감 있는 AI 개발을 위해 처음부터 설계된 고성능 오픈 대규모 언어 모델 구현을 제공합니다.