REST Resource: corpora.documents.chunks

리소스: 청크

Chunk는 벡터 표현 및 저장 목적으로 독립 단위로 취급되는 Document의 하위 부분입니다. Corpus에는 최대 100만 개의 Chunk가 포함될 수 있습니다.

JSON 표현
{
  "name": string,
  "data": {
    object (ChunkData)
  },
  "customMetadata": [
    {
      object (CustomMetadata)
    }
  ],
  "createTime": string,
  "updateTime": string,
  "state": enum (State)
}
필드
name

string

변경할 수 없습니다. 식별자. Chunk 리소스 이름입니다. ID('corpora/*/documents/*/chunks/' 접두사를 제외한 이름)에는 최대 40자(영문 기준)의 소문자 영숫자 또는 대시(-)를 포함할 수 있습니다. ID는 대시로 시작하거나 끝날 수 없습니다. 생성 시 이름이 비어 있으면 12자의 고유 ID가 임의로 생성됩니다. 예: corpora/{corpus_id}/documents/{document_id}/chunks/123a456b789c

data

object (ChunkData)

필수 항목입니다. 텍스트 문자열과 같은 Chunk의 콘텐츠입니다. 청크당 최대 토큰 수는 2,043개입니다.

customMetadata[]

object (CustomMetadata)

선택사항입니다. 키-값 쌍으로 저장된 사용자가 제공한 커스텀 메타데이터입니다. 청크당 최대 CustomMetadata 수는 20개입니다.

createTime

string (Timestamp format)

출력 전용. Chunk가 생성된 시점의 타임스탬프입니다.

RFC3339 UTC 'Zulu' 형식의 타임스탬프입니다(나노초 단위, 소수점 이하 9자리). 예를 들면 "2014-10-02T15:01:23Z""2014-10-02T15:01:23.045123456Z"입니다.

updateTime

string (Timestamp format)

출력 전용. Chunk가 마지막으로 업데이트된 시점의 타임스탬프입니다.

RFC3339 UTC 'Zulu' 형식의 타임스탬프입니다(나노초 단위, 소수점 이하 9자리). 예를 들면 "2014-10-02T15:01:23Z""2014-10-02T15:01:23.045123456Z"입니다.

state

enum (State)

출력 전용. Chunk의 현재 상태입니다.

ChunkData

Chunk 콘텐츠를 나타내는 추출된 데이터

JSON 표현
{

  // Union field data can be only one of the following:
  "stringValue": string
  // End of list of possible types for union field data.
}
필드

통합 필드 data.

data는 다음 중 하나여야 합니다.

stringValue

string

문자열로 된 Chunk 콘텐츠. 청크당 최대 토큰 수는 2,043개입니다.

상태

Chunk의 수명 주기 상태입니다.

열거형
STATE_UNSPECIFIED 기본값입니다. 상태가 생략된 경우 이 값이 사용됩니다.
STATE_PENDING_PROCESSING Chunk을(를) 처리하는 중입니다(임베딩 및 벡터 저장소).
STATE_ACTIVE Chunk가 처리되어 쿼리할 수 있습니다.
STATE_FAILED Chunk을(를) 처리하지 못했습니다.

방법

batchCreate

Chunk 일괄 생성

batchDelete

Chunk를 일괄 삭제합니다.

batchUpdate

Chunk를 일괄 업데이트합니다.

create

Chunk를 만듭니다.

delete

Chunk를 삭제합니다.

get

특정 Chunk에 관한 정보를 가져옵니다.

list

Document의 모든 Chunk를 나열합니다.

patch

Chunk을 업데이트합니다.