REST Resource: corpora.documents.chunks

资源:数据块

ChunkDocument 的子部分,在向量表示和存储时被视为独立单元。一个 Corpus 最多可以有 100 万个 Chunk

JSON 表示法
{
  "name": string,
  "data": {
    object (ChunkData)
  },
  "customMetadata": [
    {
      object (CustomMetadata)
    }
  ],
  "createTime": string,
  "updateTime": string,
  "state": enum (State)
}
字段
name

string

不可变。标识符。Chunk 资源名称。ID(不含“corpora/*/documents/*/chunks/”前缀的名称)最多可包含 40 个小写字母或短划线 (-) 字符。ID 不能以短划线开头或结尾。如果创建时名称为空,系统会随机生成一个 12 个字符的唯一 ID。示例:corpora/{corpus_id}/documents/{document_id}/chunks/123a456b789c

data

object (ChunkData)

必需。Chunk 的内容,例如文本字符串。每个分块的最大令牌数为 2043。

customMetadata[]

object (CustomMetadata)

可选。用户提供的自定义元数据以键值对的形式存储。每个分块的 CustomMetadata 数上限为 20。

createTime

string (Timestamp format)

仅供输出。创建 Chunk 时的时间戳。

时间戳,采用 RFC3339 世界协调时间 (UTC)(即“祖鲁时”)格式,具有纳秒级分辨率,最多包含九个小数位。示例:"2014-10-02T15:01:23Z""2014-10-02T15:01:23.045123456Z"

updateTime

string (Timestamp format)

仅供输出。Chunk 上次更新时间的时间戳。

时间戳,采用 RFC3339 世界协调时间 (UTC)(即“祖鲁时”)格式,具有纳秒级分辨率,最多包含九个小数位。示例:"2014-10-02T15:01:23Z""2014-10-02T15:01:23.045123456Z"

state

enum (State)

仅供输出。Chunk的当前状态。

ChunkData

提取的表示 Chunk 内容的数据。

JSON 表示法
{

  // Union field data can be only one of the following:
  "stringValue": string
  // End of list of possible types for union field data.
}
字段

联合字段 data

data 只能是下列其中一项:

stringValue

string

字符串形式的 Chunk 内容。每个分块的最大令牌数为 2043。

状态

Chunk 生命周期的状态。

枚举
STATE_UNSPECIFIED 默认值。如果省略状态,则使用此值。
STATE_PENDING_PROCESSING 正在处理 Chunk(嵌入和矢量存储)。
STATE_ACTIVE Chunk 已处理完毕并可供查询。
STATE_FAILED Chunk处理失败。

方法

batchCreate

批量创建 Chunk

batchDelete

批量删除 Chunk

batchUpdate

批量更新 Chunk

create

创建 Chunk

delete

删除 Chunk

get

获取有关特定 Chunk 的信息。

list

列出 Document 中的所有 Chunk

patch

更新 Chunk