REST Resource: corpora.documents.chunks

Tài nguyên: Phân đoạn

Chunk là một phần phụ của Document được coi là một đơn vị độc lập để biểu diễn và lưu trữ vectơ. Một Corpus có thể có tối đa 1 triệu Chunk.

Biểu diễn dưới dạng JSON
{
  "name": string,
  "data": {
    object (ChunkData)
  },
  "customMetadata": [
    {
      object (CustomMetadata)
    }
  ],
  "createTime": string,
  "updateTime": string,
  "state": enum (State)
}
Các trường
name

string

Không thể thay đổi. Giá trị nhận dạng. Tên tài nguyên Chunk. Mã nhận dạng (tên không bao gồm tiền tố "corpora/*/documents/*/chunks/") có thể chứa tối đa 40 ký tự là chữ và số viết thường hoặc dấu gạch ngang (-). Mã nhận dạng không được bắt đầu hoặc kết thúc bằng một dấu gạch ngang. Nếu để trống tên khi tạo, một mã nhận dạng duy nhất ngẫu nhiên gồm 12 ký tự sẽ được tạo. Ví dụ: corpora/{corpus_id}/documents/{document_id}/chunks/123a456b789c

data

object (ChunkData)

Bắt buộc. Nội dung của Chunk, chẳng hạn như chuỗi văn bản. Số lượng mã thông báo tối đa mỗi phân đoạn là 2043.

customMetadata[]

object (CustomMetadata)

Không bắt buộc. Siêu dữ liệu tuỳ chỉnh do người dùng cung cấp được lưu trữ dưới dạng cặp khoá-giá trị. Số lượng tối đa CustomMetadata trong mỗi phân đoạn là 20.

createTime

string (Timestamp format)

Chỉ có đầu ra. Dấu thời gian về thời điểm tạo Chunk.

Dấu thời gian ở định dạng "Zulu" RFC3339 UTC, với độ phân giải nano giây và tối đa 9 chữ số phân số. Ví dụ: "2014-10-02T15:01:23Z""2014-10-02T15:01:23.045123456Z".

updateTime

string (Timestamp format)

Chỉ có đầu ra. Dấu thời gian về thời điểm cập nhật Chunk gần đây nhất.

Dấu thời gian ở định dạng "Zulu" RFC3339 UTC, với độ phân giải nano giây và tối đa 9 chữ số phân số. Ví dụ: "2014-10-02T15:01:23Z""2014-10-02T15:01:23.045123456Z".

state

enum (State)

Chỉ có đầu ra. Trạng thái hiện tại của Chunk.

ChunkData

Dữ liệu được trích xuất đại diện cho nội dung Chunk.

Biểu diễn dưới dạng JSON
{

  // Union field data can be only one of the following:
  "stringValue": string
  // End of list of possible types for union field data.
}
Các trường

Trường nhóm data.

data chỉ có thể là một trong những trạng thái sau đây:

stringValue

string

Nội dung Chunk dưới dạng chuỗi. Số lượng mã thông báo tối đa mỗi phân đoạn là 2043.

Tiểu bang

Các trạng thái cho vòng đời của Chunk.

Enum
STATE_UNSPECIFIED Giá trị mặc định. Giá trị này được sử dụng nếu trạng thái bị bỏ qua.
STATE_PENDING_PROCESSING Chunk đang được xử lý (nhúng và lưu trữ vectơ).
STATE_ACTIVE Chunk đã được xử lý và sẵn sàng để truy vấn.
STATE_FAILED Không xử lý được Chunk.

Phương thức

batchCreate

Tạo hàng loạt Chunk.

batchDelete

Xoá hàng loạt Chunk.

batchUpdate

Cập nhật theo lô Chunks.

create

Tạo một Chunk.

delete

Xoá Chunk.

get

Lấy thông tin về một Chunk cụ thể.

list

Liệt kê tất cả Chunk trong một Document.

patch

Cập nhật một Chunk.