Phát hành Gemma 3n có đầu vào âm thanh và được tối ưu hoá để sử dụng trong các thiết bị hằng ngày! Tìm hiểu thêm

Thẻ mô hình FunctionGemma

Trang mô hình: FunctionGemma

Tài nguyên và tài liệu kỹ thuật:

Điều khoản sử dụng: Điều khoản
Tác giả: Google DeepMind

Thông tin mẫu

Nội dung mô tả tóm tắt và định nghĩa ngắn gọn về đầu vào và đầu ra.

Mô tả

LƯU Ý: FunctionGemma được thiết kế để tinh chỉnh cho tác vụ gọi hàm cụ thể của bạn, bao gồm cả các trường hợp sử dụng nhiều lượt tương tác.

FunctionGemma là một mô hình mã nguồn mở, gọn nhẹ của Google, được xây dựng làm nền tảng để tạo các mô hình gọi hàm chuyên biệt của riêng bạn. FunctionGemma không được dùng làm mô hình đối thoại trực tiếp và được thiết kế để có hiệu suất cao sau khi được tinh chỉnh thêm, như thường thấy ở các mô hình có kích thước này. Được xây dựng dựa trên mô hình Gemma 3 270M và cùng với nghiên cứu cũng như công nghệ được dùng để tạo các mô hình Gemini, FunctionGemma được huấn luyện đặc biệt cho hoạt động gọi hàm. Mô hình này có cùng cấu trúc với Gemma 3, nhưng sử dụng một định dạng trò chuyện khác. Mô hình này rất phù hợp với lệnh gọi hàm chỉ văn bản. Kích thước nhỏ đặc biệt giúp bạn có thể triển khai trên các môi trường có tài nguyên hạn chế như máy tính xách tay, máy tính để bàn hoặc cơ sở hạ tầng đám mây của riêng bạn, giúp mọi người có thể truy cập vào các mô hình AI tiên tiến và thúc đẩy sự đổi mới. Hơn nữa, tương tự như Gemma 270M cơ bản, mô hình này đã được tối ưu hoá để có tính linh hoạt cao, hoạt động hiệu quả trên nhiều loại phần cứng trong các tình huống một lượt, nhưng cần được tinh chỉnh trên dữ liệu cụ thể của tác vụ một lượt hoặc nhiều lượt để đạt được độ chính xác cao nhất trong các miền cụ thể. Để minh hoạ cách mô hình tham số 270M chuyên biệt có thể đạt được hiệu suất cao trong các quy trình làm việc cụ thể của tác nhân, chúng tôi đã làm nổi bật 2 trường hợp sử dụng trong ứng dụng Google AI Edge Gallery.

Tiny Garden: Một mô hình được tinh chỉnh để hỗ trợ một trò chơi tương tác điều khiển bằng giọng nói. Ứng dụng này xử lý logic trò chơi để quản lý một mảnh đất ảo, phân tách các lệnh như "Trồng hoa hướng dương ở hàng trên cùng" và "Tưới hoa ở ô 1 và 2" thành các hàm dành riêng cho ứng dụng (ví dụ: plant_seed, water_plots) và các mục tiêu phối hợp. Điều này minh hoạ khả năng của mô hình trong việc điều khiển các cơ chế ứng dụng tuỳ chỉnh mà không cần kết nối máy chủ.
Hành động trên thiết bị di động: Để giúp nhà phát triển xây dựng các tác nhân chuyên gia của riêng mình, chúng tôi đã xuất bản một tập dữ liệu và công thức tinh chỉnh để minh hoạ việc tinh chỉnh FunctionGemma. Nó dịch nội dung đầu vào của người dùng (ví dụ: "Tạo sự kiện trên lịch cho bữa trưa", "Bật đèn pin") thành các lệnh gọi hàm kích hoạt các công cụ hệ thống của hệ điều hành Android. Sổ tay tương tác này minh hoạ cách lấy mô hình FunctionGemma cơ sở và tạo một bản tinh chỉnh "Hành động trên thiết bị di động" từ đầu để sử dụng trong ứng dụng thư viện Google AI Edge. Trường hợp sử dụng này minh hoạ khả năng của mô hình trong việc hoạt động như một tác nhân riêng tư, ngoại tuyến cho các tác vụ trên thiết bị cá nhân.

Đầu vào và đầu ra

Đầu vào:
- Chuỗi văn bản, chẳng hạn như câu hỏi, câu lệnh hoặc tài liệu cần được tóm tắt
- Tổng ngữ cảnh đầu vào là 32.000 mã thông báo
Đầu ra:
- Văn bản được tạo để phản hồi nội dung đầu vào, chẳng hạn như câu trả lời cho một câu hỏi hoặc bản tóm tắt của một tài liệu
- Tổng ngữ cảnh đầu ra lên đến 32.000 mã thông báo cho mỗi yêu cầu, trừ đi mã thông báo đầu vào của yêu cầu

Dữ liệu mô hình

Dữ liệu được dùng để huấn luyện mô hình và cách dữ liệu được xử lý.

Tập dữ liệu huấn luyện

Các mô hình này được huấn luyện trên một tập dữ liệu văn bản bao gồm nhiều nguồn. Mô hình này được huấn luyện bằng 6 nghìn tỷ mã thông báo. Ngày ngừng thu thập kiến thức cho dữ liệu huấn luyện là tháng 8 năm 2024. Sau đây là các thành phần chính:

Định nghĩa về công cụ công khai – Các API phổ biến trên web
Tương tác sử dụng công cụ – Đây là sự kết hợp giữa các câu lệnh, lệnh gọi hàm, phản hồi hàm và phản hồi bằng ngôn ngữ tự nhiên của mô hình để tóm tắt phản hồi lệnh gọi hàm hoặc yêu cầu làm rõ khi câu lệnh không rõ ràng hoặc chưa hoàn chỉnh.

Xử lý dữ liệu trước

Sau đây là các phương pháp lọc và làm sạch dữ liệu chính được áp dụng cho dữ liệu huấn luyện:

Lọc nội dung xâm hại tình dục trẻ em: Chúng tôi áp dụng quy trình lọc nội dung xâm hại tình dục trẻ em (CSAM) nghiêm ngặt ở nhiều giai đoạn trong quy trình chuẩn bị dữ liệu để đảm bảo loại trừ nội dung có hại và bất hợp pháp.
Lọc dữ liệu nhạy cảm: Để đảm bảo các mô hình được huấn luyện trước Gemma an toàn và đáng tin cậy, chúng tôi đã sử dụng các kỹ thuật tự động để lọc một số thông tin cá nhân và dữ liệu nhạy cảm khác khỏi các tập huấn luyện.
Các phương pháp khác: Lọc dựa trên chất lượng và độ an toàn của nội dung theo chính sách của chúng tôi.

Thông tin triển khai

Thông tin chi tiết về các thành phần bên trong của mô hình.

Phần cứng

Gemma được huấn luyện bằng phần cứng Tensor Processing Unit (TPU) (TPUv4p, TPUv5p và TPUv5e). Việc huấn luyện các mô hình thị giác-ngôn ngữ (VLM) đòi hỏi sức mạnh tính toán đáng kể. TPU được thiết kế riêng cho các hoạt động ma trận thường gặp trong học máy, mang lại một số lợi thế trong lĩnh vực này:

Hiệu suất: TPU được thiết kế riêng để xử lý các phép tính lớn liên quan đến việc huấn luyện VLM. Chúng có thể tăng tốc quá trình huấn luyện đáng kể so với CPU.
Bộ nhớ: TPU thường có bộ nhớ băng thông cao với dung lượng lớn, cho phép xử lý các mô hình và kích thước lô lớn trong quá trình huấn luyện. Điều này có thể giúp cải thiện chất lượng mô hình.
Khả năng mở rộng: Nhóm TPU (cụm lớn gồm các TPU) cung cấp một giải pháp có thể mở rộng để xử lý độ phức tạp ngày càng tăng của các mô hình cơ sở lớn. Bạn có thể phân phối quá trình huấn luyện trên nhiều thiết bị TPU để xử lý nhanh hơn và hiệu quả hơn.
Tính hiệu quả về chi phí: Trong nhiều trường hợp, TPU có thể mang lại giải pháp hiệu quả về chi phí hơn để huấn luyện các mô hình lớn so với cơ sở hạ tầng dựa trên CPU, đặc biệt là khi xem xét thời gian và tài nguyên tiết kiệm được do quá trình huấn luyện diễn ra nhanh hơn.
Những lợi ích này phù hợp với cam kết của Google về việc hoạt động một cách bền vững.

Phần mềm

Quá trình huấn luyện được thực hiện bằng JAX và ML Pathways. JAX cho phép các nhà nghiên cứu tận dụng phần cứng thế hệ mới nhất (bao gồm cả TPU) để huấn luyện các mô hình lớn nhanh hơn và hiệu quả hơn. ML Pathways là nỗ lực mới nhất của Google nhằm xây dựng các hệ thống trí tuệ nhân tạo có khả năng khái quát hoá trên nhiều tác vụ. Điều này đặc biệt phù hợp với các mô hình cơ sở, bao gồm cả các mô hình ngôn ngữ lớn như những mô hình này.
JAX và ML Pathways được dùng cùng nhau như mô tả trong bài viết về họ mô hình Gemini; "mô hình lập trình "bộ điều khiển đơn" của Jax và Pathways cho phép một quy trình Python duy nhất điều phối toàn bộ quá trình huấn luyện, giúp đơn giản hoá đáng kể quy trình phát triển."

Đánh giá

Kết quả và chỉ số đánh giá mô hình.

Kết quả đo điểm chuẩn

Điểm chuẩn	n-shot	Hàm Gemma 270m
BFCL Simple	0-shot	61,6
BFCL Multiple	0-shot	63,5
BFCL Parallel	0-shot	39
BFCL Parallel Multiple	0-shot	29,5
BFCL Live Simple	0-shot	36,2
BFCL Live Multiple	0-shot	25,7
BFCL Live Parallel	0-shot	22,9
BFCL Live Parallel Multiple	0-shot	20,8
Mức độ liên quan của BFCL	0-shot	61,1
BFCL không liên quan	0-shot	73,7

Tác động đến hiệu suất sau khi tinh chỉnh trên tập dữ liệu Hành động trên thiết bị di động
Để minh hoạ giá trị của việc chuyên môn hoá đối với các mô hình ngôn ngữ nhỏ, chúng tôi đã so sánh mô hình FunctionGemma cơ sở với mô hình được tinh chỉnh bằng công thức "Hành động trên thiết bị di động". Việc tinh chỉnh đã cải thiện đáng kể khả năng xác định và định dạng chính xác các lệnh gọi hệ thống di động của mô hình FunctionGemma cơ sở.

Mô hình	Đánh giá kết quả cho Hành động trên thiết bị di động
Mô hình Base FunctionGemma	58%
Điều chỉnh hành động trên thiết bị di động	85%

Hiệu suất trên thiết bị của các trường hợp sử dụng được tinh chỉnh Gemma 270m
Chúng tôi đã đánh giá các trường hợp sử dụng được tinh chỉnh trên Samsung S25 Ultra để đánh giá độ trễ và mức sử dụng bộ nhớ trên thiết bị.

Ngữ cảnh: 512 mã thông báo điền sẵn và 32 mã thông báo giải mã.
Phần cứng: CPU S25 Ultra sử dụng uỷ quyền LiteRT XNNPACK với 4 luồng.

Hiệu suất của các hành động trên thiết bị di động

Phụ trợ	Lược đồ lượng tử hoá	Độ dài ngữ cảnh	Điền sẵn (số mã thông báo mỗi giây)	Giải mã (số mã thông báo trên mỗi giây)	Thời gian hiển thị mã thông báo đầu tiên (giây)	Kích thước mô hình (MB)	Bộ nhớ RSS cao nhất (MB)
CPU	dynamic_int8	1024	1718	125.9	0.3	288	551

Hiệu suất của Tiny Garden trên thiết bị

Phụ trợ	Lược đồ lượng tử hoá	Độ dài ngữ cảnh	Điền sẵn (số mã thông báo mỗi giây)	Giải mã (số mã thông báo trên mỗi giây)	Thời gian hiển thị mã thông báo đầu tiên (giây)	Kích thước mô hình (MB)	Bộ nhớ RSS cao nhất (MB)
CPU	dynamic_int8	1024	1743	125.7	0.3	288	549

Đạo đức và an toàn

Phương pháp và kết quả đánh giá về đạo đức và an toàn.

Phương pháp đánh giá

Các phương pháp đánh giá của chúng tôi bao gồm đánh giá có cấu trúc và kiểm thử nội bộ theo phương pháp tấn công giả định đối với các chính sách nội dung có liên quan. Một số nhóm khác nhau đã tiến hành kiểm thử xâm nhập, mỗi nhóm có các mục tiêu và chỉ số đánh giá của con người khác nhau. Những mô hình này được đánh giá dựa trên một số danh mục khác nhau liên quan đến đạo đức và sự an toàn, bao gồm:

An toàn cho trẻ em: Đánh giá các câu lệnh từ văn bản sang văn bản và từ hình ảnh sang văn bản theo chính sách an toàn cho trẻ em, bao gồm cả hành vi xâm hại tình dục và bóc lột trẻ em.
An toàn nội dung: Đánh giá các câu lệnh từ văn bản sang văn bản và từ hình ảnh sang văn bản, bao gồm các chính sách an toàn như quấy rối, bạo lực và nội dung ghê rợn, cũng như lời nói căm thù.
Tác hại về việc trình bày: Đánh giá các câu lệnh từ văn bản sang văn bản và từ hình ảnh sang văn bản theo các chính sách an toàn, bao gồm cả thiên kiến, khuôn mẫu và các mối liên kết hoặc thông tin không chính xác gây hại.

Kết quả đánh giá

Đối với tất cả các khía cạnh của kiểm thử an toàn, chúng tôi nhận thấy những điểm cải tiến đáng kể ở các danh mục an toàn cho trẻ em, an toàn về nội dung và tác hại do thông tin sai lệch so với các mô hình Gemma trước đây. Tất cả các hoạt động kiểm thử đều được tiến hành mà không có bộ lọc an toàn để đánh giá các khả năng và hành vi của mô hình. Mô hình này tạo ra rất ít trường hợp vi phạm chính sách và cho thấy những cải tiến đáng kể so với hiệu suất của các mô hình Gemma trước đây về suy luận không có căn cứ. Một hạn chế trong các đánh giá của chúng tôi là chúng chỉ bao gồm các câu lệnh bằng tiếng Anh.

Mức sử dụng và giới hạn

Các mô hình này có một số hạn chế mà người dùng cần biết.

Mục đích sử dụng

Mô hình này không nhằm mục đích sử dụng làm mô hình đối thoại trực tiếp.
Các mô hình ngôn ngữ lớn (LLM) mở có nhiều ứng dụng trong nhiều ngành và lĩnh vực. Danh sách sau đây về các trường hợp sử dụng tiềm năng là chưa đầy đủ. Mục đích của danh sách này là cung cấp thông tin theo ngữ cảnh về những trường hợp sử dụng có thể xảy ra mà nhà sáng tạo mô hình đã cân nhắc trong quá trình huấn luyện và phát triển mô hình.

Sáng tạo nội dung và giao tiếp
- Tạo văn bản: Bạn có thể dùng các mô hình này để tạo các định dạng văn bản sáng tạo như thơ, kịch bản, mã, bản sao tiếp thị và bản nháp email.
- Chatbot và AI đàm thoại: Cung cấp giao diện đàm thoại cho dịch vụ khách hàng, trợ lý ảo hoặc ứng dụng tương tác.
- Tóm tắt văn bản: Tạo bản tóm tắt ngắn gọn về một tập hợp văn bản, bài nghiên cứu hoặc báo cáo.
Nghiên cứu và giáo dục
- Nghiên cứu về Xử lý ngôn ngữ tự nhiên (NLP): Những mô hình này có thể đóng vai trò là nền tảng để các nhà nghiên cứu thử nghiệm các kỹ thuật NLP, phát triển thuật toán và đóng góp vào sự tiến bộ của lĩnh vực này.
- Công cụ học ngôn ngữ: Hỗ trợ trải nghiệm học ngôn ngữ tương tác, hỗ trợ sửa lỗi ngữ pháp hoặc cung cấp bài tập viết.
- Khám phá kiến thức: Hỗ trợ nhà nghiên cứu khám phá nhiều đoạn văn bản bằng cách tạo bản tóm tắt hoặc trả lời câu hỏi về các chủ đề cụ thể.

Các điểm hạn chế

Dữ liệu huấn luyện
- Chất lượng và tính đa dạng của dữ liệu huấn luyện ảnh hưởng đáng kể đến các khả năng của mô hình. Thiên kiến hoặc lỗ hổng trong dữ liệu huấn luyện có thể dẫn đến những hạn chế trong câu trả lời của mô hình.
- Phạm vi của tập dữ liệu huấn luyện sẽ xác định các chủ đề mà mô hình có thể xử lý một cách hiệu quả.
Bối cảnh và độ phức tạp của tác vụ
- Các mô hình hoạt động hiệu quả hơn trong những nhiệm vụ có thể được xây dựng bằng câu lệnh và chỉ dẫn rõ ràng. Các tác vụ gợi mở hoặc có độ phức tạp cao có thể gây khó khăn.
- Hiệu suất của mô hình có thể bị ảnh hưởng bởi lượng ngữ cảnh được cung cấp (ngữ cảnh càng dài thì thường cho ra kết quả càng tốt, cho đến một mức nhất định).
Sự mơ hồ và sắc thái của ngôn ngữ
- Ngôn ngữ tự nhiên vốn dĩ rất phức tạp. Các mô hình có thể gặp khó khăn trong việc nắm bắt những sắc thái tinh tế, sự mỉa mai hoặc ngôn ngữ ẩn dụ.
Độ chính xác về thông tin thực tế
- Các mô hình tạo câu trả lời dựa trên thông tin mà chúng học được từ các tập dữ liệu huấn luyện, nhưng chúng không phải là cơ sở kiến thức. Các mô hình này có thể tạo ra những tuyên bố thực tế không chính xác hoặc lỗi thời.
Common Sense
- Các mô hình dựa vào các mẫu thống kê trong ngôn ngữ. Chúng có thể không có khả năng áp dụng lý lẽ thông thường trong một số tình huống nhất định.

Những điều cần cân nhắc về đạo đức và rủi ro

Việc phát triển các mô hình ngôn ngữ lớn (LLM) làm dấy lên một số lo ngại về đạo đức. Khi tạo một mô hình mở, chúng tôi đã cân nhắc kỹ lưỡng những yếu tố sau:

Thiên kiến và tính công bằng
- Các LLM được huấn luyện dựa trên dữ liệu văn bản thực tế trên quy mô lớn có thể phản ánh những thiên kiến về văn hoá xã hội được nhúng trong tài liệu huấn luyện. Những mô hình này đã trải qua quá trình kiểm tra kỹ lưỡng, quá trình xử lý trước dữ liệu đầu vào được mô tả và các đánh giá sau được báo cáo trong thẻ này.
Thông tin sai lệch và hành vi sử dụng sai trái
- Các LLM có thể bị sử dụng sai mục đích để tạo ra văn bản sai lệch, gây hiểu lầm hoặc gây hại.
- Chúng tôi cung cấp các nguyên tắc để sử dụng mô hình này một cách có trách nhiệm, hãy xem Bộ công cụ AI tạo sinh có trách nhiệm.
Tính minh bạch và trách nhiệm giải trình:
- Thẻ mô hình này tóm tắt thông tin chi tiết về cấu trúc, khả năng, hạn chế và quy trình đánh giá của các mô hình.
- Một mô hình mở được phát triển có trách nhiệm mang đến cơ hội chia sẻ sự đổi mới bằng cách cung cấp công nghệ LLM cho các nhà phát triển và nhà nghiên cứu trong hệ sinh thái AI.

Các rủi ro đã xác định và biện pháp giảm thiểu:

Duy trì sự thiên kiến: Bạn nên thực hiện quy trình giám sát liên tục (sử dụng các chỉ số đánh giá, quy trình đánh giá thủ công) và khám phá các kỹ thuật giảm thiên kiến trong quá trình huấn luyện mô hình, tinh chỉnh và các trường hợp sử dụng khác.
Tạo nội dung gây hại: Cơ chế và nguyên tắc về an toàn nội dung là điều cần thiết. Nhà phát triển nên thận trọng và triển khai các biện pháp bảo vệ an toàn nội dung thích hợp dựa trên chính sách sản phẩm cụ thể và các trường hợp sử dụng ứng dụng của họ.
Sử dụng sai mục đích xấu: Các hạn chế về kỹ thuật cũng như việc giáo dục nhà phát triển và người dùng cuối có thể giúp giảm thiểu các ứng dụng độc hại của LLM. Chúng tôi cung cấp tài nguyên giáo dục và cơ chế báo cáo để người dùng gắn cờ hành vi sai trái. Các trường hợp bị cấm sử dụng mô hình Gemma được nêu trong Chính sách về các hành vi bị cấm khi sử dụng Gemma.
Vi phạm quyền riêng tư: Các mô hình được huấn luyện dựa trên dữ liệu đã được lọc để loại bỏ PII (Thông tin nhận dạng cá nhân). Nhà phát triển nên tuân thủ các quy định về quyền riêng tư bằng các kỹ thuật bảo đảm quyền riêng tư.

Lợi ích

Tại thời điểm phát hành, nhóm mô hình này cung cấp các triển khai mô hình ngôn ngữ lớn mở có hiệu suất cao, được thiết kế từ đầu để phát triển AI có trách nhiệm so với các mô hình có kích thước tương tự.