DataGemma

DataGemma 是一款研究工具,可让用户用通俗易懂的语言提出问题, 这些问题的答案 Data Commons 代码库。该工具使用 专门构建的 Gemma 版本, 采用 Gemini 1.5 Pro 的 Gemini API,以及一系列库 专用于与 Data Commons 配合使用。

此研究工具提供了两种不同的技术,用于根据数据回答问题 Commons 统计数据:

  • 检索交错生成 (RIG) - 此方法使用 Gemma 2 经过微调,能够识别何时需要将生成的数字替换为 Data Commons 提供更准确的信息。如需了解详情,请参阅 Colab 笔记本 和模型 KaggleHugging Face
  • 检索增强生成 (RAG) - 此方法使用 Gemma 2 的变体,从 Data Commons 检索相关信息,然后使用这些信息为 Gemini 1.5 Pro 模型创建扩展提示。如需了解详情,请参阅 Colab 笔记本以及 KaggleHugging Face 上的模型。

有关 DataGemma 的更多研究和技术详情,请参阅 DataGemma 技术论文

  • 将生成式人工智能 (AI) 应用于庞大的公共统计数据存储库,以探索和发掘新的洞见。
  • 研究如何利用检索增强和数据交错技术来引导生成式 AI 模型输出。

了解详情

在 Kaggle 上查看有关 DataGemma RIG 模型的更多代码、笔记本、信息和讨论。
试用 DataGemma,使用检索交错技术回答问题。
试用 DataGemma,利用检索增强技术回答问题。