概览
当前,我使用 GoogleGenerativeAI 库来处理应用程序中生成 AI 提示的需求。Gemini 承诺成为一个多模态 AI 模型,我希望允许用户在提交 AI 提示时附带上传文件(如 PDF、图片、.xls 文件)。
我曾使用以下工作流程来实现让用户上传文件并在提示中使用:
- 启用文件选择:允许用户从本地机器选择文件(如 PDF、.doc、.xls 格式的文件)。
- 上传至 Google Cloud Storage:将文件上传至 Google Cloud Storage,并获取新上传文件的可访问链接。
- 向 Gemini 发送请求:在适当情况下,将包含文件链接的请求发送给 Gemini。
然而,现在我发现这个解决方案无法正常工作,反而收到如下回应:
我不具备访问外部网站或通过特定 URL 提供的文件(包括您提供的来自 Google Cloud Storage 的文件)的能力,因此无法对文件内容进行总结。
考虑过的方案
使用多个库处理客户端文档类型:例如使用 pdf-parser
处理 PDF 文件,并在涉及图片时利用 Gemini 的图像处理模型。但这种方法涉及大量库,且似乎 Gemini 承诺为我/我的用户提供此类功能。
服务器端预处理上传文件:例如将文件发送至 Google 的 Document AI,将其转换为某种一致结构化数据,然后与 GoogleGenerativeAI 库配合使用。然而,Document AI 调用成本较高,且看起来 Gemini 旨在处理此类任务。
我的应用栈(如有必要)
- Firebase / Google Cloud Functions
- Vercel
- Next.js
能否帮助提供一种方法,使用户在通过 Web 向 Gemini 发送请求时能够附带文件?
非常感谢!