正确访问并使用Gemini Pro的几种方法

12月6日，谷歌发布新一代大模型 gemini 的 demo，同时 bard 也将模型更新为 gemini pro。美国时间12月13日，Gemini API对公众开放。Google官方发布的『Where Bard with Gemini Pro is available』中继续没有中国，国内也会保持屏蔽 google，因此，国内用户要体验或使用 gemini pro，需要具备以下3项条件中的1项：

一个未被GFW屏蔽且不屏蔽中国用户的容器平台
一个VPS
一个梯子

从账户注册与管理、用户隐私、使用便利性、专属性、国内屏蔽与平台屏蔽等方面综合考量，VPS更值得推荐。VPS上搭建境外Gemini中转站点无需额外部署代理服务，在访问google bard等站点时则可以让VPS充当机场，无论哪种方式，都是最有效、最灵活、最简单的选项。

▍使用非官方Gemini API应用

Gemini发布不久，目前开源社区成熟的Gemini API应用并不多，快速“响应”推出的开源应用都较为简单，甚至仅支持 gemini pro 而不支持gemini pro vision。因此，值得推荐的是已有的高星项目增加了对 gemini 支持的。

前文和大家分享的 geminiprochat属于快速响应类，当前仅支持 gemini pro。

GitHub - babaohuang/GeminiProChat: Minimal web UI for GeminiPro.

本文推荐的是快速增加Gemini支持的One-api或Librechat。有关one-api和librechat的部署和应用，后续发布。

GitHub - songquanpeng/one-api: OpenAI 接口管理 & 分发系统，支持 Azure、Anthropic Claude、Google PaLM 2 & Gemini、智谱 ChatGLM、百度文心一言、讯飞星火认知、阿里通义千问、360 智脑以及腾讯混元，可用于二次分发管理 key，仅单可执行文件，已打包好 Docker 镜像，一键部署，开箱即用. OpenAI key management & redistribution system, using a single API for all LLMs, and features an English UI

GitHub - danny-avila/LibreChat: Enhanced ChatGPT Clone: Features OpenAI, GPT-4 Vision, Bing, Anthropic, OpenRouter, Google Gemini, AI model switching, message search, langchain, DALL-E-3, ChatGPT Plugins, OpenAI Functions, Secure Multi-User System, Presets, completely open-source for self-hosting. More features in development

▍使用Google Bard

Bard同步更新了Gemini Pro和Gemini Pro Vision模型，通过Bard可以直接使用到Gemini Pro Vision。但存在的问题是，当前Bard的safety参数调教较为严格，导致使用Gemini Pro Vision时，图片内容有可能提示无法处理并被删除。

▍直接在MakerSuite/Google AI Studio中使用

MakerSuite是一个基于浏览器的 IDE，用于使用Generative language model（生成式语言模型）进行原型设计。借助 MakerSuite，可以快速试用模型并测试不同的prompt（提示）。MakerSuite支持Freeform prompt/自由格式提示、Structured prompt/结构化提示和Chat prompt/ 聊天提示。

三种Prompt的区别如下：

Freeform prompt：提供开放式提示体验，可用于生成内容以及对说明的响应，可以同时使用图片和文本数据来提交提示；
Structured prompt ：支持表格输入，可以通过提供一组或多组示例请求和回复来指导模型输出，支持至多500组案例，当需要更好地控制模型输出的结构时，可使用此方法。
Chat prompt：与chatgpt和bard类似的聊天对话框模式，支持输入历史会话。

打开Google AI Studio，默认采用的是Freeform prompt。Google AI Studio中，右侧的参数设定分别为：

Model/模型选择：Gemini Pro（仅支持文字提示内容）、Gemini Pro Vision (支持图片提示内容)；
Temperature/温度：模型的创造力，越高越想象力丰富，越低越稳定；
Add stop sequence/截断标识：匹配响应中的指定内容则截断响应输出；
Safety settings/安全设定：可以调整对骚扰、仇恨、性、恐怖等言论的屏蔽程度；
Output length/最大长度：响应的最大token值，默认2048；
Top K: 输出token的方式，top 1 表示永远输出评分最高的回答，top 10 表示在前10评分的回答中取样输出一个回答；
Top P: 输出token的方式，如果前x个回答的概率之和高于p，则Top P等价于Top K。

▍使用Google Colab

Google在发布Gemini的同时，也更新了相应的API文档和教程，参照「Gemini API: Quickstart with Python」一文，小白也可以快速上手通过Google Colab部署专属Gemini应用，需要的仅仅是一个Google账号。当然，除了python，还有go、node.js、web等各方面的官方指引可参考，完整覆盖了桌面和移动端。

对于习惯于使用curl的开发者，尽管官方没有在快速开始栏目中列出curl指引，但实际Google官方也有相应的笔记本指导文件可供参考。

intro_gemini_curl.ipynb - Colaboratory (google.com)

Colab上部署Gemini，分为安装与导入SDK、申请设置API Key、列出与选择模型、提交提示并获取响应、多轮对话5个步骤，官方文档已有翻译，本文不再赘述，只是该最小实现呈现的是命令行下的对话。

上述3种方法都无法解决中转问题，一方面受限于Google的支持范围，另一方面缺少可信的第三方代理。Cloudflare AI Gateway目前仅支持OpenAI、Azure以及Replicate、Hugging Face等平台，无法中转代理Gemini API访问。有关部署非官方应用Librechat和one-api的教程，后续分享。

本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可

正确访问并使用Gemini Pro的几种方法

文章评论