登录后的首页为『模型广场』,我们点击左侧导航栏中的『在线推理』开始接入 deepseek-r1 并创建 api-key。
在『在线推理』页面,点击『创建推理接入点』,开始创建接入点。『创建推理接入点』按钮会有免费 token 提示,火山引擎每个后付费模型赠送 50 万 token。赠送量很少,只适合尝鲜体验。
接下来填写接入信息,以下为填写完成状态。注意两点:
1. 模型选择:点击『添加模型』后,在弹出的对话框中切换到 deepseek,然后选择模型、版本,最后点击右下角的『确定』。
2. 开通模型:模型添加后,我们还需要开通。点击提示信息右侧的『立即开通』。然后选中需要开通的模型,并勾选同意协议条款,点右下角的『提交』。
开通模型之后,就可以在接入点信息页面点击『提交』以创建模型接入点。创建完成后,会在接入点列表中列出。
左侧的接入点名称就是在 cline、沉浸式翻译要填写的 Model ID。API Key 我们需要点击右侧的『API 调用』创建并复制出来。在 API 调用页,无论是否已创建 API Key,都可以点击『选择 API Key 并复制』。尚未创建 API Key 的可以在对话框中尽心刚创建,火山引擎的 API Key 并不会按照大模型单独进行格式设置,不会是 “sk-xxxxxx” 这样的 OpenAI 兼容“样式”,而是火山引擎/字节统一的格式。
获取 API Key 之后,就可以在第三方应用(如 vscode cline、AI 翻译插件等)中填入了。
API Provider:OpenAI 兼容
Base-URL:https://ark.cn-beijing.volces.com/api/v3
API Key:你的 api key
Model ID:你的接入点名称(ep-2025nnmmm-xxxxx)
这样就可以在第三方应用中使用火山方舟提供的满血版、无截断 Deepseek R1 推理服务了,火山引擎部署的 deepseek v3/r1 应该是响应最快的了,并且不会截断推理过程。但是,50 万 token 无论是翻译还是编程,很快就会消耗完,务必实时监测 token 消耗情况。以下是一个简单的代码块搜索,主要是 cline 发送的输入 token 过多。作者个人认为,新版的 cline 不适合接入推理模型。
另外需要特别提示的是,50 万 token 消耗很快,字节会把思维链(推理过程)也计入,所以赠送的 toekn 秒归 0,控制台显示会有延迟。作者接入 cline 仅一天,就额外产生了费用,而且字节的 tokens 单价很高。停止、删除火山方舟接入点,继续忍受 NVidia NIM 和「硅基流动」。
更多精彩,敬请关注「老E的博客」!
文章评论