不堵车、不截断的全尺寸Deepseek-R1：火山方舟

火山引擎是字节跳动旗下的云服务平台。前些天，火山引擎也上线了 DeepSeek-r1、v3 模型（包括满血版和一些蒸馏版），并且还向用户赠送了 50 万 Token 的免费额度。用完后“续杯”的价格也不贵- 目前 DeepSeek-R1 满血版仍然半价优惠-每 100 万 Token 输入 2 元、输出 8 元。更重要的是，火山引擎不仅将模型的初始吞吐量（TPM）提升至500万，还成功将推理延迟压缩至 30 毫秒，极大增强了用户体验与应用的灵活性。在官网动辄“服务器繁忙，请稍后重试”以及其他商家对话卡顿甚至失败的情况下，火山引擎的 Deepseek-R1 在线推理服务恰逢其时。本文不做过多介绍，仅将如何开通火山引擎 deepseek 推理服务和第三方应用接入进行记录。

首先，点击「这里」即可打开火山方舟。在火山方舟首页，直接点击『马上体验』，进入登录页，没有注册火山引擎的可以在在此过程中注册。

火山方舟登录后的首页为『模型广场』，我们点击左侧导航栏中的『在线推理』开始接入 deepseek-r1 并创建 api-key。

在『在线推理』页面，点击『创建推理接入点』，开始创建接入点。『创建推理接入点』按钮会有免费 token 提示，火山引擎每个后付费模型赠送 50 万 token。赠送量很少，只适合尝鲜体验。

创建接入点

接下来填写接入信息，以下为填写完成状态。注意两点：

1. 模型选择：点击『添加模型』后，在弹出的对话框中切换到 deepseek，然后选择模型、版本，最后点击右下角的『确定』。

2. 开通模型：模型添加后，我们还需要开通。点击提示信息右侧的『立即开通』。然后选中需要开通的模型，并勾选同意协议条款，点右下角的『提交』。

开通模型之后，就可以在接入点信息页面点击『提交』以创建模型接入点。创建完成后，会在接入点列表中列出。

api list

左侧的接入点名称就是在 cline、沉浸式翻译要填写的 Model ID。API Key 我们需要点击右侧的『API 调用』创建并复制出来。在 API 调用页，无论是否已创建 API Key，都可以点击『选择 API Key 并复制』。尚未创建 API Key 的可以在对话框中尽心刚创建，火山引擎的 API Key 并不会按照大模型单独进行格式设置，不会是 “sk-xxxxxx” 这样的 OpenAI 兼容“样式”，而是火山引擎/字节统一的格式。

create api key

获取 API Key 之后，就可以在第三方应用（如 vscode cline、AI 翻译插件等）中填入了。

API Provider：OpenAI 兼容

Base-URL：https://ark.cn-beijing.volces.com/api/v3

API Key：你的 api key

Model ID：你的接入点名称（ep-2025nnmmm-xxxxx）

这样就可以在第三方应用中使用火山方舟提供的满血版、无截断 Deepseek R1 推理服务了，火山引擎部署的 deepseek v3/r1 应该是响应最快的了，并且不会截断推理过程。但是，50 万 token 无论是翻译还是编程，很快就会消耗完，务必实时监测 token 消耗情况。以下是一个简单的代码块搜索，主要是 cline 发送的输入 token 过多。作者个人认为，新版的 cline 不适合接入推理模型。

另外需要特别提示的是，50 万 token 消耗很快，字节会把思维链（推理过程）也计入，所以赠送的 toekn 秒归 0，控制台显示会有延迟。作者接入 cline 仅一天，就额外产生了费用，而且字节的 tokens 单价很高。停止、删除火山方舟接入点，继续忍受 NVidia NIM 和「硅基流动」。