本教程将详细介绍如何使用 Dify 平台从零开始构建专业的知识库并部署智能问答助手,无需任何编程基础,适合所有技术水平的用户。
提示(点击直达):
1.「OpenRouter」 目前提供 DeepSeek v3 0324 免费接入,分别由「Chutes」 和 「Targon」
2. OpenRouter、Gemini API访问等特殊网络环境需求推荐本站一直使用的「嘀嗒云」
提示(点击直达):
1.「OpenRouter」 目前提供 DeepSeek v3 0324 免费接入,分别由「Chutes」 和 「Targon」
2. OpenRouter、Gemini API访问等特殊网络环境需求推荐本站一直使用的「嘀嗒云」
一、Dify 平台简介
Dify 是一个开源的 AI 应用开发框架,其核心功能聚焦于知识库的创建与管理。与传统开发平台不同,Dify 提供了无需编写代码的可视化操作界面,用户可以通过简单的拖拽和配置完成专业级 AI 应用的部署。
平台主要特点包括:
- 支持多种数据源导入(本地文件、Notion、网页等)
- 智能文本分段与清洗功能
- 多模型服务提供商集成(硅基流动、OpenAI、DeepSeek 等)
- 可视化知识库管理与测试工具
- 一键部署问答助手到网站

二、知识库创建全流程
1. 注册与登录
访问 Dify 官网「https://dify.ai」,点击右上角『开始使用』按钮。支持三种注册方式:
- GitHub 账号关联登录
- Google 账号关联登录
- 普通邮箱注册

2. 创建知识库
登录成功后,在顶部导航栏点击『知识库』→『创建知识库』(加号按钮)。系统将引导您完成以下三个核心步骤:
步骤一:选择数据源
Dify 支持三种数据导入方式:
- 本地文件上传:支持 PDF、Word、Excel、PPT、TXT 等格式
- Notion 同步:连接 Notion 账户同步笔记内容
- 网页抓取:输入 URL 自动抓取网页内容

实际操作中,您可以直接将文件拖拽到上传区域,系统会自动开始处理。教程示例中上传了多个私募基金相关文档,其中包含一个较小的文件(仅 100 多个汉字)因无法满足最小分段要求而处理失败。
步骤二:文本分段与清洗
系统默认采用以下分段规则:
- 分段标识符:两个换行符
- 最大长度:500 tokens(非字符)
- 分段重叠:50 tokens(保持上下文连贯性)
技术说明:token 是 NLP 中的基本处理单位,中文通常 1 个汉字≈1.5-2 tokens。500 tokens 约相当于 250-330 个汉字。
高级用户可调整以下参数:
- 修改分段大小(经济模式 500 tokens / 高质量模式 1024 tokens)
- 启用父子分段结构
- 自定义清洗规则

步骤三:处理与索引
点击『保存并处理』后,系统将:
- 自动分割文本为多个段落
- 为每个段落生成关键词组合
- 建立向量索引(用于相似度检索)
处理完成后,您可以:
- 查看每个文档的分段详情(示例文档被分为 177 个段落)
- 测试召回率(查全率)
- 修改知识库名称与描述

3. 高级配置
元数据管理
系统提供三类自定义元数据:
类型 | 示例 | 作用 |
---|---|---|
字符串 | dept(部门)、project(项目) | 精确分类文档 |
数字 | priority(优先级) | 权重排序 |
时间 | expire_date(过期时间) | 时效性管理 |
添加元数据后需要重新建立索引,此过程可能需要较长时间(尤其是使用在线模型服务时)。
模型服务配置
在『设置』→『模型供应商』中可配置:
- 嵌入式模型(用于文本向量化)
- 重排序模型(优化检索结果)
支持的主流模型服务商包括:
- 硅基流动(推荐)
- OpenAI
- DeepSeek
- Gemini
API 配置提示:从硅基流动等平台获取 API Key 后,需在 Dify 中粘贴保存。系统会验证 Key 的有效性,绿色标识表示配置成功。

三、智能问答助手部署
1. 创建空白应用
返回『工作室』界面,点击『创建空白应用』,选择『聊天助手』类型。示例中创建名为"私募问答系统"的助手,主要配置项包括:
- 提示词工程:可添加欢迎语等个性化设置
- 知识库关联:绑定已创建的知识库
- 元数据过滤:按部门等条件筛选答案
- 模型选择:推荐 DeepSeek V3(0324 版本)

2. 对话参数调整
高级用户可调整以下参数(建议保持默认):
参数 | 说明 | 推荐值 |
---|---|---|
温度 (temperature) | 控制回答随机性 | 小于0.6 |
最大标记 (max_tokens) | 单次回复长度限制 | 小于2048 |
Top-p 采样 | 回答多样性 | 1 |
惩罚参数 | 避免重复内容 | 0 |

3. 测试与发布
在预览界面输入测试问题(如"私募基金的存取期限是多长"),系统将:
- 从知识库检索相关段落
- 生成结构化回答
- 标注引用来源
确认无误后,通过『嵌入网站』功能获取部署代码:
<iframe src="https://udify.app/chatbot/D3kW7CiZ91XsdKuU" style="width: 100%; height: 100%; min-height: 700px" frameborder="0" allow="microphone"> </iframe>
将此代码添加到网站页眉/页脚即可完成部署。您还可以自定义聊天窗口的样式和位置。

四、最佳实践建议
- 文档预处理:确保上传文档有清晰的结构和足够的内容量(建议至少 500 tokens)
- 元数据规划:提前设计好部门、项目等分类体系
- 召回测试:使用业务相关的问题验证检索效果
- 模型选择:中文场景优先考虑硅基流动或 DeepSeek 模型
- 版本控制:重大修改前创建知识库副本
扩展应用:本教程演示的是单节点智能体,Dify 还支持通过 ChatFlow 和工作流实现多智能体编排,满足复杂业务场景需求。
文章评论