跳到主要内容

AI知识库

1. 介绍

本节将介绍如何在系统中添加和管理AI知识库。

AI知识库是一个结合了自然语言处理(NLP)、向量搜索和大语言模型(LLM)的智能信息管理系统,旨在高效存储、检索和管理知识,使AI能够更精准地理解并回答用户的问题。

在本系统中,AI知识库是AI应用、AI流程等模块的核心组成部分,为知识存储与智能检索提供支持。

2. 前置条件

为了使AI能够更精准地理解并回答用户的问题,我们会对文档进行向量化处理,并存储到向量库中; 所以,如果要正常使用知识库,需要准备向量库,并在配置文件中配置向量库的配置。

向量库配置

3. 知识库管理

知识库是多个相关文档的集合。在使用过程中,可以将相关文档组织到同一知识库,并支持从目录、站点等渠道同步文档。

新建知识库

点击 创建知识库,填写以下信息:

  • 知识库名称:用于区分不同知识库。
  • 知识库描述:简要介绍知识库的内容。
  • 向量模型:指定当前知识库使用的向量模型(必须为向量模型)。
  • 分段策略:可选,为整个知识库设置默认的文档分段策略(见下方说明)。

向量模型:向量模型是一种 将文本、图片、音频等数据转换为数学向量(Vector) 的技术,使其能够在高维空间中进行计算、比较和检索。

知识库分段策略

创建或编辑知识库时,可以开启 分段策略 开关,为该知识库配置一套默认的文档分段规则。开启后,该知识库下所有文档在未单独配置时,均默认继承此规则(批量 zip 上传的文档同样自动继承);文档也可单独覆盖为自定义策略。

开启后,可配置以下参数:

参数说明
分段模式自动分段与清洗(默认)或 自定义(手动配置分段规则)
分段最大长度每段文本的最大字符数,范围 100 ~ 5000,默认 800
分段重叠度%相邻两段之间重复保留的内容比例,范围 0 ~ 90,默认 10
分段标识符(自定义模式)按指定符号切分文本,支持换行、句号等常用符号及自定义内容
文本预处理规则(自定义模式)支持"替换连续空格/换行符/制表符"和"删除 URL 及电子邮箱地址"

4. 知识库文档

点击已创建的知识库,进入 知识库详情页面

左侧菜单功能:

  • 文档:显示当前知识库的所有文档。
  • 命中测试:输入关键词测试文档的匹配情况。

4.1 创建文档

系统支持两种方式录入文档:

  • 手动录入
  • 文件上传

手动录入

点击 手动录入 按钮,打开手动录入页面:

  • 输入文档标题。
  • 填写文档内容。

文件上传

点击 文件上传 按钮,打开文件上传页面:

  • 输入文档标题。
  • 上传文件,支持格式:txt、markdown、pdf、docx、xlsx、pptx。

点击 确定 后,文档将自动进行向量化。

向量化:向量化是指将文本、图片、音频等数据转换为固定维度的数值向量(Embedding),使其在数学空间中可计算和比较。向量化广泛用于语义搜索、推荐系统和AI知识库。例如,"数据库优化"和"SQL性能提升"的向量相近,因此可视为相关内容。

文档库上传

系统支持批量上传 markdown 格式的文档库——只需将文件压缩为 zip 包,上传后,所有 markdown 文件将被智能地添加到文档库中。

若文档中包含图片引用,例如:

![](/aigc/11111.png)

只需确保 zip 包结构如下,系统会自动识别并关联图片:

---
|
- static
|
-- aigc
|
--- 11111.png

4.2 分段策略配置

创建或编辑文档时,点击 下一步 后进入分段策略配置页面。系统支持两种分段方式:自动分段清洗(系统默认规则)和自定义分段(手动设置规则)。

当知识库已开启默认分段策略时,页面顶部会出现来源选择:

  • 使用知识库默认:文档继承知识库的统一分段规则,直接点击保存即可。
  • 自定义:为该文档单独配置分段参数,覆盖知识库默认。

选择"使用知识库默认"时,页面会只读展示知识库的分段参数供参考;若后续修改了知识库的分段策略,文档在重新向量化时会自动使用最新的知识库策略。

当知识库未开启默认分段策略时,直接展示分段配置表单。

各参数含义与取值范围与知识库分段策略一致,此处不再赘述。

4.3 文档操作

点击文档数据右下角的 ... 按钮,弹出编辑选单,可进行以下操作:

  • 向量化:重新计算并更新文档向量。
  • 编辑:修改文档内容。
  • 删除:移除该文档。

4.4 命中测试

命中测试 页面,可输入测试内容,点击发送后,系统会显示匹配的文档片段。

参数说明:

  • 条数:返回的匹配结果数量。
  • Score阈值:仅当匹配评分(Score)高于设定阈值(Threshold)时,才会返回结果。

匹配结果包含:

  • 命中段落内容
  • 所属文档
  • 分段序号
  • 匹配分数

点击条目可查看详细信息。