创建知识库
点击顶部导航栏的 AIGC应用 → 私域知识库 进入知识库界面。
系统提供两种解析模式:
- 标准模式:不调用文本解析服务,适用于解析纯文本类型的文件
- 高级解析模式:适用于 PDF 文档、带有图片等复杂格式的文件

标准解析模式
创建知识库
点击页面右上角的新建知识库按钮,在弹窗中选择标准模式,填写以下信息后点击确认完成创建:
| 配置项 | 是否必填 | 说明 |
|---|---|---|
| 知识库名称 | 必填 | 知识库的显示名称 |
| 解析模式 | 必填 | 选择标准模式 |
| 描述 | 选填 | 对知识库用途的简要说明 |

分段与清洗
知识库创建完成后点击下一步,系统会对上传的文档内容进行分段处理与数据清洗。
可配置以下分段参数:
| 配置项 | 说明 |
|---|---|
| 分段标识符 | 用于切割文本的分隔符,如换行符、段落符等 |
| 最大分段长度 | 每个分段允许的最大字符数 |
| 分段重叠长度 | 相邻分段之间重叠的字符数,用于保留上下文连贯性 |
| 文本预处理规则 | 清洗规则,如去除多余空格、过滤特殊字符等 |

提示: 合理设置分段长度与重叠长度,有助于提升知识库的检索准确率。
如不确定则建议选择自动分段并处理。
检索设置与索引方式
分段配置完成后,进入检索设置步骤,用于配置知识库的索引方式与检索策略。
索引方式
| 索引方式 | 说明 |
|---|---|
| 向量检索 | 将文本转换为向量进行语义相似度匹配,适合自然语言问答场景 |
| 全文检索 | 基于关键词进行精确匹配,适合包含专有名词、编号等结构化内容的场景 |
| 混合检索 | 同时使用向量检索与全文检索,综合语义理解与关键词匹配,检索效果更全面 |
索引增强
索引增强开启后,系统会从文档中自动提取自定义元数据字段,并将其附加到每个切片上参与检索,实现基于元数据的精确定位。
每条元数据规则包含以下三个字段:
| 字段 | 说明 |
|---|---|
| 元数据标签 | 自定义的字段名称,如 系列、型号、版本 等 |
| 标签描述 | 对该字段含义的说明,如 系列名称,帮助系统理解提取目标 |
| 类型 | 字段的数据类型,如 字符串、数字 等 |
标签提取范围支持两种方式:
- 文档标题:从文件名或文档标题中提取元数据,适合文件名本身携带业务信息的场景
- 文档内容:从文档正文中提取元数据,适合内容中包含结构化字段的场景
典型场景: 上传文件名为 N32G45.pdf 的文档,配置元数据标签 系列、描述 系列名称、提取范围选择文档标题。用户查询 N32G45 时,系统直接通过元数据命中该文件的所有切片,无需依赖语义匹配,定位精准且高效。
提示: 对于文件名或标题本身具有业务含义的知识库(如产品型号、文件编号、规范代号等),强烈建议开启索引增强,可显著提升精确查询的命中率。

保存与处理
配置完成后点击保存并处理,系统将对上传的文档按照所设规则进行切片和向量化处理。
处理完成后,文档内容将正式入库,可供 AI 应用进行检索调用。

注意: 文档处理期间请勿关闭页面,处理时长取决于文档大小与内容复杂度。
高级解析模式
高级解析模式会调用专业的文档解析服务,适用于 PDF、Excel、Word 等包含图片、表格或复杂排版的文件,解析质量更高。
创建知识库
点击页面右上角的新建知识库按钮,在弹窗中选择高级解析模式,填写以下信息后点击下一步:
| 配置项 | 是否必填 | 说明 |
|---|---|---|
| 知识库名称 | 必填 | 知识库的显示名称 |
| 知识库描述 | 选填 | 对知识库用途的简要说明 |
| 可见权限 | 必填 | 支持仅自己、所有团队成员或自定义范围 |
| 切片模式 | 必填 | 选择高级解析模式 |
| 文档解析服务 | 必填 | 选择对应的解析服务,如 S-高级文本解析T |
| 上传类型 | 必填 | 支持按文件或文件夹上传 |
| 知识库文件 | 必填 | 上传需要入库的文档,支持 PDF、Excel、Word,每个文件不超过 45 MB |

提示: 高级解析模式会消耗文档解析服务的调用额度,纯文本文件建议使用标准模式以节省资源。
文件图像处理
上传文件后进入文本分段与清洗步骤,高级解析模式在标准分段配置的基础上,额外提供文件图像处理功能。
| 配置项 | 说明 |
|---|---|
| 图像识别模型 | 选择用于解析文档中图片内容的视觉模型,如 gpt-4o |
| 图像分析提示词 | 自定义提示词,引导模型按照特定方式描述或提取图片中的信息 |
开启图像处理后,文档中的图片、图表、示意图等内容会被视觉模型识别并转换为文字描述,一并纳入切片参与检索。

提示: 图像分析提示词可根据文档类型定制,例如对电路图可填写"请描述该电路图的结构与各模块功能",提升图片内容的检索质量。
分段设置、索引方式与索引增强
高级解析模式的分段设置、索引方式、索引增强及保存处理步骤与标准模式一致,请参考上方标准解析模式中的对应章节进行配置。
其中索引方式提供两种模式:
| 索引方式 | 说明 |
|---|---|
| 高质量 | 调用系统默认的嵌入接口处理,查询时提供更高准确度,会消耗 Token |
| 经济 | 使用离线向量引擎、关键词索引等方式,降低准确度但无需花费 Token |
Q&A 分段模式:开启后系统会将文档内容自动整理为问答对形式入库,适合 FAQ 类文档,可提升问答场景的检索匹配效果。