Skip to content

创建知识库

点击顶部导航栏的 AIGC应用 → 私域知识库 进入知识库界面。

系统提供两种解析模式:

  • 标准模式:不调用文本解析服务,适用于解析纯文本类型的文件
  • 高级解析模式:适用于 PDF 文档、带有图片等复杂格式的文件

私域知识库页面预览


标准解析模式

创建知识库

点击页面右上角的新建知识库按钮,在弹窗中选择标准模式,填写以下信息后点击确认完成创建:

配置项是否必填说明
知识库名称必填知识库的显示名称
解析模式必填选择标准模式
描述选填对知识库用途的简要说明

标准模式创建


分段与清洗

知识库创建完成后点击下一步,系统会对上传的文档内容进行分段处理数据清洗

可配置以下分段参数:

配置项说明
分段标识符用于切割文本的分隔符,如换行符、段落符等
最大分段长度每个分段允许的最大字符数
分段重叠长度相邻分段之间重叠的字符数,用于保留上下文连贯性
文本预处理规则清洗规则,如去除多余空格、过滤特殊字符等

分段清洗配置

提示: 合理设置分段长度与重叠长度,有助于提升知识库的检索准确率。
如不确定则建议选择自动分段并处理。


检索设置与索引方式

分段配置完成后,进入检索设置步骤,用于配置知识库的索引方式与检索策略。

索引方式

索引方式说明
向量检索将文本转换为向量进行语义相似度匹配,适合自然语言问答场景
全文检索基于关键词进行精确匹配,适合包含专有名词、编号等结构化内容的场景
混合检索同时使用向量检索与全文检索,综合语义理解与关键词匹配,检索效果更全面

索引增强

索引增强开启后,系统会从文档中自动提取自定义元数据字段,并将其附加到每个切片上参与检索,实现基于元数据的精确定位。

每条元数据规则包含以下三个字段:

字段说明
元数据标签自定义的字段名称,如 系列型号版本
标签描述对该字段含义的说明,如 系列名称,帮助系统理解提取目标
类型字段的数据类型,如 字符串数字

标签提取范围支持两种方式:

  • 文档标题:从文件名或文档标题中提取元数据,适合文件名本身携带业务信息的场景
  • 文档内容:从文档正文中提取元数据,适合内容中包含结构化字段的场景

典型场景: 上传文件名为 N32G45.pdf 的文档,配置元数据标签 系列、描述 系列名称、提取范围选择文档标题。用户查询 N32G45 时,系统直接通过元数据命中该文件的所有切片,无需依赖语义匹配,定位精准且高效。

提示: 对于文件名或标题本身具有业务含义的知识库(如产品型号、文件编号、规范代号等),强烈建议开启索引增强,可显著提升精确查询的命中率。

索引增强


保存与处理

配置完成后点击保存并处理,系统将对上传的文档按照所设规则进行切片和向量化处理。

处理完成后,文档内容将正式入库,可供 AI 应用进行检索调用。

保存处理

注意: 文档处理期间请勿关闭页面,处理时长取决于文档大小与内容复杂度。


高级解析模式

高级解析模式会调用专业的文档解析服务,适用于 PDF、Excel、Word 等包含图片、表格或复杂排版的文件,解析质量更高。

创建知识库

点击页面右上角的新建知识库按钮,在弹窗中选择高级解析模式,填写以下信息后点击下一步

配置项是否必填说明
知识库名称必填知识库的显示名称
知识库描述选填对知识库用途的简要说明
可见权限必填支持仅自己、所有团队成员或自定义范围
切片模式必填选择高级解析模式
文档解析服务必填选择对应的解析服务,如 S-高级文本解析T
上传类型必填支持按文件文件夹上传
知识库文件必填上传需要入库的文档,支持 PDF、Excel、Word,每个文件不超过 45 MB

高级解析模式创建

提示: 高级解析模式会消耗文档解析服务的调用额度,纯文本文件建议使用标准模式以节省资源。


文件图像处理

上传文件后进入文本分段与清洗步骤,高级解析模式在标准分段配置的基础上,额外提供文件图像处理功能。

配置项说明
图像识别模型选择用于解析文档中图片内容的视觉模型,如 gpt-4o
图像分析提示词自定义提示词,引导模型按照特定方式描述或提取图片中的信息

开启图像处理后,文档中的图片、图表、示意图等内容会被视觉模型识别并转换为文字描述,一并纳入切片参与检索。

高级解析-图像识别

提示: 图像分析提示词可根据文档类型定制,例如对电路图可填写"请描述该电路图的结构与各模块功能",提升图片内容的检索质量。


分段设置、索引方式与索引增强

高级解析模式的分段设置、索引方式、索引增强及保存处理步骤与标准模式一致,请参考上方标准解析模式中的对应章节进行配置。

其中索引方式提供两种模式:

索引方式说明
高质量调用系统默认的嵌入接口处理,查询时提供更高准确度,会消耗 Token
经济使用离线向量引擎、关键词索引等方式,降低准确度但无需花费 Token

Q&A 分段模式:开启后系统会将文档内容自动整理为问答对形式入库,适合 FAQ 类文档,可提升问答场景的检索匹配效果。