输入“/”快速插入内容

创建并使用知识库

扣子的知识库功能提供了简单易用的方式来存储和管理外部数据,让你的 Bot 可以与指定的数据进行交互。将数据上传到知识库后,扣子会自动将你的文档分割成一个个内容片段进行存储,并通过向量搜索来检索最相关的内容来回答用户问题。
知识库由大到小可分为:
知识库:一整套领域知识,是 Bot 加载的最小单位。
单元:知识库的一部分,可上传的最小内容单位可以是一个.txt、.pdf、.csv文件或一个网页。
分段:一个单元切分成多个分段,模型查询的最小单位。分段内容的完整度和准确性度会影响模型回答问题的准确性。
创建知识库并上传文本内容
你可以将文本内容上传至知识库中,作为回复用户问题的内容源或通过向量搜索进行内容召回。例如你可以将产品使用文档上传至知识库中,创建一个专属的产品咨询顾问 Bot 来精准回答用户关于产品使用的相关问题。
参考以下操作,创建知识库并上传文本内容。
1.
登录扣子
2.
在左侧导航栏的工作区区域,选择进入指定团队。
3.
在页面顶部进入知识库页面,并单击创建知识库
4.
在弹出的页面配置知识库名称、描述,并单击确认
🎈
一个团队内的知识库名称不可重复,必须是唯一的。
5.
单元页面,单击新增单元
6.
在弹出的页面选择要上传的数据格式,默认是文本格式,然后选择一种文本内容上传方式完成内容上传。
上传方式
操作步骤
本地文档
1.
文本格式页签下,选择本地文档,然后单击下一步
2.
将要上传的文档拖拽到上传区,或单击上传区域选择要上传的文档。
🎈
目前支持上传.txt, .pdf, .docx 格式的文件内容。
每个文件不得大于 20M。
一次最多可上传 10 个文件
3.
当上传完成后单击下一步
4.
选择内容分段方式:
a.
自动分段与清洗:系统会对上传的文件数据进行自动分段,并会按照系统默认的预处理规则处理数据。
b.
自定义:手动设置分段规则和预处理规则。
分段标识符:选择符合实际所需的标识符。
分段最大长度:设置每个片段内的字符数上限。
文本预处理规则
替换掉连续的空格、换行符和制表符
删除所有 URL 和电子邮箱地址
5.
单击下一步完成内容上传和分片。
在线数据
扣子支持自动抓取指定URL的内容,也支持手动采集指定页面上的内容,上传到数据库。
自动采集方式:该方式适用于内容量大,需要批量快速导入的场景。
1.
文本格式页签下,选择在线数据,然后单击下一步
2.
单击自动采集
3.
单击新增URL。在弹出的页面完成以下操作:
a.
输入要上传的网站地址。
b.
选择是否需要定期同步网站内容,如果需要选择内容同步周期。
c.
单击确认
4.
当上传完成后单击下一步
系统会自动根据网站的内容进行内容分片。
手动采集:该方式适用于需要精准采集网页上指定内容的场景
5.
安装扩展程序,详情请参考安装 Coze Scraper
6.
文本格式页签下,选择在线数据,然后单击下一步
7.
点击手动采集,然后在弹出的页面点击权限授予完成授权。
8.
在弹出的页面输入要采集内容的网址,然后单击确认
9.
在弹出的页面上,点击页面下方文本标注按钮,开始标注要提取的内容,然后单击文本框上方的文本链接按钮。
10.
单击查看数据查看已采集的内容,确认无误后再点击完成并采集