在聆思大模型平台点击侧边栏的“知识库”模块,进入知识库页面,点击创建知识库即可进行知识创建流程;
在弹出的窗口输入知识库名称点击确定即可完成知识库创建。
点击对应的知识库应用,点击右侧的“上传文件”按钮,即可进入文档上传流程;
文档支持txt、doc、pdf格式,请将要建立索引的文档转换至上述格式再进行上传。
为了方便用户快速进行文档格式转换,我们提供了高级设置,开放了PDF、Excel、Word、网页等主流文档格式的上传并自动转换成纯文本格式。注意此功能正在内测中,如有转换过程中的问题,可通过平台左下角的“技术支持”联系小助手进行反馈。
平台提供两种分片策略。
系统自动拆分片段,无需关注数据库底层的分片细节,适合应用在一些篇幅较长并且没有固定格式的泛文本内容。同时为了提高检索效果和效率,每个片段会控制在250token以内。
支持自定义分片符号(同时支持正则表达式)对文档进行分片,你可以填写\n\n
,代表将文档中两个连续换行符视为分割符号进行文档分割。例如下方纯文本内容则会把一个QA对视为一个片段进行分割。
Q: 披萨酱溅到了纯棉手套怎么洗?
A: 先用冷水冲洗披萨酱渍,然后进行正常洗涤。
Q: 纯棉毛巾上有口红痕迹怎么洗?
A: 先用酒精处理口红痕迹,然后进行洗涤。
Q: 炒菜油溅到了纯棉围裙怎么洗?
A: 先用洗洁精预处理油渍,然后进行正常洗涤。
...
你也可以通过自定义分隔符对文档进行分割,例如<!--分割线-->
,仅需在原始文档处对应位置插入自定义分割符号,如下面示例,结果同样会以QA对进行文本分片。
Q: 披萨酱溅到了纯棉手套怎么洗?
A: 先用冷水冲洗披萨酱渍,然后进行正常洗涤。
<!--分割线-->
Q: 纯棉毛巾上有口红痕迹怎么洗?
A: 先用酒精处理口红痕迹,然后进行洗涤。
<!--分割线-->
Q: 炒菜油溅到了纯棉围裙怎么洗?
A: 先用洗洁精预处理油渍,然后进行正常洗涤。
...
如果你不确定哪种分片方式适合你,可以通过点击下方的
预览
按钮,预览每个分片策略的效果,注意分片过程需要尽量保证一段分段的语义完整性,以保证向量检索结果的效果。
完整分片策略确认后,等待文档完成向量化处理即可。
点击文档名称可以查看全部的分片内容,搜索框可以实现关键字内容检索。
点击命中测试按钮,可以在测试文本处输入用户问题进行向量查询,以测试文档的分片命中效果,方便进行调试。
知识库支持上传多个文档进行联合查询,如果不想启动某个文档,可以在对应文档点击操作 - 禁用。
FAQ管理功能用于人工添加额外的问答知识,
打开FAQ管理界面后,可以自行添加问答对,这些问答对会作为额外的背景资料提供给模型参考。
此时对模型提问模型会参考FAQ管理中的内容,
具体而言,在知识库的检索结果中会加入FAQ管理的内容
点击获取库ID
按钮复制ID,即可通过API方式进行知识库问答;复制文档ID,可以进行单独一个文档的调用。详情API说明请参考此处知识库API