本节将介绍如何规范知识库文档,以构造一个对内容解析和模型理解较为友好的文档格式。
知识库文档最好使用word格式,如果为pdf或其他格式可以使用在线工具转成word文档看看文本是否正常。
1.pdf格式可能会有纯图片文档,加密,水印等因素,会在格式转换过程中影响正文。
2.word文档可以设置标题层级关系,方便文档解析时正确区分上下文。
接下来将对比有着相同文本,不同格式的两个word文档上传后的分片和检索效果,
无格式文档.docx(以下简称无格式):
有格式文档.docx(以下简称有格式):
文档格式化可以通过word内置的标题/正文层级组织文本,如下:
无格式的word会将同一语义下的内容分开,如这里的制热Q&A问答就被分到了不同的片段中:
有格式的word的则能更好地将同一语义下的内容放入同个分片:
当开启增强检索模式时,知识库检索在命中片段的同时给出相关的前后片段,
若使用无格式word则会出现检索越界和分片越界的情况:
由于会检索得到的和提问无关的知识,模型会回复和提问无关的内容:
有格式word的问答不会输出和提问无关的内容: