従来のベクトル検索では、親チャンクに相当する文書全体がベクトル化されていました。しかし、この方法では前後に全く関係のない文章が含まれてしまい、類似度が減少する問題がありました。結果として「本当は欲しかった文章なのにスルーされた!」という事象が発生しやすくなります。また、「ベクトル化された文字列=RAGで使われる文字列」だったりすると、RAGで使われる文字列がぶつ切りな内容で適用されてしまい、AI側での解釈が難しかったり、変に単語だけ注目されてしまってハルシネーションの温床になることがあったりもしました。 今回のDifyナレッジ設定 親チャンク分割設定 親子チャンクの設定として以下の通りにしています。親チャンクは文書全体と段落単位の2種類の分割方法を選択できます。 文書全体を指定すると、ドキュメントによっては想定以上の膨大な量になることがあり、うまくコンテキストに含められなくなる可能性があり

