微調 RAG 轉換

擷取文件後,Vertex AI RAG Engine 會執行一組轉換作業,為索引作業準備資料。您可以使用下列參數控管用途:

參數 說明
chunk_size 將文件擷取至索引時,系統會將文件分割成多個區塊。chunk_size 參數 (在符記中) 會指定區塊的大小。預設區塊大小為 1,024 個符記。
chunk_overlap 根據預設,系統會將文件分割成重疊部分,以提高關聯性和擷取品質。預設的區塊重疊數為 200 個符記。

分塊大小越小,表示嵌入項目的內容越精確。分塊越大,代表內容較為廣泛,但可能會遺漏具體細節。

舉例來說,如果您將 1,000 個字詞轉換為 200 個字詞的嵌入陣列,可能會遺漏細節。每個區塊的嵌入容量皆固定。大量文字可能無法顯示在小型視窗模型中。

後續步驟