知識圖譜檢索( Graph RAG )驗證

知識圖譜檢索( Graph RAG )驗證

RAG|Graph RAG|AI|POC by Vibe Coding( Claude Code
COMPANY
COMPANY

意藍資訊

意藍資訊

ROLE
ROLE

產品管理

產品管理

YEAR
YEAR

2025

2025

專案說明

GraphRAG 知識圖譜檢索 POC 是一項為了突破現有 RAG 召回率瓶頸 所發起的技術驗證專案。

由於產品既有的「關鍵字 + 向量」混合檢索高度依賴餘弦相似度,在處理企業內部繁雜文件時,經常無法有效召回「邏輯緊密但字面/向量距離較遠」的關鍵段落(False Negative)。

為解決此痛點,本專案引入 GraphRAG(圖譜增強檢索),旨在驗證透過 Neo4j 建構知識圖譜,能否利用「實體關係」補充傳統檢索的不足,抓取文件中的隱性脈絡,以滿足客戶端對於高精準度問答的嚴苛要求。

專案背景

在現有的 AI Search 產品線中,我們主要採用「關鍵字 + 向量」的混合檢索模式。然而,在面對客戶端內容繁雜的技術文件或稽核規範時,我們發現 單純的餘弦相似度(Cosine Similarity)存在顯著侷限:高相似度往往不代表高相關性(False Positive),導致真正具備邏輯關聯的參考段落被排擠,無法被召回。

面對客戶對「召回率(Recall)」日益嚴苛的要求,我們面臨的挑戰是如何突破向量檢索的線性限制,讓系統能夠像人類專家一樣,順藤摸瓜地找出「跨段落」但「邏輯緊密」的知識點,進而提升最終生成的答案品質。

專案階段

  • 階段一:痛點分析與技術選型

    分析現有混合檢索在複雜文件場景的召回瓶頸,定調引入 GraphRAG 技術路徑

  • 階段二:Vibe Coding 快速原型開發

    採用 AI 輔助編碼(Vibe Coding)模式,快速搭建包含文件解析、實體抽取至圖譜視覺化的完整 POC 架構

  • 階段三:技術可行性驗證

    驗證「圖譜關聯檢索 -> 回溯原始段落 -> 生成答案」閉環的有效性,完成定性評估

專案過程

  1. 採用 Vibe Coding 模式,加速技術驗證週期

    為了在資源受限的情況下快速驗證 GraphRAG 的價值,我採用 Vibe Coding 策略進行開發。

    利用 LLM 輔助 Docling 解析 API 串接、Neo4j Cypher 查詢語句與 React 前端視覺化邏輯,在極短時間內( 1 週 )完成了從資料庫 schema 設計到前端互動的原型搭建,證明了 PM 具備快速驗證深層技術假設的能力。


  2. 建構自動化知識圖譜流水線(Data Ingestion Pipeline)

    經 Claude Code Plan mode 協作,規劃自動化的 ETL 流程:

    • 解析與分塊

      使用 Docling API 進行高精度 PDF 解析,並設定 1000 tokens 的 Chunk Size( 100 tokens chunk overlap )以保留充足上下文。

    • 實體與關係抽取

      利用 LLM 並行處理進行實體(Entity)與關係(Relationship)的抽取,並透過 Embedding 模型(text-embedding-3-small)將非結構化文本轉化為向量,存入 Neo4j 圖資料庫,建立 MENTIONED_INRELATES_TO 的關聯索引。


  3. 設計 N-Hop 圖譜擴展檢索邏輯

    在檢索端,我捨棄了單純的關鍵字+向量混合搜尋,轉而使用了一套複合檢索邏輯

    • 首先對使用者提問進行實體提取向量搜尋,鎖定圖譜中的錨點( Nodes )

    • 接著執行 N-Hop(多跳)圖譜擴展(預設 2-4 Hop),抓取與錨點具備強關聯的周邊節點

    • 最後透過 MENTIONED_IN 關係反向回溯至原始的 Source Chunks,選取 Top 30 關聯段落作為 LLM 的生成素材


  4. 驗證「圖譜 -> 文本 -> 生成」的有效性

    POC 重點在於驗證路徑的連通性。我們成功打通了從「使用者自然語言提問」觸發圖譜遍歷,再精準定位回原始文檔段落的完整路徑。

    特別是在處理隱性關聯問題時,驗證了系統能透過「A 關聯 B,B 關聯 C」的路徑,成功召回傳統向量檢索可能遺漏的 C 段落( 純向量餘弦相似度低 )


解決方案


  1. 實現「類人腦的關聯式檢索體驗」

    • 核心策略:導入 GraphRAG 混合檢索,模擬人類專家的「聯想式」思考路徑

    • 執行細節:突破傳統搜尋只能比對「字面相似」的限制,系統能進一步進行 N-Hop 深度推理( 例如:查 A 公司能自動聯想到其子公司 B 的財報 ),主動挖掘跨文件的隱性關聯

    • 價值:解決使用者在複雜業務場景下「查不到完整全貌」的痛點,顯著提升 對複雜問題的回應深度與完整性

  2. 建立「有憑有據的知識索引機制」

    • 核心策略:實體導向的精準索引與資料治理

    • 執行細節:在資料處理階段,將抽象的「專有名詞(實體)」與具體的「原始文件段落(Chunk)」建立強綁定關係,確保每一個知識點都能精準回溯到原始出處

    • 價值:大幅降低 AI 幻覺風險,確保產品提供的每一個答案都有憑有據,滿足企業客戶對資訊正確性的零容忍需求

  3. 打造「白箱化的推理視覺化介面」

    • 核心策略:基於 Cytoscape.js 的可解釋性 AI(XAI)互動介面

    • 執行細節:將 AI 複雜的推理路徑轉化為直觀的「知識地圖」。使用者可切換查看「完整關聯」或聚焦於「答案生成的關鍵路徑」,一目了然 AI 是如何推導出結論的

    • 價值:消除使用者對「AI 黑箱作業」的不信任感。透過視覺化呈現推理邏輯,讓使用者「看得到、懂得了、信得過」,顯著提升產品的易用性與信賴度

成果說明


  1. 突破複雜場景的檢索天花板

    透過 POC 驗證,證明 GraphRAG 能有效解決傳統檢索在「跨段落推理」場景下的失效問題。對於法規稽核、技術維修等需要高度邏輯關聯的領域,成功驗證了從「單點搜尋」進化到「全面知識整合」的產品可行性

  2. 確立「高召回、高精準」的產品護城河

    定性測試顯示,新架構能成功召回過去因「關鍵字不匹配」而被遺漏的高價值資訊。這確立了產品在企業知識管理市場的差異化優勢——不僅能回答「是什麼(What)」,更能透過關聯檢索回答「為什麼(Why)」與「如何(How)」。

  3. 極大化產品迭代與驗證效率

    利用 Vibe Coding 模式,PM 獨立完成了從後端邏輯到前端視覺化的全端原型驗證。這不僅節省了昂貴的工程開發資源,更將「概念到驗證(Concept to Validation)」的週期縮短至極致( 本專案耗時僅 1 週 ),為團隊提供了具體且低風險的開發藍圖。

Create a free website with Framer, the website builder loved by startups, designers and agencies.