知識圖譜檢索（ Graph RAG ）驗證

RAG｜Graph RAG｜AI｜POC by Vibe Coding（ Claude Code ）

COMPANY

意藍資訊

ROLE

產品管理

YEAR

2025

專案說明

GraphRAG 知識圖譜檢索 POC 是一項為了突破現有 RAG 召回率瓶頸 所發起的技術驗證專案。

由於產品既有的「關鍵字 + 向量」混合檢索高度依賴餘弦相似度，在處理企業內部繁雜文件時，經常無法有效召回「邏輯緊密但字面/向量距離較遠」的關鍵段落（False Negative）。

為解決此痛點，本專案引入 GraphRAG（圖譜增強檢索），旨在驗證透過 Neo4j 建構知識圖譜，能否利用「實體關係」補充傳統檢索的不足，抓取文件中的隱性脈絡，以滿足客戶端對於高精準度問答的嚴苛要求。

專案背景

在現有的 AI Search 產品線中，我們主要採用「關鍵字 + 向量」的混合檢索模式。然而，在面對客戶端內容繁雜的技術文件或稽核規範時，我們發現 單純的餘弦相似度（Cosine Similarity）存在顯著侷限：高相似度往往不代表高相關性（False Positive），導致真正具備邏輯關聯的參考段落被排擠，無法被召回。

面對客戶對「召回率（Recall）」日益嚴苛的要求，我們面臨的挑戰是如何突破向量檢索的線性限制，讓系統能夠像人類專家一樣，順藤摸瓜地找出「跨段落」但「邏輯緊密」的知識點，進而提升最終生成的答案品質。

專案階段

階段一：痛點分析與技術選型
分析現有混合檢索在複雜文件場景的召回瓶頸，定調引入 GraphRAG 技術路徑

階段二：Vibe Coding 快速原型開發
採用 AI 輔助編碼（Vibe Coding）模式，快速搭建包含文件解析、實體抽取至圖譜視覺化的完整 POC 架構
階段三：技術可行性驗證
驗證「圖譜關聯檢索 -> 回溯原始段落 -> 生成答案」閉環的有效性，完成定性評估

專案過程

採用 Vibe Coding 模式，加速技術驗證週期
為了在資源受限的情況下快速驗證 GraphRAG 的價值，我採用 Vibe Coding 策略進行開發。

利用 LLM 輔助 Docling 解析 API 串接、Neo4j Cypher 查詢語句與 React 前端視覺化邏輯，在極短時間內（ 1 週）完成了從資料庫 schema 設計到前端互動的原型搭建，證明了 PM 具備快速驗證深層技術假設的能力。
建構自動化知識圖譜流水線（Data Ingestion Pipeline）
經 Claude Code Plan mode 協作，規劃自動化的 ETL 流程：
- 解析與分塊：
  使用 Docling API 進行高精度 PDF 解析，並設定 1000 tokens 的 Chunk Size（ 100 tokens chunk overlap ）以保留充足上下文。
- 實體與關係抽取：
  利用 LLM 並行處理進行實體（Entity）與關係（Relationship）的抽取，並透過 Embedding 模型（text-embedding-3-small）將非結構化文本轉化為向量，存入 Neo4j 圖資料庫，建立 MENTIONED_IN 與 RELATES_TO 的關聯索引。
設計 N-Hop 圖譜擴展檢索邏輯
在檢索端，我捨棄了單純的關鍵字+向量混合搜尋，轉而使用了一套複合檢索邏輯
- 首先對使用者提問進行實體提取與向量搜尋，鎖定圖譜中的錨點（ Nodes ）
- 接著執行 N-Hop（多跳）圖譜擴展（預設 2-4 Hop），抓取與錨點具備強關聯的周邊節點
- 最後透過 MENTIONED_IN 關係反向回溯至原始的 Source Chunks，選取 Top 30 關聯段落作為 LLM 的生成素材
驗證「圖譜 -> 文本 -> 生成」的有效性
POC 重點在於驗證路徑的連通性。我們成功打通了從「使用者自然語言提問」觸發圖譜遍歷，再精準定位回原始文檔段落的完整路徑。

特別是在處理隱性關聯問題時，驗證了系統能透過「A 關聯 B，B 關聯 C」的路徑，成功召回傳統向量檢索可能遺漏的 C 段落（純向量餘弦相似度低）

解決方案

實現「類人腦的關聯式檢索體驗」
- 核心策略：導入 GraphRAG 混合檢索，模擬人類專家的「聯想式」思考路徑
- 執行細節：突破傳統搜尋只能比對「字面相似」的限制，系統能進一步進行 N-Hop 深度推理（例如：查 A 公司能自動聯想到其子公司 B 的財報），主動挖掘跨文件的隱性關聯
- 價值：解決使用者在複雜業務場景下「查不到完整全貌」的痛點，顯著提升 對複雜問題的回應深度與完整性
建立「有憑有據的知識索引機制」
- 核心策略：實體導向的精準索引與資料治理
- 執行細節：在資料處理階段，將抽象的「專有名詞（實體）」與具體的「原始文件段落（Chunk）」建立強綁定關係，確保每一個知識點都能精準回溯到原始出處
- 價值：大幅降低 AI 幻覺風險，確保產品提供的每一個答案都有憑有據，滿足企業客戶對資訊正確性的零容忍需求
打造「白箱化的推理視覺化介面」
- 核心策略：基於 Cytoscape.js 的可解釋性 AI（XAI）互動介面
- 執行細節：將 AI 複雜的推理路徑轉化為直觀的「知識地圖」。使用者可切換查看「完整關聯」或聚焦於「答案生成的關鍵路徑」，一目了然 AI 是如何推導出結論的
- 價值：消除使用者對「AI 黑箱作業」的不信任感。透過視覺化呈現推理邏輯，讓使用者「看得到、懂得了、信得過」，顯著提升產品的易用性與信賴度

成果說明

突破複雜場景的檢索天花板
透過 POC 驗證，證明 GraphRAG 能有效解決傳統檢索在「跨段落推理」場景下的失效問題。對於法規稽核、技術維修等需要高度邏輯關聯的領域，成功驗證了從「單點搜尋」進化到「全面知識整合」的產品可行性
確立「高召回、高精準」的產品護城河
定性測試顯示，新架構能成功召回過去因「關鍵字不匹配」而被遺漏的高價值資訊。這確立了產品在企業知識管理市場的差異化優勢——不僅能回答「是什麼（What）」，更能透過關聯檢索回答「為什麼（Why）」與「如何（How）」。
極大化產品迭代與驗證效率
利用 Vibe Coding 模式，PM 獨立完成了從後端邏輯到前端視覺化的全端原型驗證。這不僅節省了昂貴的工程開發資源，更將「概念到驗證（Concept to Validation）」的週期縮短至極致（ 本專案耗時僅 1 週 ），為團隊提供了具體且低風險的開發藍圖。

知識圖譜檢索（ Graph RAG ）驗證

知識圖譜檢索（ Graph RAG ）驗證

RAG｜Graph RAG｜AI｜POC by Vibe Coding（ Claude Code ）

COMPANY

COMPANY

ROLE

ROLE

YEAR

YEAR

專案說明

專案背景

專案階段

階段一：痛點分析與技術選型

階段二：Vibe Coding 快速原型開發

階段三：技術可行性驗證

專案過程

採用 Vibe Coding 模式，加速技術驗證週期

建構自動化知識圖譜流水線（Data Ingestion Pipeline）

解析與分塊：

實體與關係抽取：

設計 N-Hop 圖譜擴展檢索邏輯

驗證「圖譜 -> 文本 -> 生成」的有效性

解決方案

實現「類人腦的關聯式檢索體驗」

建立「有憑有據的知識索引機制」

打造「白箱化的推理視覺化介面」

成果說明

突破複雜場景的檢索天花板

確立「高召回、高精準」的產品護城河

極大化產品迭代與驗證效率