Graphiti与PIKE RAG技术调研报告

1 从 Vector 到 Graph：范式转移

传统的 RAG (检索增强生成) 主要依赖向量相似度搜索。虽然高效，但它将信息视为孤立的片段，丢失了实体间的显式关系。

AI代理 (Agents) 需要更高级的记忆形式。它们不仅需要找到“相似”的文本，还需要理解“A导致了B”或“C属于D”的逻辑结构。这正是 Graphiti 和 PIKE RAG 解决的核心问题。

数据来源：综合技术基准测试模拟

构建动态、时序敏感的知识图谱

Graphiti 是一个开源库，旨在帮助开发者从非结构化文本中自动构建知识图谱。它的核心创新在于引入了“边”的动态权重和时序属性，使其非常适合作为 AI Agent 的长期情景记忆 (Episodic Memory)。

Graphiti 能够实时摄取数据流，自动提取实体（Nodes）和关系（Edges）。不同于静态图谱，它会根据新信息动态调整边的连接强度。

结合了向量搜索（语义相似性）和图遍历（结构相关性）。这允许 Agent 在回忆时既能找到相关概念，又能追踪逻辑链条。

Bubble Chart Simulation

下图展示了 Graphiti 如何组织概念。圆圈大小代表实体的重要性（权重），位置代表语义距离。Graphiti 能够动态更新这些属性。

Physics-Informed Knowledge Extraction (物理/过程感知知识提取)

"PIKE" 代表了一种更高级的 RAG 架构范式，通常指代结合了行业专有逻辑（如物理规则、业务流程）的知识提取技术。在 AI Agent 场景下，PIKE RAG 旨在解决通用大模型在特定垂直领域（如金融、制造、医疗）产生幻觉的问题。

不仅仅是文本切分。PIKE 技术利用特定领域的解析器，识别文档中的表格、公式和逻辑块，保持数据的原子性。

Input: PDF/Docs -> Structured JSON

构建双层索引：**倒排索引**用于关键词，**向量索引**用于语义，**图索引**用于实体关系。核心是注入行业规则约束。

Vector Graph

在生成答案前，先通过图谱路径验证逻辑一致性。显著降低幻觉率，特别是在处理矛盾信息时。

Output: Verified Answer

在复杂问答任务（Complex QA）中，引入 Graphiti 或 PIKE RAG 架构相比传统 Baseline RAG 有显著提升。

准确率 (Accuracy) +25% 提升

幻觉率 (Hallucination) -40% 降低

选择合适的技术栈取决于应用场景。Vector RAG 适合快速检索，Graphiti 适合长期记忆构建，PIKE RAG 适合高精度行业应用。

Graphiti 表现最佳。由于其原生的图结构设计，能够保留深层的语义连接和时序背景，非常适合需要“理解前因后果”的场景。

Vector RAG 最简单。Graphiti 和 PIKE RAG 需要构建和维护图谱，增加了工程复杂度，但换来了更高的推理质量。

PIKE RAG 和 Graphiti 由于涉及图遍历，查询速度通常慢于纯向量检索。需要通过索引优化或混合检索策略来平衡。

对于构建简单的问答机器人，Vector RAG 依然是首选。

但对于旨在构建具有长期记忆、能够自主规划和推理的 AI Agent，集成 Graphiti 或参考 PIKE RAG 的架构将是必然趋势。图谱技术填补了 LLM 在逻辑结构认知上的空白。