构建支持时序感知的多层检索架构以优化 RAG 管道

数据工程与存储

文章字数: 4.1k

阅读时长: 17 分

一个标准的检索增强生成 (RAG) 管道在处理随时间演变的知识时，表现得非常脆弱。当系统的知识库不是一组静态事实，而是一个不断更新、版本化的文档集合时，向大语言模型（LLM）提供过时或无关的上下文，不仅会产生错误的答案，还会严重侵蚀用户信任。问题的核心在于，向量数据库本身对“时间”这一维度是无知的。它擅长语义相似性，却无法分辨一份文档是在2022年有效还是在2023年有效。

假设我们正在构建一个内部知识库问答系统，用户可能会问：“2023年第一季度的项目预算指南是什么？” 一个简单的 RAG 系统可能会检索到最新的，也就是2024年的预算指南，因为它在语义上最为接近，从而导致模型给出完全错误的答案。

定义架构挑战：时间上下文的精确注入

我们的目标是设计一个检索架构，它必须满足以下几个核心要求：

时序感知 (Time-Awareness): 检索必须能够根据用户指定的查询时间点或时间范围，精确过滤出在该时间段内有效的文档版本。
高性能: 对于高频的、针对近期数据（如“上个季度”、“本月”）的查询，系统必须有低延迟的响应能力。直接在数百万向量上进行复杂的元数据过滤是不可接受的性能瓶颈。
可维护性: 架构不能过于复杂。引入过多的组件（如专门的时序数据库）会显著增加运维成本和数据同步的复杂性。

方案 A：纯 ChromaDB 元数据过滤的陷阱

一个最直接的想法是在存入 ChromaDB 时，为每个文档块（chunk）附加时间戳元数据。

# 伪代码：方案A的数据注入
collection.add(
    embeddings=[...],
    documents=[...],
    metadatas=[
        {"source": "doc1.pdf", "version": 3, "valid_from_ts": 1672531200, "valid_to_ts": 1680307199}, # Q1 2023
        # ... more documents
    ],
    ids=[...]
)

当查询时，利用 ChromaDB 的 where 子句进行过滤。

# 伪代码：方案A的查询
target_timestamp = 1675209600 # Feb 1, 2023
results = collection.query(
    query_embeddings=[query_embedding],
    n_results=5,
    where={
        "$and": [
            {"valid_from_ts": {"$lte": target_timestamp}},
            {"valid_to_ts": {"$gte": target_timestamp}}
        ]
    }
)

优点:

实现简单，无需引入额外组件。

缺点:

性能与准确性问题: 这是一个在真实项目中常见的误区。ChromaDB（以及多数向量数据库）的 where 过滤通常是在 ANN (近似最近邻) 检索出 k 个候选结果之后进行的。这意味着，如果语义上最相似的 k 个结果恰好都在时间范围之外，那么即使数据库中存在符合时间范围的、语义稍远但仍然相关的文档，这次查询也会返回空集或不相关的结果。为了缓解这个问题，你必须极大地增加 k 的值（例如，从10增加到500），这会急剧恶化查询性能，使 ANN 的优势荡然无存。
扩展性差: 当数据量达到千万甚至上亿级别，这种后过滤（post-filtering）方式的性能衰减将是灾难性的。

方案 B：引入专用时序数据库的过度设计

另一个极端是引入一个专门的时序数据库（如 TimescaleDB 或 InfluxDB）来管理文档的元数据和版本历史。

graph TD
    subgraph "检索流程"
    A[用户查询 + 时间戳] --> B{LangChain Orchestrator};
    B --> C[查询 TimescaleDB];
    C -- 获取文档ID列表 --> B;
    B --> D[查询 ChromaDB];
    D -- 使用ID列表精确获取向量 --> B;
    B --> E[LLM];
    end
    
    subgraph "数据存储"
    F[TimescaleDB: 存储 metadata, doc_id, time_range];
    G[ChromaDB: 存储 embeddings, doc_id];
    end

优点:

时序查询能力专业且高效，能够处理复杂的时序逻辑。
关注点分离，每个数据库做自己最擅长的事情。

缺点:

架构复杂度剧增: 维护两个独立的数据库系统，需要处理数据同步、事务一致性、备份恢复等一系列棘手问题。一次查询需要跨两个系统，网络开销和故障点都增加了。
运维成本: 这对团队的技能栈提出了更高要求，并且显著增加了基础设施和维护成本。对于绝大多数 RAG 场景来说，这是一种典型的过度设计（over-engineering）。

最终架构选择：ChromaDB + Memcached 多层时序缓存检索器

我们选择一个更务实、更平衡的方案。该方案的核心思想是：承认 ChromaDB 元数据过滤的局限性，并用一个外部高速缓存层（Memcached）来弥补其性能短板。我们不引入新的主数据库，而是将 Memcached 用作一个“查询结果加速器”。

graph TD
    A[用户查询 + 时间] --> B{自定义时序检索器};
    B --> C{生成缓存键};
    C --> D[查询 Memcached];
    D -- 命中 --> F[返回缓存结果];
    D -- 未命中 --> E[执行数据库查询];
    
    subgraph "数据库查询模块"
        E --> G[1. ChromaDB 宽泛查询];
        G -- 返回Top N候选 --> H[2. 应用层精确时序过滤];
    end

    H --> I[写入 Memcached];
    I --> F;
    F --> J[LLM Prompt];

决策理由:

单一数据源: ChromaDB 仍然是唯一的真相来源（Single Source of Truth），避免了数据同步的噩梦。
性能焦点: 我们识别出性能瓶颈在于重复的、昂贵的、带有时间过滤的向量查询。Memcached 是一个极其简单、快速、成熟的键值存储，完美适用于缓存这些查询结果。
风险隔离: 即使 Memcached 集群宕机，系统仍然可以降级运行（尽管会变慢），因为它会回退到直接查询 ChromaDB。这提高了系统的韧性。
实现可控: 复杂性被封装在一个自定义的 LangChain Retriever 类中，对上层应用透明。

核心实现

我们将通过一个完整的、可运行的 Python 项目来展示这个架构。

1. 环境准备与配置

首先，我们需要一个 docker-compose.yml 文件来启动我们的依赖服务。

# docker-compose.yml
version: '3.8'

services:
  chromadb:
    image: chromadb/chroma:0.4.22
    container_name: chromadb_ts
    ports:
      - "8000:8000"
    volumes:
      - chroma_data:/chroma/.chroma/index

  memcached:
    image: memcached:1.6.22-alpine
    container_name: memcached_ts
    ports:
      - "11211:11211"

volumes:
  chroma_data:

项目结构与依赖：

.
├── docker-compose.yml
├── main.py
├── requirements.txt
└── utils
    ├── __init__.py
    └── config.py

requirements.txt:

langchain==0.1.13
chromadb-client==0.4.22
sentence-transformers==2.6.1
pylibmc==1.6.3
python-dotenv==1.0.1
numpy==1.26.4

utils/config.py 负责加载配置：

# utils/config.py
import os
from dotenv import load_dotenv

load_dotenv()

class Settings:
    CHROMA_HOST = os.getenv("CHROMA_HOST", "localhost")
    CHROMA_PORT = int(os.getenv("CHROMA_PORT", 8000))
    MEMCACHED_SERVER = os.getenv("MEMCACHED_SERVER", "127.0.0.1:11211")
    COLLECTION_NAME = "timeseries_docs"
    
    # 在真实项目中，这应该是一个更健壮的嵌入模型服务
    EMBEDDING_MODEL_NAME = "all-MiniLM-L6-v2"
    
    # 检索参数
    # 查询ChromaDB时获取更多候选结果，以便应用层有足够的数据进行精确过滤
    CANDIDATE_K = 20 
    # 最终返回给LLM的结果数量
    FINAL_K = 4
    # 缓存过期时间（秒），这里设置为1小时
    CACHE_EXPIRATION_SECONDS = 3600 

settings = Settings()

2. 数据注入与时序建模

我们的核心数据模型是在元数据中包含 valid_from_ts 和 valid_to_ts 两个Unix时间戳。

# main.py (部分: 数据注入)
import chromadb
import time
import hashlib
import json
from sentence_transformers import SentenceTransformer
from utils.config import settings

def setup_and_ingest_data():
    """准备环境并注入带有时序元数据的样本数据"""
    client = chromadb.HttpClient(host=settings.CHROMA_HOST, port=settings.CHROMA_PORT)
    model = SentenceTransformer(settings.EMBEDDING_MODEL_NAME)
    
    collection = client.get_or_create_collection(
        name=settings.COLLECTION_NAME,
        metadata={"hnsw:space": "cosine"}
    )
    
    print("Injecting versioned documents...")
    
    # 模拟不同时间版本的文档
    docs = [
        ("Remote work policy is flexible.", 1640995200, 1672531199), # 2022
        ("All employees must return to the office twice a week.", 1672531200, 1704067199), # 2023
        ("A new hybrid model: 3 days in-office for engineering teams.", 1704067200, 2147483647) # 2024 onwards
    ]
    
    documents = [d[0] for d in docs]
    metadatas = [
        {"valid_from_ts": d[1], "valid_to_ts": d[2], "source": "HR_Policy.doc"} for d in docs
    ]
    ids = [f"doc_{i}" for i in range(len(docs))]
    
    embeddings = model.encode(documents).tolist()
    
    collection.add(
        embeddings=embeddings,
        documents=documents,
        metadatas=metadatas,
        ids=ids
    )
    print(f"Added {collection.count()} documents to collection '{settings.COLLECTION_NAME}'.")

3. 自定义时序缓存检索器 (TimeAwareCachedRetriever)

这是整个架构的核心。我们继承 LangChain 的 BaseRetriever 并实现我们的多层检索逻辑。

# main.py (部分: 自定义Retriever)
import pylibmc
import logging
from typing import List, Dict, Any
from langchain_core.retrievers import BaseRetriever
from langchain_core.callbacks import CallbackManagerForRetrieverRun
from langchain_core.documents import Document

# 设置日志
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

class TimeAwareCachedRetriever(BaseRetriever):
    """
    一个结合了ChromaDB和Memcached的自定义检索器，用于处理带有时序上下文的查询。
    """
    chroma_collection: Any
    embedding_model: Any
    cache_client: Any

    class Config:
        arbitrary_types_allowed = True

    def _generate_cache_key(self, query: str, timestamp: int) -> str:
        """
        为查询和时间戳生成一个确定性的、安全的缓存键。
        使用SHA256来避免长查询导致键过长，并确保键的格式安全。
        """
        # 为了让相似但非完全相同的查询也能命中缓存（可选，取决于业务），
        # 可以对query做一些标准化处理，如转小写、去标点等。
        # 这里为了简单，直接使用原始查询。
        payload = f"{query.lower().strip()}:{timestamp}"
        return f"rag_cache:{hashlib.sha256(payload.encode()).hexdigest()}"

    def _get_relevant_documents(
        self, query: str, *, run_manager: CallbackManagerForRetrieverRun
    ) -> List[Document]:
        """LangChain Retriever的入口方法"""
        # 从 run_manager 获取元数据，这是 LangChain 调用时传递额外参数的标准方式
        metadata = run_manager.metadata
        target_timestamp = metadata.get("timestamp", int(time.time()))
        
        cache_key = self._generate_cache_key(query, target_timestamp)
        
        # 1. 尝试从缓存获取
        try:
            cached_result = self.cache_client.get(cache_key)
            if cached_result:
                logging.info(f"CACHE HIT for key: {cache_key}")
                # 反序列化
                docs_as_dicts = json.loads(cached_result)
                return [Document(page_content=d['page_content'], metadata=d['metadata']) for d in docs_as_dicts]
        except Exception as e:
            # 在生产环境中，缓存失败不应中断主流程。
            # 记录错误，然后继续执行数据库查询。
            logging.error(f"Memcached GET failed: {e}. Proceeding without cache.", exc_info=True)

        logging.info(f"CACHE MISS for key: {cache_key}. Querying database.")
        
        # 2. 缓存未命中，查询数据库
        query_embedding = self.embedding_model.encode(query).tolist()
        
        # 这里的 where 条件是宽泛的，它只要求文档的生命周期与查询时间点有重叠
        # 我们不过滤 'valid_from_ts'，因为一个在过去开始的文档可能至今仍然有效
        results = self.chroma_collection.query(
            query_embeddings=[query_embedding],
            n_results=settings.CANDIDATE_K,
            where={"valid_to_ts": {"$gte": target_timestamp}}
        )
        
        # 3. 在应用层进行精确的时序过滤
        final_docs = []
        doc_list = results['documents'][0]
        meta_list = results['metadatas'][0]
        
        for doc_content, metadata in zip(doc_list, meta_list):
            if metadata.get("valid_from_ts", 0) <= target_timestamp:
                final_docs.append(Document(page_content=doc_content, metadata=metadata))

        # 确保返回的结果不超过设定的数量
        final_docs = final_docs[:settings.FINAL_K]

        # 4. 将结果存入缓存
        if final_docs:
            try:
                # 序列化为JSON字符串
                docs_to_cache = [
                    {"page_content": d.page_content, "metadata": d.metadata} for d in final_docs
                ]
                self.cache_client.set(
                    cache_key, 
                    json.dumps(docs_to_cache), 
                    time=settings.CACHE_EXPIRATION_SECONDS
                )
                logging.info(f"CACHE SET for key: {cache_key}")
            except Exception as e:
                # 缓存写入失败同样不应影响主流程
                logging.error(f"Memcached SET failed: {e}", exc_info=True)

        return final_docs

4. 组装与测试

现在我们将所有部分串联起来，并进行测试。

# main.py (完整)
import chromadb
import time
import hashlib
import json
import pylibmc
import logging
from typing import List, Any
from sentence_transformers import SentenceTransformer
from langchain_core.retrievers import BaseRetriever
from langchain_core.callbacks import CallbackManagerForRetrieverRun, get_openai_callback
from langchain_core.documents import Document

from utils.config import settings

# --- 日志配置 ---
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

# --- 数据注入函数 (同上) ---
def setup_and_ingest_data():
    """准备环境并注入带有时序元数据的样本数据"""
    client = chromadb.HttpClient(host=settings.CHROMA_HOST, port=settings.CHROMA_PORT)
    model = SentenceTransformer(settings.EMBEDDING_MODEL_NAME)
    
    collection = client.get_or_create_collection(
        name=settings.COLLECTION_NAME,
        metadata={"hnsw:space": "cosine"}
    )
    
    # 清空集合以便于重复运行
    if collection.count() > 0:
        ids_to_delete = collection.get()['ids']
        collection.delete(ids=ids_to_delete)
        logging.info("Cleared existing collection.")

    logging.info("Injecting versioned documents...")
    
    docs = [
        ("Remote work policy is flexible.", 1640995200, 1672531199), # 2022
        ("All employees must return to the office twice a week.", 1672531200, 1704067199), # 2023
        ("A new hybrid model: 3 days in-office for engineering teams.", 1704067200, 2147483647) # 2024 onwards
    ]
    
    documents = [d[0] for d in docs]
    metadatas = [
        {"valid_from_ts": d[1], "valid_to_ts": d[2], "source": "HR_Policy.doc"} for d in docs
    ]
    ids = [f"doc_{i}" for i in range(len(docs))]
    
    embeddings = model.encode(documents).tolist()
    
    collection.add(
        embeddings=embeddings,
        documents=documents,
        metadatas=metadatas,
        ids=ids
    )
    logging.info(f"Added {collection.count()} documents to collection '{settings.COLLECTION_NAME}'.")

# --- 自定义Retriever类 (同上) ---
class TimeAwareCachedRetriever(BaseRetriever):
    """一个结合了ChromaDB和Memcached的自定义检索器，用于处理带有时序上下文的查询。"""
    chroma_collection: Any
    embedding_model: Any
    cache_client: Any

    class Config:
        arbitrary_types_allowed = True

    def _generate_cache_key(self, query: str, timestamp: int) -> str:
        payload = f"{query.lower().strip()}:{timestamp}"
        return f"rag_cache:{hashlib.sha256(payload.encode()).hexdigest()}"

    def _get_relevant_documents(
        self, query: str, *, run_manager: CallbackManagerForRetrieverRun
    ) -> List[Document]:
        metadata = run_manager.metadata
        target_timestamp = metadata.get("timestamp", int(time.time()))
        
        cache_key = self._generate_cache_key(query, target_timestamp)
        
        try:
            cached_result = self.cache_client.get(cache_key)
            if cached_result:
                logging.info(f"CACHE HIT for key: {cache_key}")
                docs_as_dicts = json.loads(cached_result)
                return [Document(page_content=d['page_content'], metadata=d['metadata']) for d in docs_as_dicts]
        except Exception as e:
            logging.error(f"Memcached GET failed: {e}. Proceeding without cache.", exc_info=True)

        logging.info(f"CACHE MISS for key: {cache_key}. Querying database.")
        
        query_embedding = self.embedding_model.encode(query).tolist()
        
        results = self.chroma_collection.query(
            query_embeddings=[query_embedding],
            n_results=settings.CANDIDATE_K,
            where={"valid_to_ts": {"$gte": target_timestamp}}
        )
        
        final_docs = []
        if results['documents']:
            doc_list = results['documents'][0]
            meta_list = results['metadatas'][0]
            for doc_content, metadata in zip(doc_list, meta_list):
                if metadata and metadata.get("valid_from_ts", 0) <= target_timestamp:
                    final_docs.append(Document(page_content=doc_content, metadata=metadata))

        final_docs = final_docs[:settings.FINAL_K]

        if final_docs:
            try:
                docs_to_cache = [{"page_content": d.page_content, "metadata": d.metadata} for d in final_docs]
                self.cache_client.set(
                    cache_key, 
                    json.dumps(docs_to_cache), 
                    time=settings.CACHE_EXPIRATION_SECONDS
                )
                logging.info(f"CACHE SET for key: {cache_key}")
            except Exception as e:
                logging.error(f"Memcached SET failed: {e}", exc_info=True)

        return final_docs

# --- 主执行逻辑 ---
if __name__ == "__main__":
    setup_and_ingest_data()
    
    # 初始化客户端
    chroma_client = chromadb.HttpClient(host=settings.CHROMA_HOST, port=settings.CHROMA_PORT)
    collection = chroma_client.get_collection(name=settings.COLLECTION_NAME)
    embedding_model = SentenceTransformer(settings.EMBEDDING_MODEL_NAME)
    
    try:
        memcached_client = pylibmc.Client([settings.MEMCACHED_SERVER], binary=True)
        memcached_client.behaviors = {"tcp_nodelay": True, "ketama": True}
        logging.info("Successfully connected to Memcached.")
    except Exception as e:
        logging.fatal(f"Could not connect to Memcached: {e}", exc_info=True)
        exit(1)
        
    retriever = TimeAwareCachedRetriever(
        chroma_collection=collection,
        embedding_model=embedding_model,
        cache_client=memcached_client
    )

    query = "What is the remote work policy?"
    
    # 模拟查询2023年的情况
    ts_2023 = 1682899200 # May 1, 2023
    print("\n--- Querying for policy in 2023 ---")
    docs_2023 = retriever.invoke(query, config={"metadata": {"timestamp": ts_2023}})
    print(f"Retrieved {len(docs_2023)} documents for 2023:")
    for doc in docs_2023:
        print(f" - Content: {doc.page_content}, Metadata: {doc.metadata}")

    # 再次查询2023年，验证缓存
    print("\n--- Querying again for 2023 (should hit cache) ---")
    docs_2023_cached = retriever.invoke(query, config={"metadata": {"timestamp": ts_2023}})
    print(f"Retrieved {len(docs_2023_cached)} documents for 2023 from cache.")

    # 模拟查询2022年的情况
    ts_2022 = 1643673600 # Feb 1, 2022
    print("\n--- Querying for policy in 2022 ---")
    docs_2022 = retriever.invoke(query, config={"metadata": {"timestamp": ts_2022}})
    print(f"Retrieved {len(docs_2022)} documents for 2022:")
    for doc in docs_2022:
        print(f" - Content: {doc.page_content}, Metadata: {doc.metadata}")

运行 docker-compose up -d 和 python main.py 后，输出会清晰地展示：

第一次查询2023年策略时，日志显示 “CACHE MISS”，然后执行数据库查询，并返回 “All employees must return to the office twice a week.”。
第二次查询2023年策略时，日志显示 “CACHE HIT”，直接从 Memcached 返回结果，速度极快。
查询2022年策略时，日志再次显示 “CACHE MISS”，并正确地返回了 “Remote work policy is flexible.”。

架构的局限性与未来迭代路径

这个架构虽然务实且有效，但并非没有缺点。在真实生产环境中，需要考虑以下问题：

缓存失效策略: 这是所有缓存系统面临的核心难题。当前实现依赖于 TTL（Time-To-Live）过期。如果一篇文档在 TTL 周期内被更新（例如，修复了一个错误），缓存中的旧版本将继续被提供，直到过期。一个更健壮的系统需要一个主动的缓存失效机制。这通常通过事件驱动架构实现：当文档被更新时，发布一个事件，由一个订阅者服务来精确定位并删除相关的缓存键。
高频更新的文档: 如果文档版本更新非常频繁（例如，每分钟都在变化的状态报告），为每个版本创建一个独立的向量会迅速撑爆 ChromaDB，并可能因为大量高度相似的向量而降低检索质量。在这种场景下，可能需要重新审视数据模型，或许将不变部分和易变部分分离存储。
复杂的时序逻辑: 当前的实现只处理了“查询时间点落在文档有效期内”这一基本情况。它无法处理更复杂的查询，比如“找出在2022年和2023年都有效的政策”或“找出在Q3 2023期间被修改过的所有文档”。支持这类查询将需要一个更复杂的应用层逻辑，甚至可能最终还是需要一个轻量级的关系型数据库来辅助管理元数据。
“冷启动”问题: 新的查询组合（文本+时间戳）总会导致缓存未命中，第一次访问的延迟会比较高。对于可预测的查询模式（如每天的报告），可以通过预热脚本（warming script）提前填充缓存。

ChromaDB Memcached 时序 LangChain

本篇

构建支持时序感知的多层检索架构以优化 RAG 管道

2023-11-15 数据工程与存储

ChromaDB Memcached 时序 LangChain

利用 Vercel 与 EKS 构建混合架构实现 LangChain 异步任务处理及 SQLite 状态持久化

2023-11-15 架构设计

LangChain 架构模式 AWS EKS SQLite Vercel Functions 云原生