一个生产环境的 RAG (Retrieval-Augmented Generation) 应用,其响应延迟直接决定了用户体验。当用户提交一个查询后,长达数十秒的等待时间是完全不可接受的。问题在于,一个完整的 RAG 流程,包括查询向量化、相
2023-10-27