连 LlamaIndex 都认为 grep 加轻量级语义搜索,就够了
当你面对一个“中等规模”的数据集,比如说 1000 篇 ArXiv 上的 PDF 论文时,我们发现有一个效果出奇好的问答(Q&A)基准方案:给 AI 智能体 (AI Agent) 提供一个命令行界面 (CLI),再配上一些能用静态嵌入 (static embeddings) 进行快速语义搜索 (semantic search) 的小工具。
这些 AI 智能体能回答各种复杂的问题,无论是简单的关键词搜索和筛选,还是需要跨文档进行交叉引用的难题,甚至是要求跨时间线进行分析的任务,它们都能搞定。
在这些场景下,那种标准的、每次只检索固定数量(top-k)文档的检索增强生成 (Retrieval-Augmented Generation, RAG) 方案,效果要差得多。
点击图片查看原图