FEATUREDAI HOT 精选· aihot-apiZH17:26 · 05·20
Perplexity 上线查询感知压缩,上下文 token 最多砍掉 70% 但回答质量反而更好
Perplexity 把一项叫“查询感知压缩”的技术用到了线上。它能在搜索时把喂给模型的上下文 token 最多减少 70%,同时回答质量还提升了。核心逻辑是“更好的上下文优于更多的上下文”,也就是先理解你问什么,再挑最相关的信息塞进窗口,而不是一股脑全丢进去。正文没披露具体测试基准和压缩方法细节,所以实际效果我会先打个折,但能省下这么多 token ...
#RAG#Inference-opt#Perplexity#Product update
精选理由
我会先打个折:正文只给了一条 X 帖子,没放基准测试和可复现的设置,所以别太激动。但这条信息本身够硬——Perplexity 在生产环境用查询感知压缩,最多砍掉 70% 上下文令牌,同时回答质量还变好了。对搞外挂资料库和搜索优化的从业者来说,这直接关系到省钱和降延迟,值得看一眼。
一句话点评
Perplexity 上线了查询感知压缩,能把塞进模型的上下文 token 砍掉最多 70%,回答质量反而更好。但正文没给测试基准和压缩方法细节,这个数字先别太激动。
锐评
Perplexity 把一项叫“查询感知压缩”的技术推上线了,核心逻辑是先理解你问什么,再挑最相关的信息喂给模型,而不是把搜索结果一股脑全丢进去。官方说这样能把上下文 token 最多减少 70%,同时回答质量还提升了。这个方向本身不新鲜,但能直接用在线上产品里,说明工程上跑通了。
省 token 的好处很直接:推理成本更低、响应更快。70% 这个数字如果稳定,对大规模搜索服务来说确实挺省钱。但正文没披露具体在哪些测试集上验证了质量提升,也没说压缩方法本身会不会引入新的延迟或错误过滤。没有这些信息,很难判断“质量提升”是普遍成立,还是只在特定场景下成立。
另外,压缩策略如果过于激进,可能会丢掉一些看似不相关但实际有用的信息,这点在复杂查询上尤其容易翻车。我会等他们放出更详细的技术说明或第三方评测,再判断这到底是一次扎实的优化,还是主要为了宣传。
HKR 分解
hook ✓knowledge ✓resonance ✓