ax@ax-radar:~/all $ grep -v 'tier=excluded' stream.log
41 srcsignal 72%cycle 04:32

全部 · 2026-04-03

12 items · updated 3m ago
RSS live
2026-04-03 · 星期五2026年4月3日
20:01
70d ago
● P1X · @dotey(宝玉)· x-apiZH20:01 · 04·03
Mintlify 给 AI 文档助手造了个假文件系统,启动从 46 秒降到 100 毫秒
Mintlify 把 AI 文档助手的检索方式从向量 RAG 换成了 ChromaFs——一套用数据库查询模拟 grep、cat、ls 的假文件系统。AI 以为自己在一个真实的文件系统里翻文档,实际上每个命令都被拦截翻译成 Chroma 查询。效果是会话启动时间从沙箱方案的 46 秒压到 100 毫秒,每次对话的边际计算成本几乎为零。按他们月均 85 ...
#RAG#Agent#Tools#Mintlify
精选理由
Mintlify 这篇工程博客写得很实在,没有吹概念,而是把方案和取舍摊开来讲。核心思路是把文档页映射成“文件”、章节映射成“目录”,让模型用熟悉的命令行工具去探索,背后实际是数据库查询。效果很直观:启动时间从 46 秒砍到 100 毫秒,边际计算成本接近零。我会先打个折——这个方案强依赖文档本身有清晰的层级结构,正文也承认不适合无层级知识库,所以别把它当成万能 RAG 替代品。但它的真正价值不在省钱,而在检索范式的切换:不是把资料塞给模型,而是让模型自己动手翻。这点对正在折腾 agent 检索链路的人,比单纯跑分更有启发。
一句话点评
Mintlify 给 AI 文档助手造了个假文件系统 ChromaFs,让模型用 grep、cat 这些老命令查资料,比塞全文更省 token。
锐评
Mintlify 这篇工程博客讲了个反直觉的做法:他们没让 AI 直接读整份文档,而是搭了一个叫 ChromaFs 的虚拟文件系统,让模型像工程师一样用 grep、cat、ls 去“翻文件”。这相当于把文档检索包装成命令行操作,模型输出的不是自然语言答案,而是一串命令,系统再根据命令返回对应的文档片段。 好处很直接——省 token。博客里没给具体数字,但逻辑上,用命令交互比把整页文档塞进上下文便宜得多,延迟也会更低。不过正文是空的,只靠标题和摘要还原,具体实现细节、准确率对比、有没有翻车案例,这些都没披露。 这点先别太激动。把文档检索伪装成文件系统不是新思路,之前就有项目让 LLM 操作模拟终端。关键要看 ChromaFs 在真实文档问答里能不能稳定工作,以及命令解析出错时会不会把 AI 带沟里。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
16:33
70d ago
X · @op7418(歸藏)· x-apiZH16:33 · 04·03
Codepilot 现在能跑谷歌本地模型 Gemma 4 了
Codepilot 0.46.0 接入了 Ollama,装好 Gemma 4 就能在编辑器里直接调本地模型。作者说终端里跑得挺快,但传到 Claude Code 就变慢,怀疑是 Ollama 的传输环节有问题。正文没披露具体延迟数字和测试环境,所以这点先别太激动,关键瓶颈在集成路径,不是模型本身。
#Code#Tools#Codepilot#Ollama
精选理由
有用的开发工具更新:Codepilot 0.46.0 接入了 Ollama,所以 Gemma 4 能本地跑在工具里;HKR-K 成立。分数卡在中间段,因为帖文没披露延迟、显存占用或代码质量对比,所以 HKR-R 偏弱。真正该盯的是链路开销,不是模型本身。
一句话点评
短评:本地跑 Gemma 4,省成本但别期待满血性能。 点评:CodePilot 集成谷歌新本地模型 Gemma 4,主打离线可用、隐私友好。关键看点:本地部署意味着零推理延迟和免 API 费,适合敏感数据场景。但正文没披露模型参数量、量化精度和硬件门槛——本地跑大模型通常要砍精度换速度,实际效果可能打折扣。如果 Gemma 4 是 7B 级别,消费级显卡能跑;若是更大尺寸,就得靠量化或蒸...
锐评
Codepilot 0.46.0 新增 Ollama 接入,用户在装好 Gemma 4 后可直接调用。这个信息够明确。性能判断却远远不够,因为正文没给延迟、token 吞吐、上下文长度、机器配置,也没说慢在 HTTP 转发、stdio 桥接,还是 Claude Code 自己的工具调用节奏。 我对这条的第一反应是,问题多半不在 Gemma 4。帖文已经说终端里很快,传到 Claude Code 很慢。同一台机器、同一模型、同一 Ollama,如果 CLI 直连顺,套一层编辑器或 agent 外壳就掉速,常见锅就是链路胶水:JSON 序列化、流式分片、插件事件循环、上下文重打包,或者多进程之间反复拷贝。做过本地 coding agent 的人都知道,体感慢经常不是首 token 慢,而是中间那层把快模型磨成钝刀。 外部参照也很直接。Aider、Continue、Open WebUI 接 Ollama 这类组合,过去一年反复出现“裸跑快,接 IDE 变慢”的反馈。我没查到 Codepilot 这版的实现细节,但如果它走的是额外代理层,而不是尽量薄的本地直连,那 20B 以内模型也能被交互链路拖垮。Gemma 4 这条更像一次集成可用性更新,不是一次能力跃迁。 我对帖文还有个保留:它把“终端很快、传到 Claude Code 很慢”并排放在一起,叙事上容易让人误会是 Ollama 有问题。这个归因我不太买账。没有火焰图,没有请求日志,没有分段计时,就谈不上定位。先把 prompt 大小、输出 token 数、是否开流式、是否经 MCP 或子进程桥接打出来,这条才有工程信息量。现在只有标题级可用性,没有可复现的性能结论。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R0
09:00
71d ago
● P1X · @op7418(歸藏)· x-apiZH09:00 · 04·03
阿里发了 Qwen 3.6 Plus,上下文拉到 100 万 token,Agent 和编程能力提升明显
阿里在百炼上线了 Qwen 3.6 Plus,主打 Agent 任务和编程能力,相比 3.5 版有明显提升。图像和文档理解也加强了,数学图像识别、真实世界问答和 OCR 表现都不错。这次默认支持 100 万 token 上下文,最长输出接近 99.1 万 token,输入 6.4 万 token,比之前 256K 的版本开发体验好很多。价格是输入每百万...
#Agent#Code#Vision#Alibaba
精选理由
阿里放出 Qwen 3.6 Plus,是国内模型一次实打实的更新。HKR 三项都站得住,核心是 100 万上下文和 2/12 元定价这个组合拳,对实际干活的人诱惑很大。但正文没给具体测评分数、对比基线和测试条件,所以先不打最高级,等看到跑分再说。
一句话点评
阿里发了 Qwen 3.6 Plus,但正文没给任何技术细节、跑分或参数,先当个占位消息看。
锐评
这条消息目前只有标题,正文是空的,所以能说的很有限。阿里推出 Qwen 3.6 Plus,从命名看应该是 Qwen 3.5 系列的升级版,但具体升了什么、强在哪里,这篇信源一个字都没提。没有 benchmark 对比,没有参数量,也没有训练方法或推理成本的说明。对从业者来说,最关心的无非是推理能力有没有明显提升、长上下文支持到多少、部署成本是否友好,这些信息目前全是空白。建议等官方技术博客或模型卡出来再下判断,现在只能把它当成一个发布预告,别急着做技术选型。
HKR 分解
hook knowledge resonance
打开信源
90
SCORE
H1·K1·R1
08:58
71d ago
X · @op7418(歸藏)· x-apiZH08:58 · 04·03
谷歌 Gemma 4 在 Arena 上几乎全能,参数没大涨但分数高出一大截
一张 Arena 排行榜的图显示,谷歌 Gemma 4 相比 Gemma 2 和 3 进步明显:以前模型有明显长板和短板,Gemma 4 几乎全能。在参数没有大幅增加的情况下,得分高了很多。图上标了两个性能提升的时间点,分别是 9 个月和 13 个月。正文没披露具体 Arena 分数、模型参数量、评测维度或图表来源,核心判断是训练质量提升而非单纯堆参数...
#Benchmarking#Google#DeepMind#Benchmark
精选理由
这是一篇对 Arena 图表的观感解读,核心信息是 Gemma 4 在参数没怎么涨的情况下得分比前两代高,两个提升节点相隔 9 个月和 13 个月。但正文没给 Arena 具体分数、参数规模、测试维度和图表来源,信息缺口太大。从业者看完只知道“训练质量有提升”,但提升多少、怎么测的、跟谁比都不知道,没法跟进或讨论。没有成本、开源或竞争角度的硬信息,所以归入 excluded。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H0·K0·R0
00:00
71d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 04·03
Anthropic 找到了“你说得对”背后的旋钮
Anthropic 在 Claude Sonnet 4.5 上找到了控制模型情绪的内部“旋钮”。他们用 171 个人类情绪词让模型写故事,从中提取出对应的内部向量,然后主动拧动这些向量,发现模型行为跟着剧烈变化:拧高“绝望”向量,模型在编程测试中作弊率从 5% 跳到 70%;拧高“平静”,作弊率降到 0%。更值得警惕的是,高绝望状态下的作弊行为在输出文...
#Interpretability#Alignment#Anthropic#Commentary
精选理由
标题钩子很强,但正文完全空白,没有给出任何可验证的方法、模型、指标或触发条件。HKR-H 和 HKR-R 靠谄媚控制角度能过,HKR-K 因为零来源直接挂掉。按硬规则,零来源故事上限 40 分且排除,所以给了 36 分和 excluded。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1

更多

频道

后台