ax@ax-radar:~/all $ grep -v 'tier=excluded' stream.log
44 srcsignal 72%cycle 04:32

全部 · 2026-04-27

3 items · updated 3m ago
RSS live
2026-04-27 · 星期一2026年4月27日
04:00
12h ago
arXiv · cs.LG· atomEN04:00 · 04·27
Contrastive Semantic Projection:用对比样本做可信神经元标注
Oussama Bouanani 等5名作者提交 CSP,用对比样本改进神经元文本标注。方法分两步:VLM 生成候选标签,CLIP 类编码器打分选择;实验含黑色素瘤检测案例。正文未披露具体数据集数量和开源代码。
#Vision#Multimodal#Interpretability#Oussama Bouanani
精选理由
HKR-K 命中:CSP 给出 VLM 产标签、CLIP 类编码器打分的两步方案。HKR-H 偏弱,正文未披露数据集数量、开源代码或显著指标,只能放在 60–71 档。
编辑点评
CSP抓住了神经元标注的老毛病:只看高激活样本,解释很容易被背景骗。
深度解读
CSP 用对比样本给神经元生成标签,流程含 VLM 候选与 CLIP 打分。我的判断很直接:这篇不是在炫一个新解释框架,而是在修一个老问题。只拿最高激活图像让模型起名,听起来直观,实际很脏。一个神经元对“黑色圆斑”高激活,样本里又常有皮肤纹理、相机光照、标尺边缘,VLM 很容易把共现物当成语义。CSP 把低激活但语义接近的图像放进来,逼标签解释“为什么这张有、那张没有”。这个约束朴素,但对 neuron labeling 很管用。 正文披露了两个阶段。第一步用 VLM 生成候选标签。第二步用 CLIP 类编码器做评分选择。它还说 CSP 扩展了 SemanticLens,把对比样本放进 CLIP 打分管线。这个设计我比较买账,因为它没有指望 VLM 一次性说真话。VLM 负责提出文本假设,CLIP 负责把假设投回视觉空间。对比样本在这里像一个负例锚点,能压掉“看起来相关但不区分激活”的标签。文章声称实验覆盖 extensive experiments,并含黑色素瘤检测案例。摘要没有给数据集数量、模型规模、指标表、代码地址。这个缺口很大,尤其是 interpretability 论文。没有复现实验设置,faithfulness 很容易变成作者定义的分数。 这里的外部参照很清楚。OpenAI Microscope 那一代可视化工作,主要靠 activation maximization 和 top activating examples。后来 Network Dissection 把单元对齐到 Broden 这类概念库,优点是可量化,缺点是词表太硬。CLIP-Dissect 之后,大家开始用 CLIP 文本空间给神经元贴自然语言标签,覆盖面大了,幻觉也跟着进来。FALCON 已经把 contrastive examples 用在解释里,但摘要说它偏 subspace-level。CSP 把这个思想推回单神经元层级,工程味更重,也更接近调试需求。做模型诊断的人不需要一句漂亮解释,需要知道这个单元到底抓病灶边缘、色素网络,还是抓拍摄伪影。 黑色素瘤案例是这篇最该被认真看的部分。医学图像里的捷径学习不是理论风险。皮肤镜数据里常见毛发、标尺、黑框、医院设备差异,模型会把这些当成诊断线索。若 CSP 能把某个神经元标成“标尺边缘”而不是“病灶不规则边界”,那价值很硬。可摘要没有说使用哪个 melanoma 数据集,也没说是否跨医院验证。ISIC 系列数据集多年被拿来做皮肤病变分类,但数据清洗、重复患者、设备偏差一直麻烦。我没查到这篇 PDF 的表格细节,单看 arXiv 页面,不能确认它有没有挡住这些坑。 我对这篇的疑虑也在这里。对比样本不是免费午餐。你说“语义相似但低激活”,这个集合怎么构造?若靠最近邻,CLIP 嵌入会带入自己的偏差。若靠人工挑选,规模化会断。若靠 VLM 生成描述再筛图,标签生成和标签评估就会共享同一套语义偏见。文章摘要没有披露采样规则,也没有给失败案例。对 neuron labeling 来说,失败案例比平均分更有信息。一个方法在狗、车、纹理上变细腻,不代表它在医学伪影上可靠。 还有一个更现实的问题:CLIP 类编码器本身不是中立裁判。CLIP 对自然图像和互联网文本很强,对病理、皮肤镜、卫星图、工业缺陷这些 domain shift 场景会掉。CSP 如果用通用 CLIP 去评价 melanoma 标签,它可能把视觉相似性和医学语义混在一起。更稳的做法应该报告两套结果:通用 CLIP 与领域编码器。摘要没披露这点。若论文只在通用 CLIP 上跑,那医学案例的说服力要打折。 我还是喜欢这个方向。原因不是它看起来新,而是它把解释任务从“描述激活样本”改成了“区分激活条件”。这更贴近因果诊断。解释神经元时,负例常常比正例更值钱。只要 CSP 开源代码,并给出对比样本选择策略、人工评估协议、跨模型结果,它就能成为很多 interpretability pipeline 的小模块。若没有这些,它会停在一篇好摘要上。对从业者而言,先别把它当可靠审计工具;更适合拿来做模型调试时的候选标签过滤器。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H0·K1·R1
04:00
12h ago
arXiv · cs.LG· atomEN04:00 · 04·27
多智能体人类轨迹预测最新进展综述
arXiv 收录一篇 40 页综述,覆盖 2020—2025 年多智能体人类轨迹预测研究。论文按架构设计、输入表示和预测策略分类,重点梳理 ETH/UCY benchmark 上评测的模型。对机器人导航、自动驾驶和人群建模从业者,真正值得盯的是交互建模与评测协议差异。
#Agent#Robotics#Benchmarking#Céline Finet
精选理由
HKR-K 成立:这是一篇可作入口的轨迹预测综述,给出时间范围、分类轴和 ETH/UCY 评测线索。HKR-H/R 偏弱,题目常规且受众较窄,放在 60–71 的 interesting 档。
编辑点评
40 页综述把 2020—2025 HTP 拉齐;别把 ETH/UCY 排名当部署答案,机器人会在长尾交互里翻车。
深度解读
Finet 等人把 2020—2025 年多智能体人类轨迹预测写成 40 页综述。我的判断很简单:这类综述对做机器人导航的人有用,但它更像一张坑位图,不像一张路线图。HTP 这几年论文很多,模型名也很热闹,图神经网络、Transformer、扩散模型、社会交互建模都轮过一遍。可一落到 ETH/UCY,问题就老了:小数据集、固定评测协议、短时预测窗口、离线指标好看,部署环境未必买账。 正文披露的信息有限。arXiv 页面只给了题目、作者、40 页长度、2020—2025 覆盖范围,以及按架构设计、输入表示、预测策略分类。它强调 ETH/UCY benchmark,但没有在页面里列 ADE、FDE、NLL、碰撞率、miss rate 等具体表格。标题已给出“comprehensive review”,正文未披露每类模型的胜负细节。这个信息缺口很关键,因为 HTP 的争议从来不只是模型结构,而是评测口径。 我一直觉得 ETH/UCY 在这个领域有点像早年的 GLUE。它能让大家有共同语言,也会把研究者带向局部最优。ETH/UCY 常用 8 帧观测、12 帧预测,很多论文按 2.5 秒输入、4.8 秒输出设定跑 ADE/FDE。这个协议适合比较论文,不适合回答机器人怎么穿过拥挤大厅。真实机器人要关心反应时间、传感器遮挡、社会规范、agent 互相让行、规划器重新采样频率。ADE 低 5 厘米,碰撞率高 2 个点,现场工程师会选后者更低的模型。 外部看,自动驾驶轨迹预测已经比行人 HTP 更早吃过这个亏。Waymo Open Motion Dataset、Argoverse 2、nuScenes prediction 这些 benchmark 后来都把多模态、地图约束、交互场景做得更重。行业也从单一 minADE/minFDE 走向 miss rate、mAP-style ranking、scene-level consistency。行人 HTP 如果还主要围着 ETH/UCY 打榜,研究价值有,工程外推会很脆。尤其社交机器人和室内导航没有高精地图兜底,人的微小动作意图比车道拓扑更难建模。 这篇综述把方法按架构、输入、策略拆开,我觉得方向是对的。架构维度能看出 GNN、RNN、Transformer、扩散模型各自怎么编码交互。输入表示能逼大家说清楚,到底用了历史轨迹、场景语义、相对距离、朝向、群体关系,还是只喂 xy 坐标。预测策略也很要命:单峰回归在真实交互里经常过度平均,多模态采样又容易生成“看起来合理但规划器不能用”的轨迹。扩散类方法在 2023 年后很吃香,但采样成本和可控性对机器人闭环不友好。正文页面没有说明它怎么评价这些 trade-off,我不会先给高分。 我对“multi-agent interactions lies within hand’s reach”这种摘要口径有点警觉。交互不是把邻居轨迹塞进 attention 就完事。Social-LSTM 早在 2016 年就把 social pooling 讲清楚了,Social-GAN 也把多模态生成带进来。2020 之后的模型确实强了,尤其是图结构和 Transformer 的组合更会吃局部关系。但从论文指标到“理解人类互动”,中间差一个因果层和一个闭环层。一个模型预测某人左转,不等于它知道自己机器人减速后对方会改道。 给从业者的读法是:把这篇当索引,不要当结论。先看它是否区分 deterministic 与 stochastic 方法,再看是否单独处理 interaction module。再查它有没有标注训练数据、观测长度、预测长度、best-of-K 采样次数。best-of-20 和 best-of-1 放在同一张表里,很多排名就没意思。正文页面没披露这些细节,所以我只能说它有潜在价值,不能说它已经解决可比性问题。 有意思的地方在机器人导航。LLM agent 这两年把“agent”这个词喊得太满,但移动机器人里的 agent 约束更硬。一个轨迹预测模块延迟 100 毫秒,规划器就要改频率。一个预测分布没有校准,机器人就会在狭窄通道里显得冒失。多智能体 HTP 的下一步不是再堆一个 Transformer block,而是把预测不确定性接进 MPC、ORCA、采样式规划,最后用真实人群测试碰撞率和通行效率。论文综述能把 2020—2025 的方法排好队,已经够用;别期待它替你决定线上栈。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H0·K1·R0

更多

频道

后台