● P1最佳拍档· atomZH09:01 · 04·10
Sakana AI 开源 Shinka Evolve:让大模型自己写程序进化,用更少样本跑赢 AlphaEvolve
Sakana AI 开源了一个叫 Shinka Evolve 的框架,核心思路是让大语言模型像进化算法一样自己改代码、写新程序,不断迭代出更强的解法。它主要想解决谷歌 DeepMind 之前 AlphaEvolve 的一个痛点:太费资源,动不动就要评估上千个程序。Shinka Evolve 在经典的圆堆积问题上,用少得多的评估次数就超过了 AlphaE...
#Agent#Code#Benchmarking#Sakana AI
精选理由
这篇值得 featured,但不到 P1。钩子清楚——用更少评估超越 AlphaEvolve,机制也讲得明白,比如用 UCB 老虎机在 GPT-5、Claude Sonnet 4.5、Gemini 之间动态选模,还加了程序交叉和全文件重写。对做 agent 的人来说,评估贵、任务设计和硬验证一直是头疼的事,文章直接点出系统仍需人类给题、自动发明问题和严格验证没解决,这点很实在。我会先打个折:关键指标、成本和主发布链接都没给,所以停在 80 分。
一句话点评
Sakana AI 开源了一个叫 Shinka Evolve 的框架,让大模型自己进化出解题程序,样本效率比谷歌的 AlphaEvolve 高很多。但别急着激动,它现在还只能解人类给的老问题,离自己发明新问题还差得远。
锐评
这条消息的核心看点,是日本团队用进化算法让大模型自己写代码、改代码,去解数学题,而且用的样本量比谷歌的方案少得多。在经典的圆堆积问题上,Shinka Evolve 只用了极少的程序评估就超过了 AlphaEvolve 的结果,这直接回应了老方案计算成本太高的痛点。
技术上有几个巧思值得看。它把多个大模型(GPT-5、Sonnet 4.5 等)集成起来,用 UCB 老虎机算法动态选最合适的模型来改代码,避免了单模型一条道走到黑。另外,它不光改代码语法,还会给程序写摘要、提炼洞见,从语义层面理解为什么要这么改,这让变异更有方向。变异操作也多了,除了局部修修补补,还能把两个程序交叉融合,或者干脆重写整个文件,探索空间更大。
不过,正文没披露具体的评估次数和计算成本数字,只说“极少”和“大幅提升”,这点说服力要打个折。最大的限制是,它现在还只能解人类定义好的固定问题,没法自己发明新问题。负责人自己也承认,自动验证能力是核心短板,如果验证不严,系统可能只是找到了评分函数的漏洞,而不是真解决了问题。未来能不能从空程序开始,自己发现问题并解决,是这套思路能不能从玩具问题走向真正科学发现的关键。
HKR 分解
hook ✓knowledge ✓resonance ✓