


已经很强,但知识稳健性、科学问题里的长链条判断、以及“知道自己不知道什么”的能力,还差点火候。再看AI编程。Seed 2.0在Codeforces和LiveCodeBench v6上表现很强,说明算法题和在线编程能力不差。但在SWE-Bench Verified上,它低于Claude Opus 4.5和GPT-5.2。Claude Opus 4.5最高得分80.9%,GPT-5.2 得分80.0%
当前文章:http://www.lianyueke.cn/9fjkzbb/kfzqa1.html
发布时间:05:53:02