卡兹克团队跑了大模型的高考数学测试 结果豆包和星火第一。 qwen3 也不错 而垫底的小虎需要加加油了… #ai #大模型高考 #大模型 #人工智障与人工智能豆包包逗豆包模型什么能力大家DDDD
民间答案都参差不齐而且不必定有过程
的确 ,更别说还能搜索答案了
[g=bangbangtang] 豆包实则挺靠谱的
[g=fendou][g=fendou] 正确答案也是民间版吧,高考是个热点,能确定没有在他们测试前大模型们就把最新高考题训练好了吗,或者把民间版答案收入数据库了吗?
o3有博主测出来满分,有视频,可信度还蛮高的
我关注的是对教育体系的冲击
[g=jingxi] 千问一直猛
肯定不稳定啊同样提示词出来的答案都不必定一样,何况不同人不同提示词测试
这段时间够更新模型了所以测试还是得拿权重在此之前发布的,所以我比较信任qwen3
感觉最好用自己部署的模型,不然很容易作弊
感觉前三里只有千问3是真实实力…
人类真的危险了
o3排第七吗,很难信任
真的难绷,多模态模型和纯文本模型放在一起比较。。。
冲击啥啊,ai能做出来,不代表考生能在考场上做出来。