这个大模型高考测试结果,还真是没想到

14小时前发布
0 15 0

这个大模型高考测试结果,还真是没想到卡兹克团队跑了大模型的高考数学测试
结果豆包和星火第一。
qwen3 也不错
而垫底的小虎需要加加油了…

#ai #大模型高考 #大模型 #人工智障与人工智能

豆包包逗豆包模型什么能力大家DDDD

© 版权声明

相关文章

没有相关内容!

15 条评论

  • 头像
    德扑圈 读者

    民间答案都参差不齐而且不必定有过程

    无记录
    回复
  • 头像
    十八罗 读者

    的确 ,更别说还能搜索答案了

    无记录
    回复
  • 头像
    不易青年 读者

    [g=bangbangtang] 豆包实则挺靠谱的

    无记录
    回复
  • 头像
    清梓桐 读者

    [g=fendou][g=fendou] 正确答案也是民间版吧,高考是个热点,能确定没有在他们测试前大模型们就把最新高考题训练好了吗,或者把民间版答案收入数据库了吗?

    无记录
    回复
  • 头像
    范吸吸 投稿者

    o3有博主测出来满分,有视频,可信度还蛮高的

    无记录
    回复
  • 头像
    高升伴车安抵押车屏蔽器 读者

    我关注的是对教育体系的冲击

    无记录
    回复
  • 头像
    你说的铁柱儿 读者

    [g=jingxi] 千问一直猛

    无记录
    回复
  • 头像
    回眸秋波风尘 读者

    肯定不稳定啊同样提示词出来的答案都不必定一样,何况不同人不同提示词测试

    无记录
    回复
  • 头像
    梦V鱼BL 投稿者

    这段时间够更新模型了所以测试还是得拿权重在此之前发布的,所以我比较信任qwen3

    无记录
    回复
  • 头像
    暗区突围 投稿者

    感觉最好用自己部署的模型,不然很容易作弊

    无记录
    回复
  • 头像
    鑫鑫淼淼多多多 投稿者

    感觉前三里只有千问3是真实实力…

    无记录
    回复
  • 头像
    小蕾蕾 读者

    人类真的危险了

    无记录
    回复
  • 头像
    花花猫小妹 读者

    o3排第七吗,很难信任

    无记录
    回复
  • 头像
    五边吾记 读者

    真的难绷,多模态模型和纯文本模型放在一起比较。。。

    无记录
    回复
  • 头像
    海棠 读者

    冲击啥啊,ai能做出来,不代表考生能在考场上做出来。

    无记录
    回复