找回密码
 立即注册
搜索
日产 讴歌 福特 极氪 林肯 阿尔法 保时捷 奔腾 长城 东风 哈弗 Jeep 捷途 岚图 理想 兰博基尼 名爵 马自达 玛莎拉蒂 欧拉 奇瑞 smart 沙龙 坦克 特斯拉 蔚来 沃尔沃 小鹏 雪佛兰 高合 奥迪 丰田 本田 雷克萨斯 英菲尼迪 捷达 捷豹路虎 阿斯顿 马丁 罗密欧 标致 宾利 长安 法拉利 红旗 几何 凯迪拉克 领克 劳斯莱斯 路特斯 MINI 迈凯伦 哪吒 起亚 荣威 三菱 斯巴鲁 腾势 魏牌 五菱 现代 雪铁龙 宝骏 大众 宝马 比亚迪

马斯克新发布的“全球最强模型”Grok 4含金量如何?

[XinWen.Mobi 原创复制链接分享]
xinwen.mobi 发表于 2025-7-11 10:33:23 | 显示全部楼层 |阅读模式
北京时间7月10日,马斯克携xAI团队发布了Grok 4。从官方数据和发布会展示来看,Grok 4在性能表现、技术创新等方面具有较高的含金量,不过也存在一些有待观察之处。具体如下:出色的基准测试成绩:Grok 4在多项基准测试中表现优异,超越了众多现有顶尖模型。在被称为“人类最终测试”的HLE测试中,Grok 4纯文本模式下准确率达26.9%,启用工具后升至41.0%,Grok 4 Heavy在“重思考”模式下更是达到58.3%,远超此前其他模型15%-25%的得分区间。在ARC-AGI-2抽象推理挑战赛中,Grok 4以15.9%的得分创下新纪录,几乎是之前商业模型最高纪录的两倍。此外,Grok 4 Heavy在美国数学邀请赛AIME 25上更是取得了满分,在GPQA研究生水平问答中,以88.9%的正确率领先对手。创新的多智能体协作机制:Grok 4 Heavy采用了多智能体协同机制,面对复杂问题时,系统会自动分裂出5-8个独立智能体。各智能体从不同视角独立推导,通过“思维链共享”深度交换推理路径,最后整合最优解法并补充验证,这种模式类似学术研讨会的AI版,能更高效地解决复杂问题。独特的价值观导向:Grok 4秉持“最大化寻求真相”的使命,面对如“堕胎合法化争议”等敏感问题,会同时呈现法律条文、伦理哲学、社会数据三方论证,推理过程附带“信源溯源”标签,当结论存在不确定性时,会明确标注,避免陷入单一叙事陷阱和给出模板化回答。强大的算力支撑:Grok 4的训练是在拥有超过20万张H100 GPU的超级计算机集群上完成的,相比Grok 2,其训练量提升了100倍,且xAI将更多算力投入到推理能力的专项训练上,为其强大性能提供了坚实的算力基础。广泛的应用潜力:在发布会现场演示中,Grok 4展现了在多个领域的应用能力,如生成黑洞碰撞动画、4小时完成游戏开发、优化商业决策模拟、助力生物医药研发以及生成法律文书等,显示出其在科学研究、游戏开发、商业运营等众多领域的应用潜力。不过,Grok 4也并非完美无缺。在发布直播中,其语音功能虽有升级,但也出现了要求唱歌却进入“念诗”状态的小失误,暴露出多模态理解可能存在不稳定的情况。而且,发布当天xAI首席科学家宣布离职,这或许会对Grok 4后续的发展和优化产生一定影响,其实际应用效果和长期发展仍有待进一步观察。
回复

使用道具 举报

QQ|标签|爬虫xml|爬虫txt|新闻魔笔科技XinWen.MoBi - 海量语音新闻! ( 粤ICP备2024355322号-1|粤公网安备44090202001230号 )

GMT+8, 2025-10-29 01:11 , Processed in 0.155214 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

消息来源网络

快速回复 返回顶部 返回列表