苹果研究揭露顶级AI模型基础数学推理全面崩盘
苹果研究团队修改GSM8K数学基准,仅添加一句无关句子后,GPT-4o、o1等25款顶尖AI模型准确率大幅下滑(如GPT-4o跌至63.1%)。论文证明当前大模型依赖模式匹配而非真正逻辑推理,引发AI可靠性全球大讨论。
继续阅读苹果研究团队修改GSM8K数学基准,仅添加一句无关句子后,GPT-4o、o1等25款顶尖AI模型准确率大幅下滑(如GPT-4o跌至63.1%)。论文证明当前大模型依赖模式匹配而非真正逻辑推理,引发AI可靠性全球大讨论。
继续阅读