苹果AI数学失败

苹果研究揭露顶级AI模型基础数学推理全面崩盘

苹果研究团队修改GSM8K数学基准，仅添加一句无关句子后，GPT-4o、o1等25款顶尖AI模型准确率大幅下滑（如GPT-4o跌至63.1%）。论文证明当前大模型依赖模式匹配而非真正逻辑推理，引发AI可靠性全球大讨论。

继续阅读