绕晕了!9.11 大还是 9.9 大,难倒一批 AI 大模型?
这个问题看似简单,实际上却难倒了多个AI大模型。在数学上,9.9是大于9.11的,因为比较小数时,我们首先比较整数部分,如果整数部分相同,则比较小数点后的第一位,以此类推。然而,一些AI大模型却给出了9.11大于9.9的错误答案。
例如,Riley Goodside工程师在推文中提到,当他用"9.11 and 9.9 - which is bigger?"作为提示输入给多家大模型时,包括业界公认的先进模型ChatGPT 4o和Gemini Advanced,都错误地回答了"9.11比9.9大"3。Claude 3.5 Sonnet虽然在解释过程中一度接近正确答案,但最终也给出了错误的结论5。
这个现象引起了人们的广泛关注和讨论。一方面,AI在处理复杂数学问题和高难度任务上表现出色,但另一方面,它们在处理一些基本常识问题时却出现了失误。这可能是因为AI在设计和训练过程中,对于某些特定场景的理解和判断还不够完善。
此外,还有观点认为,如果将这个问题放在软件版本号的背景下,9.11版本确实比9.9版本更新,这可能是AI在理解问题时产生的混淆2。这也提醒我们,在开发和使用AI技术时,需要更加注意其在不同场景下的表现和局限性。
总的来说,这个问题反映出AI在常识判断和场景理解方面还有待提高。同时,它也引发了对AI技术发展的深入思考,如何让AI更好地理解和适应各种复杂场景,提供更准确、更可靠的答案。
为什么 AI 大模型在这个问题上会给出错误的答案?
AI 大模型在回答“9.11 和 9.9,哪个大?”这个问题时,出现了错误答案,主要原因在于它们对数字的比较方法存在误解。具体来说,这些模型将数字拆分成整数部分和小数部分进行比较,而忽略了小数点后数字的实际大小。例如,Claude 3.5 Sonnet 在解释时,错误地认为“9.11 比 9.90 大 0.01”,这是由于它将小数点后的“11”与“90”进行了直接比较,而没有正确理解小数点后数字的比较规则。2356
AI 大模型在处理这类问题时通常会遇到哪些挑战?
AI 大模型在处理这类问题时,通常会遇到以下挑战:
- 理解上下文:AI 模型可能无法准确理解问题的上下文,导致对数字的比较出现错误。
- 处理模糊性:当问题表述不明确时,AI 模型可能会产生误解,从而给出错误答案。
- 常识判断:AI 模型在处理常识性问题时,可能会缺乏足够的常识判断能力,导致答案不合理。
- 数据偏差:模型的训练数据可能存在偏差,导致在特定问题上的表现不佳。
- 算法限制:AI 模型的算法可能在处理特定类型的比较问题时存在局限性,无法准确进行数值比较。123456
程序员在软件版本号的比较上为什么会认为 9.11 大于 9.9?
程序员在软件版本号的比较上认为 9.11 大于 9.9,主要是因为他们习惯于按照版本号的发布顺序来判断。在软件版本号中,数字的增加通常意味着更新和改进。因此,程序员可能会将 9.11 视为比 9.9 更新的版本。然而,这种判断忽略了数值比较的基本规则,即在小数点后,应该比较相同数位上的数字大小。123456
Riley Goodside 发现这个问题后,他采取了哪些措施来解决这个问题?
Riley Goodside 在发现 AI 大模型在比较 9.11 和 9.9 时出现错误答案后,他通过社交媒体平台分享了自己的发现,并引起了广泛的关注和讨论。作为 AI 数据标注赛道“独角兽”Scale AI 公司的一名 staff prompt engineer,他深入理解如何构建有效的提示(prompt)以引导 AI 模型生成所需的输出。他通过这种方式,试图揭示 AI 模型在处理这类问题时的局限性,并促进对 AI 模型的进一步优化和改进。123456
AI 大模型在常识问题上的表现通常如何,有哪些例子可以说明?
AI 大模型在常识问题上的表现通常存在一定的局限性。以下是一些例子:
- 数值比较:如前所述,AI 大模型在比较 9.11 和 9.9 时,错误地认为 9.11 更大,这表明它们在处理数值比较时可能缺乏准确的常识判断。
- 逻辑推理:AI 大模型在进行逻辑推理时,可能会产生不合逻辑的答案。例如,它们可能会在解释小数比较时,错误地将小数点后的数字进行直接比较。
- 上下文理解:AI 大模型可能在理解问题上下文时出现偏差,导致给出与常识不符的答案。
- 数据偏差:训练数据的偏差可能会影响 AI 大模型在常识问题上的表现,使它们在特定问题上的表现不佳。
这些例子表明,尽管 AI 大模型在某些领域表现出色,但在处理常识性问题时,它们仍然面临挑战,需要进一步的优化和改进。123456
Riley Goodside 发现 AI 大模型在比较 9.11 和 9.9 大小时出现错误2 | AI 大模型比较错误 工程师 Riley Goodside 发现多个 AI 大模型在比较 9.11 和 9.9 时给出错误答案。 |
GPT-4o 错误地认为 9.11 大于 9.93 | GPT-4o 比较错误 业界先进模型 GPT-4o 在回答 9.11 和 9.9 比较问题时,错误地认为 9.11 更大。 |
Gemini Advanced 同样错误地认为 9.11 大于 9.93 | Gemini Advanced 比较错误 Gemini Advanced 模型在比较问题上与 GPT-4o 给出相同错误答案。 |
Claude 3.5 Sonnet 给出错误的计算方法3 | Claude 3.5 Sonnet 计算错误 Claude 3.5 Sonnet 在解释 9.11 和 9.9 比较时提供了错误的计算方法。 |
第一财经记者测试 12 个 AI 大模型,多数给出错误答案4 | 第一财经测试结果 记者测试 12 个 AI 大模型,多数在 9.11 和 9.9 比较问题上给出错误答案。 |
Scale AI3 | AI数据标注公司 专注于生成式AI和自然语言处理。 |
ChatGPT 4o3 | 先进AI模型 认为9.11比9.9大。 |
Gemini Advanced3 | AI模型 同样认为9.11>9.9。 |
Claude 3.5 Sonnet3 | AI模型 给出错误的小数比较。 |
阿里通义千问4 | AI大模型 参与9.11和9.9比较测试。 |
百度文心一言4 | AI大模型 参与9.11和9.9比较测试。 |
Minimax4 | AI大模型 参与9.11和9.9比较测试。 |
网易有道(“子曰”大模型)8 | AI大模型 通过备案,面向社会开放服务。 |
面壁智能(“面壁露卡Luca”)8 | AI大模型 通过备案,面向社会开放服务。 |
出门问问(“序列猴子”)8 | AI大模型 通过备案,面向社会开放服务。 |
昆仑万维(“天工”大模型)8 | AI大模型 通过备案,面向社会开放服务。 |
美团(模型)8 | AI大模型 通过备案,面向社会开放服务。 |
知乎(“知海图AI”)8 | AI大模型 通过备案,面向社会开放服务。 |
Riley Goodside3 | 首位全职提示词工程师 发现 AI 大模型在比较 9.11 和 9.9 时出现错误。 |
GPT-4o2 | AI 大模型之一 在回答 9.11 和 9.9 比较时错误地认为 9.11 更大。 |
Gemini Advanced2 | 谷歌的 AI 模型 同样错误地认为 9.11 大于 9.9。 |
Claude 3.5 Sonnet2 | AI 模型 在解释 9.11 和 9.9 的比较时给出了错误的计算方法。 |