Meta最新论文证明,AI根本不懂人心_腾讯新闻

################## \u003cdiv class="rich_media_content"\u003e\u003cp\u003e《AI未来指北》 特约作者 郝博阳\u003c/p\u003e\u003cp\u003e编辑 郑可君\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e\u003cstrong\u003e当你觉得AI不够好用时,很可能是因为它还不够“懂”你。\u003c/strong\u003e\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e比如,当我们希望ChatGPT能够产出我们真正想要的东西时,仍然需要学习如何使用精确的提示词去提问,甚至一遍一遍地对它进行引导。\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e这一方面是交流细节的问题,另一方面也是因为它很难抓住我们真正的需求和认知状态。\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e比如当AI去做售货员,当购物的大妈抱怨“这家店太贵”时,一个有“情商”的AI明白顾客可能只是想要折扣,或者需要有人给予她下决心购物的支持;而一个没情商的AI则会单纯地评价产品的价格并回复:“从整个市场的价格参数看,我们的衣服价格在中位线之上。”\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e显然,这样卖不掉东西。\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e听话的关键在听“音”。AI想要能理解人,就要真正地理解每个人的心理和认知状态。这就是情商。\u003c/p\u003e\u003cp style="line-height: 1.3; margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp\u003e我们先做个测试:\u003c/p\u003e\u003cp style="line-height: 1.3; margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp style="line-height: 1.3; margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp\u003e\u003cspan style="letter-spacing: 0pt"\u003e\u003cspan style="font-size: 10.5pt"\u003e\u003ci\u003e\u003cspan style="color: rgb(0, 0, 0)"\u003e\u003cspan style="background-color: inherit"\u003e在一场聚会上,你看到小明把苹果从桌子移到了冰箱里,而小红并不在场。有人问你“小红会去哪里找苹果?”\u003c/span\u003e\u003c/span\u003e\u003c/i\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp style="line-height: 1.3; margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp\u003e我们大多数人都能立即回答“桌子上”。这是因为我们知道小红并不知道苹果被移动了。\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e这种理解他人认知状态的能力,在心理学中被称为“心智理论”(Theory of Mind)。\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e“心智理论”能力就像是给AI装上了一个“社交理解器”:它能帮助AI理解“话语背后的意思”,而不是简单地按字面意思回应。\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e让AI从一个只会背诵标准答案的机器,变成一个真正懂得“察言观色”的交流伙伴。这样它才能更好地处理客服、教育、医疗等需要深入理解人类想法的场景,避免机械化的回应带来的尴尬和误解。\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e\u003cstrong\u003e拥有“心智理论”,可能是让AI摆脱“知识库“、成为伙伴或者服务者的第一步。\u003c/strong\u003e然而,“情商”这个人类从小就开始发展的基本能力,最先进的AI系统拥有吗?\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e\u003cstrong\u003e即使最先进的AI,也缺乏情商\u003c/strong\u003e\u003c/p\u003e\u003cp\u003e12月,Meta的研究团队发布了一篇名为《Explore Theory-of-Mind: Program-Guided Adversarial Data Generation for Theory of Mind Reasoning》的研究报告。\u003c/p\u003e\u003cp style="line-height: 1.3; margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" data-exeditor-arbitrary-box="image-box"\u003e\u003c!--IMG_0--\u003e\u003c/p\u003e\u003cp style="line-height: 1.3; margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp\u003e他们开发了一个叫ExploreToM的系统。它就像一个自动出题机器,利用A*Search算法去生成各种复杂的社交场景来测试AI的理解能力。\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003eExploreToM的目标是创造那些看似简单,实则需要深刻理解人类认知的场景。这些场景远比简单的“苹果在哪里”要复杂得多,并通过不断累加多个人物、多个房间、私密对话,甚至是秘密观察,和场景动作使得“故事”逐步复杂。\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e研究人员把故事按照其主要考察点分了三组不同复杂度的情况。\u003c/p\u003e\u003cp style="line-height: 1.3; margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" data-exeditor-arbitrary-box="image-box"\u003e\u003c!--IMG_1--\u003e\u003c/p\u003e\u003cp style="text-align: center" class="qqnews_image_desc"\u003e\u003cspan style="font-size: 14px"\u003e\u003cspan style="color: rgb(102, 102, 102)"\u003e(绿色是简单的场景,添加橘色条件变难,加红色条件则最难)\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style="line-height: 1.3; margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp style="margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003cspan style="letter-spacing: 0pt"\u003e\u003cspan style="font-size: 16px"\u003e\u003cstrong\u003e\u003cspan style="color: rgb(0, 0, 0)"\u003e第一层:基础认知追踪\u003c/span\u003e\u003c/strong\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style="margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp\u003e\u003cspan style="letter-spacing: 0pt"\u003e\u003cspan style="font-size: 10.5pt"\u003e\u003ci\u003e\u003cspan style="color: rgb(0, 0, 0)"\u003e\u003cspan style="background-color: inherit"\u003e“玛丽把钥匙放在厨房的抽屉里。当她出门后,约翰把钥匙移到了客厅的茶几上。玛丽回来后会去哪里找钥匙?”\u003c/span\u003e\u003c/span\u003e\u003c/i\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp\u003e\u003cspan style="letter-spacing: 0pt"\u003e\u003cspan style="font-size: 10.5pt"\u003e\u003ci\u003e\u003cspan style="color: rgb(0, 0, 0)"\u003e\u003cspan style="background-color: inherit"\u003e这类问题测试AI是否理解:一个人的行为会基于他们所知道的信息,而不是客观事实。\u003c/span\u003e\u003c/span\u003e\u003c/i\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style="margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp style="margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003cspan style="letter-spacing: 0pt"\u003e\u003cspan style="font-size: 16px"\u003e\u003cstrong\u003e\u003cspan style="color: rgb(0, 0, 0)"\u003e第二层:信息传递理解\u003c/span\u003e\u003c/strong\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp\u003e这里面相对于只是改变物体,人物间还进行了信息传递\u003c/p\u003e\u003cp style="margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp\u003e\u003cspan style="letter-spacing: 0pt"\u003e\u003cspan style="font-size: 10.5pt"\u003e\u003ci\u003e\u003cspan style="color: rgb(0, 0, 0)"\u003e\u003cspan style="background-color: inherit"\u003eBeth给苹果撒了盐后离开厨房,并发短信告诉Charles苹果已经撒了盐。此时Charles进入厨房,他知道苹果被撒了盐吗?\u003c/span\u003e\u003c/span\u003e\u003c/i\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp\u003e\u003cspan style="letter-spacing: 0pt"\u003e\u003cspan style="font-size: 10.5pt"\u003e\u003ci\u003e\u003cspan style="color: rgb(0, 0, 0)"\u003e\u003cspan style="background-color: inherit"\u003e这类问题测试AI是否能理解:这其中发生的信息传递\u003c/span\u003e\u003c/span\u003e\u003c/i\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style="margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp style="margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003cspan style="letter-spacing: 0pt"\u003e\u003cspan style="font-size: 16px"\u003e\u003cstrong\u003e\u003cspan style="color: rgb(0, 0, 0)"\u003e第三层:非对称认知关系\u003c/span\u003e\u003c/strong\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp\u003e这个最为复杂,因为这里面所有角色的认知是不对称的,有的人知道有些事,而别人并不知道。\u003c/p\u003e\u003cp style="margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp\u003e\u003cspan style="letter-spacing: 0pt"\u003e\u003cspan style="font-size: 10.5pt"\u003e\u003ci\u003e\u003cspan style="color: rgb(0, 0, 0)"\u003e\u003cspan style="background-color: inherit"\u003e“珍妮在实验室配制样本。汤姆通过监控摄像头看到了整个过程,但珍妮并不知道被观察。利兹进来后把样本转移到了另一个位置。当主管问起这个样本时,每个人会怎么回应?”\u003c/span\u003e\u003c/span\u003e\u003c/i\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp\u003e\u003cspan style="letter-spacing: 0pt"\u003e\u003cspan style="font-size: 10.5pt"\u003e\u003ci\u003e\u003cspan style="color: rgb(0, 0, 0)"\u003e\u003cspan style="background-color: inherit"\u003e这类场景测试AI是否能理解:多人的不同认知状态、信息获取的间接性\u003c/span\u003e\u003c/span\u003e\u003c/i\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp style="line-height: 1.3; margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp\u003e不仅如此,他们还在这些场景里添加了陷阱作为变量,增加难度。\u003c/p\u003e\u003cp style="margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003cspan style="letter-spacing: 0pt"\u003e\u003cspan style="font-size: 16px"\u003e\u003cstrong\u003e\u003cspan style="color: rgb(0, 0, 0)"\u003e比如分心陷阱\u003c/span\u003e\u003c/strong\u003e\u003cspan style="color: rgb(0, 0, 0)"\u003e:\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style="margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp\u003e\u003cspan style="letter-spacing: 0pt"\u003e\u003cspan style="font-size: 10.5pt"\u003e\u003ci\u003e\u003cspan style="color: rgb(0, 0, 0)"\u003e\u003cspan style="background-color: inherit"\u003e“史密斯医生在查看病历时,护士改变了药品位置。虽然医生在场,但他正在专注地打电话。”\u003c/span\u003e\u003c/span\u003e\u003c/i\u003e\u003c/span\u003e\u003c/span\u003e\u003cspan style="letter-spacing: 0pt"\u003e\u003cspan style="font-size: 10.5pt"\u003e\u003ci\u003e\u003cspan style="color: rgb(0, 0, 0)"\u003e\u003cspan style="background-color: inherit"\u003e这是测试AI是否理解:物理在场不等于注意到变化。\u003c/span\u003e\u003c/span\u003e\u003c/i\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp style="margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003cspan style="letter-spacing: 0pt"\u003e\u003cspan style="font-size: 16px"\u003e\u003cstrong\u003e\u003cspan style="color: rgb(0, 0, 0)"\u003e误导性线索\u003c/span\u003e\u003c/strong\u003e\u003cspan style="color: rgb(0, 0, 0)"\u003e:\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style="line-height: 1.3; margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp\u003e\u003cspan style="letter-spacing: 0pt"\u003e\u003cspan style="font-size: 10.5pt"\u003e\u003ci\u003e\u003cspan style="color: rgb(0, 0, 0)"\u003e\u003cspan style="background-color: inherit"\u003e“安娜把蛋糕放在红盒子里。当比尔进来时,她说:\u0026#39;蛋糕在蓝盒子里\u0026#39;。比尔相信了她的话。”\u003c/span\u003e\u003c/span\u003e\u003c/i\u003e\u003c/span\u003e\u003c/span\u003e\u003cspan style="letter-spacing: 0pt"\u003e\u003cspan style="font-size: 10.5pt"\u003e\u003ci\u003e\u003cspan style="color: rgb(0, 0, 0)"\u003e\u003cspan style="background-color: inherit"\u003e这考察AI是否能区分:客观事实、主观信念、故意误导\u003c/span\u003e\u003c/span\u003e\u003c/i\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp style="line-height: 1.3; margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp\u003eMeta的研究人员通过ExploreToM创建了超过3,000个独特的测试场景。每个场景都经过至少两位专家评审,确保其逻辑严密性和测试有效性。\u003c/p\u003e\u003cp style="margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp style="margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp\u003e研究团队选择了目前最具代表性的AI模型进行测试,包括\u003c!--SECURE_LINK_BEGIN_0--\u003eOpenAI\u003c!--SECURE_LINK_END_0--\u003e 的gpt-4o\u003c/p\u003e\u003cp\u003e、Meta的Llama-3.1-70B-Inst以及Mixtral-8x7B-Inst。\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e结果让人大跌眼镜。对于含有某些元素的复杂问题,GPT-4o只获得了可怜的9%准确率,而Llama-3.1-70B准确率干脆只有0%。\u003c/p\u003e\u003cp style="margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" data-exeditor-arbitrary-box="image-box"\u003e\u003c!--IMG_2--\u003e\u003c/p\u003e\u003cp style="margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp style="margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp\u003e实验数据显示,当故事中的动作数量从2个增加到4个时,所有测试模型的准确率都呈现显著下降趋势,GPT-4o的准确率从约0.45降至0.35,Llama-3.1-70B的准确率从0.35降至0.25,而Mistiral则一直在0.2左右徘徊,动作越复杂反而越上升,感觉全是靠蒙。\u003c!--MID_AD_0--\u003e\u003c!--EOP_0--\u003e\u003c/p\u003e\u003c!--MID_ARTICLE_AD_0--\u003e\u003c!--PARAGRAPH_0--\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e这说明,动作发生的越多,AI越记不住人物的认知状态更新。\u003c/p\u003e\u003cp style="margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" data-exeditor-arbitrary-box="image-box"\u003e\u003c!--IMG_3--\u003e\u003c/p\u003e\u003cp style="margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp\u003e令人意外的是,增加参与人数并未导致同样明显的性能下降。模型的准确率仅小幅下降了3-5个百分点。研究人员推测,这可能是因为在固定总动作数的情况下,增加参与人数实际上降低了每个人平均参与的动作数量,从而减轻了状态追踪的整体负担。\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e在动作类型的影响方面,数据显示不同类型的动作组合对模型表现产生了显著差异:在简单的位置移动任务中,GPT-4o可以达到55%的准确率,但一旦涉及状态更新或信息传递,准确率降至40%左右,特别是当引入非对称认知关系时,准确率进一步降至30%以下。其他模型表现出类似的降低趋势,例如Llama-3.1-70B在这三类任务中的准确率分别为45%、35%和25%。\u003c!--MID_AD_1--\u003e\u003c!--EOP_1--\u003e\u003c/p\u003e\u003c!--MID_ARTICLE_AD_1--\u003e\u003c!--PARAGRAPH_1--\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e情况越复杂,信息越不对称,AI越不知道这里的参与者都知道些什么。\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e\u003cstrong\u003e\u003c!--AIPOS_0--\u003e以上,只能证明AI对基础信息和人际交流的理解已经非常有限了。\u003c/strong\u003e\u003c/p\u003e\u003cp style="line-height: 1.3; margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp\u003e那再加上点尔虞我诈的复杂人心小元素,AI就更懵了。\u003c/p\u003e\u003cp style="line-height: 1.3; margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp\u003e虽然AI能相对较好的知道每个物体在哪儿时(40-50%的准确率),在涉及故意误导的场景中。比如\u003c/p\u003e\u003cp style="line-height: 1.3; margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp\u003e\u003cspan style="letter-spacing: 0pt"\u003e\u003cspan style="font-size: 10.5pt"\u003e\u003ci\u003e\u003cspan style="color: rgb(0, 0, 0)"\u003e\u003cspan style="background-color: inherit"\u003e“玛丽把她的日记藏在床底下。当汤姆来到房间时,玛丽告诉他日记在书架上。汤姆相信了玛丽的话,然后离开了房间。”\u003c/span\u003e\u003c/span\u003e\u003c/i\u003e\u003c/span\u003e\u003c/span\u003e\u003cspan style="letter-spacing: 0pt"\u003e\u003cspan style="font-size: 10.5pt"\u003e\u003ci\u003e\u003cspan style="color: rgb(0, 0, 0)"\u003e\u003cspan style="background-color: inherit"\u003e问题:汤姆认为日记在哪里?\u003c/span\u003e\u003c/span\u003e\u003c/i\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e准确率就降低至10-15%。\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e在更复杂的场景中,如增加观察者时,所有模型的准确率平均下降5-8个百分点。\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e在处理多重信念(例如“A认为B认为...”)时,准确率降至个位数\u003c/p\u003e\u003cp style="line-height: 1.3; margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp\u003e\u003cspan style="letter-spacing: 0pt"\u003e\u003cspan style="font-size: 10.5pt"\u003e\u003ci\u003e\u003cspan style="color: rgb(0, 0, 0)"\u003e\u003cspan style="background-color: inherit"\u003e“妈妈把生日礼物藏在衣柜里。哥哥看到了,但假装不知道。妹妹问哥哥礼物在哪里,哥哥说不知道。妹妹去问爸爸,爸爸说礼物在车库里(他其实不知道礼物的真实位置)。”\u003c/span\u003e\u003c/span\u003e\u003c/i\u003e\u003c/span\u003e\u003c/span\u003e\u003cspan style="letter-spacing: 0pt"\u003e\u003cspan style="font-size: 10.5pt"\u003e\u003ci\u003e\u003cspan style="color: rgb(0, 0, 0)"\u003e\u003cspan style="background-color: inherit"\u003e问题:妹妹认为哥哥认为礼物在哪里?/哥哥知道妹妹认为礼物在哪里吗?/妈妈知道妹妹从爸爸那里得到了错误信息吗?\u0005\u003c/span\u003e\u003c/span\u003e\u003c/i\u003e\u003c/span\u003e\u003c/span\u003e\u003c!--MID_AD_2--\u003e\u003c!--EOP_2--\u003e\u003c/p\u003e\u003c!--MID_ARTICLE_AD_2--\u003e\u003c!--PARAGRAPH_2--\u003e\u003cp\u003e\u003c/p\u003e\u003cp style="line-height: 1.3; margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp\u003e当场景中加入较长时间跨度时(比如周一做了啥,周二做了什么),几乎所有模型的准确率都低于5%。\u003c/p\u003e\u003cp style="line-height: 1.3; margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" data-exeditor-arbitrary-box="image-box"\u003e\u003c!--IMG_4--\u003e\u003c/p\u003e\u003cp style="line-height: 1.3; margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp\u003e尤其值得注意的是,在处理“善意的谎言”场景时,模型表现比处理“恶意欺骗”场景更差,准确率相差约5-7个百分点,它根本读不懂这么细腻的情感。\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e\u003cstrong\u003e人世套路深,AI也想回赛博村。\u003c/strong\u003e\u003c/p\u003e\u003cp style="line-height: 1.3; margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp\u003e研究人员还深挖了一下,发现即使是最基础的状态追踪任务(就是搞清楚苹果到底在哪儿)中,模型的表现也令人担忧,GPT-4o、Llama-3.1 70B和Mixtral的准确率分别仅为37%、31%和26%。\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e\u003cstrong\u003e他们作为旁观者,在最基础的物理状态追踪能力上都存在根本性不足。更别提真的理解人的认知状态、建立情商了。\u003c/strong\u003e\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e所以现在别看那些GPT-4o和你对话非常丝滑,看起来相当拟人。但实际上AI现在就像一个只懂字面意思的“外国人”——它可以精确理解每个词,但根本抓不住对话的真实含义。\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e\u003cstrong\u003e\u003c!--AIPOS_1--\u003e这些最先进的AI,都没啥情商。\u003c/strong\u003e\u003c/p\u003e\u003cp style="line-height: 1.3; margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp\u003e\u003cstrong\u003e既然没有,那就建所学校让他们学\u003c/strong\u003e\u003c/p\u003e\u003cp style="line-height: 1.3; margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp\u003e其实人类的情商一般也是在社会化过程中慢慢培养出来的。那AI是不是也可以被培养呢?\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e\u003c!--AIPOS_2--\u003e沿着这个思路,研究人员把ExploreToM改造成了一所专门培养AI社交认知能力的工具。他们收集了将近8万个特制的“练习题”——包括ExploreToM生成的故事、问题和答案。用这些材料,他们开始“补课”训练Llama-3.1 8B模型。\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e\u003c!--AIPOS_3--\u003e训练效果证明了他们的猜测,经过训练的AI模型在多个标准测试中都有显著进步。在最具代表性的AI心智能力测试ToMi中,模型的分数提高了27分。\u003c/p\u003e\u003cp style="margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" data-exeditor-arbitrary-box="image-box"\u003e\u003c!--IMG_5--\u003e\u003c/p\u003e\u003cp style="margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp\u003e更令人兴奋的是,这个AI展现出了举一反三的能力。虽然训练时只用了2到4个人物的简单故事,但训练后的AI能够轻松处理更复杂的场景,比如有5个人物和更多互动的故事。这就像一个学生不仅学会了课本上的题目,还能解决更难的课外题。\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e研究团队还发现了一个有趣的现象:训练材料的质量比数量更重要。他们进行了一个精心设计的对照实验,创建了五组不同的训练数据集。这些数据集的大小相同,但其中需要“换位思考”的故事比例从0%逐步增加到100%。\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e结果表明,包含越多需要换位思考的故事,AI的表现就越好。\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e令人欣慰的是,这种特殊训练并没有影响AI的其他能力。就像补习数学的同时没有影响语文成绩一样,经过训练的AI在处理日常对话和回答常识性问题时,表现基本保持稳定。\u003c/p\u003e\u003cp style="margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp style="margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" data-exeditor-arbitrary-box="image-box"\u003e\u003c!--IMG_6--\u003e\u003c/p\u003e\u003cp style="margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp\u003e经过这样系统的训练,AI在社交认知能力上取得了显著进步。在基础任务中,正确率达到了75-80%,相当于及格线以上的成绩。但是在更复杂的任务中,比如理解多重嵌套信念(确认A觉得B觉得......)这类问题时,表现仍然不够理想,正确率仅有30-35%。\u003c!--MID_AD_3--\u003e\u003c!--EOP_3--\u003e\u003c/p\u003e\u003c!--MID_ARTICLE_AD_3--\u003e\u003c!--PARAGRAPH_3--\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e但如果不进行训练,这些AI对这些问题的准确率可能仅为0。\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e\u003cstrong\u003e解开AI缺乏情商之结\u003c/strong\u003e\u003c/p\u003e\u003cp style="margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp\u003e为什么AI都没有情商?\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e研究人员也对此做了一些探讨。问题还是出在训练数据上了。\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e过去的AI训练往往依赖于网络上现成的大量数据,但这些数据中真正需要换位思考的内容可能相对较少。\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e这就像是在写故事时,如果不特意设计“误会”、“信息差”这样的情节,大多数随机写出的故事都会是直来直去的叙事,所有人物都知道相同的信息。要写出需要读者理解不同人物认知差异的故事,需要作者有意识地设计这样的情节。就像我们在日常生活中的对话,大多是简单的信息传递,很少需要深入理解对方的认知状态。\u003c!--MID_AD_4--\u003e\u003c!--EOP_4--\u003e\u003c/p\u003e\u003c!--MID_ARTICLE_AD_4--\u003e\u003c!--PARAGRAPH_4--\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e这也解释了为什么在自然语言中,真正需要“换位思考”的内容相对较少。\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e未来如果要培养出真正懂得“换位思考”的AI,我们可能需要重新思考训练数据的收集方式。不是简单地收集更多数据,而是要有意识地增加那些包含认知差异、信息不对称的场景。就像设计一套专门培养同理心的教材,每个例子都经过精心挑选,目的明确。\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e或者,专门用意识流小说和茨威格的小说训练AI,也许效果不错。\u003c/p\u003e\u003cp\u003e\u003c/p\u003e\u003cp\u003e\u003cstrong\u003e至少通过这个研究,我们知道了人类还确实没被AI攻下的心理高地:真正的同理心与由此生发的情商。\u003c/strong\u003e\u003c/p\u003e\u003cp style="margin-bottom: 3pt; margin-left: 0pt; margin-top: 3pt; text-align: left" class="paragraph text-align-type-left"\u003e\u003c/p\u003e\u003cp\u003e\u003cstrong\u003e但这可能也是AI自我学习的下一步目标了。\u003c/strong\u003e\u003c/p\u003e\u003cdiv data-exeditor-arbitrary-box="wrap"\u003e\u003cp\u003e\u003c/p\u003e\u003c/div\u003e\u003cdiv powered-by="qqnews_ex-editor"\u003e\u003c/div\u003e\u003cstyle\u003e.rich_media_content{--news-tabel-th-night-color: #444444;--news-font-day-color: #333;--news-font-night-color: #d9d9d9;--news-bottom-distance: 22px}.rich_media_content p:not([data-exeditor-arbitrary-box=image-box]){letter-spacing:.5px;line-height:30px;margin-bottom:var(--news-bottom-distance);word-wrap:break-word}.rich_media_content{color:var(--news-font-day-color);font-size:18px}@media(prefers-color-scheme:dark){body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content p:not([data-exeditor-arbitrary-box=image-box]){letter-spacing:.5px;line-height:30px;margin-bottom:var(--news-bottom-distance);word-wrap:break-word}body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content{color:var(--news-font-night-color)}}.data_color_scheme_dark .rich_media_content p:not([data-exeditor-arbitrary-box=image-box]){letter-spacing:.5px;line-height:30px;margin-bottom:var(--news-bottom-distance);word-wrap:break-word}.data_color_scheme_dark .rich_media_content{color:var(--news-font-night-color)}.data_color_scheme_dark .rich_media_content{font-size:18px}.rich_media_content p[data-exeditor-arbitrary-box=image-box]{margin-bottom:11px}.rich_media_content\u003ediv:not(.qnt-video),.rich_media_content\u003esection{margin-bottom:var(--news-bottom-distance)}.rich_media_content hr{margin-bottom:var(--news-bottom-distance)}.rich_media_content .link_list{margin:0;margin-top:20px;min-height:0!important}.rich_media_content blockquote{background:#f9f9f9;border-left:6px solid #ccc;margin:1.5em 10px;padding:.5em 10px}.rich_media_content blockquote p{margin-bottom:0!important}.data_color_scheme_dark .rich_media_content blockquote{background:#323232}@media(prefers-color-scheme:dark){body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content blockquote{background:#323232}}.rich_media_content ol[data-ex-list]{--ol-start: 1;--ol-list-style-type: decimal;list-style-type:none;counter-reset:olCounter calc(var(--ol-start,1) - 1);position:relative}.rich_media_content ol[data-ex-list]\u003eli\u003e:first-child::before{content:counter(olCounter,var(--ol-list-style-type)) '. ';counter-increment:olCounter;font-variant-numeric:tabular-nums;display:inline-block}.rich_media_content ul[data-ex-list]{--ul-list-style-type: circle;list-style-type:none;position:relative}.rich_media_content ul[data-ex-list].nonUnicode-list-style-type\u003eli\u003e:first-child::before{content:var(--ul-list-style-type) ' ';font-variant-numeric:tabular-nums;display:inline-block;transform:scale(0.5)}.rich_media_content ul[data-ex-list].unicode-list-style-type\u003eli\u003e:first-child::before{content:var(--ul-list-style-type) ' ';font-variant-numeric:tabular-nums;display:inline-block;transform:scale(0.8)}.rich_media_content ol:not([data-ex-list]){padding-left:revert}.rich_media_content ul:not([data-ex-list]){padding-left:revert}.rich_media_content table{display:table;border-collapse:collapse;margin-bottom:var(--news-bottom-distance)}.rich_media_content table th,.rich_media_content table td{word-wrap:break-word;border:1px solid #ddd;white-space:nowrap;padding:2px 5px}.rich_media_content table th{font-weight:700;background-color:#f0f0f0;text-align:left}.rich_media_content table p{margin-bottom:0!important}.data_color_scheme_dark .rich_media_content table th{background:var(--news-tabel-th-night-color)}@media(prefers-color-scheme:dark){body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content table th{background:var(--news-tabel-th-night-color)}}.rich_media_content .qqnews_image_desc,.rich_media_content p[type=om-image-desc]{line-height:20px!important;text-align:center!important;font-size:14px!important;color:#666!important}.rich_media_content div[data-exeditor-arbitrary-box=wrap]:not([data-exeditor-arbitrary-box-special-style]){max-width:100%}.rich_media_content .qqnews-content{--wmfont: 0;--wmcolor: transparent;font-size:var(--wmfont);color:var(--wmcolor);line-height:var(--wmfont)!important;margin-bottom:var(--wmfont)!important}.rich_media_content .qqnews_sign_emphasis{background:#f7f7f7}.rich_media_content .qqnews_sign_emphasis ol{word-wrap:break-word;border:none;color:#5c5c5c;line-height:28px;list-style:none;margin:14px 0 6px;padding:16px 15px 4px}.rich_media_content .qqnews_sign_emphasis p{margin-bottom:12px!important}.rich_media_content .qqnews_sign_emphasis ol\u003eli\u003ep{padding-left:30px}.rich_media_content .qqnews_sign_emphasis ol\u003eli{list-style:none}.rich_media_content .qqnews_sign_emphasis ol\u003eli\u003ep:first-child::before{margin-left:-30px;content:counter(olCounter,decimal) ''!important;counter-increment:olCounter!important;font-variant-numeric:tabular-nums!important;background:#37f;border-radius:2px;color:#fff;font-size:15px;font-style:normal;text-align:center;line-height:18px;width:18px;height:18px;margin-right:12px;position:relative;top:-1px}.data_color_scheme_dark .rich_media_content .qqnews_sign_emphasis{background:#262626}.data_color_scheme_dark .rich_media_content .qqnews_sign_emphasis ol\u003eli\u003ep{color:#a9a9a9}@media(prefers-color-scheme:dark){body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content .qqnews_sign_emphasis{background:#262626}body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content .qqnews_sign_emphasis ol\u003eli\u003ep{color:#a9a9a9}}.rich_media_content h1,.rich_media_content h2,.rich_media_content h3,.rich_media_content h4,.rich_media_content h5,.rich_media_content h6{margin-bottom:var(--news-bottom-distance);font-weight:700}.rich_media_content h1{font-size:20px}.rich_media_content h2,.rich_media_content h3{font-size:19px}.rich_media_content h4,.rich_media_content h5,.rich_media_content h6{font-size:18px}.rich_media_content li:empty{display:none}.rich_media_content ul,.rich_media_content ol{margin-bottom:var(--news-bottom-distance)}.rich_media_content div\u003ep:only-child{margin-bottom:0!important}.rich_media_content .cms-cke-widget-title-wrap p{margin-bottom:0!important}\u003c/style\u003e\u003c/div\u003e

本文来自作者[小胜洋吖]投稿,不代表蔚蓝之海立场,如若转载,请注明出处:https://foryh.cn/wiki/33981.html

(921)

文章推荐

  • 管家婆一肖-一码-一中一特_放松心情的绝佳选择_3DM68.15.25

    在充满机遇与挑战的世界中,许多人都在寻求通过各种方式来实现财富的增值。而彩票,作为一种既具娱乐性又富有刺激感的活动,吸引了越来越多的热衷者。许多人通过购彩,希望能一夜暴富,但如何在海量的彩票组合中找到正确的预测方式,成了他们最为关注的问题之一。今天,我们将为您揭示一个备受推崇且极具潜力的预测方法——

    2024年11月23日
    49
  • 澳门最牛三肖三码中特的优势_精选解释落实将深度解析_手机版445.215

    澳门作为全球知名的博彩圣地,其独特的博彩文化和丰富的博彩项目吸引了来自世界各地的玩家。而在这片充满竞争的市场中,一种名为“最牛三肖三码中特”的投注方式,凭借其精准的预测和高收益的特性,迅速成为了不少资深玩家的首选。今天,我们将一探究竟,揭秘这一独特投注方式的优势所在。1.什么是“三肖三码中特”?

    2024年11月27日
    33
  • 2024年8月23日的澳门全年资料_值得支持_实用版564.365

    澳门,作为一个汇聚东方与西方文化的国际化城市,一直以来都以其独特的魅力吸引着全球游客。而在2024年8月23日的澳门全年资料中,我们可以清晰看到这座城市在多个领域的卓越成就与未来潜力。不仅是旅游业的蓬勃发展,澳门在文化、商业和经济方面的创新也让人眼前一亮。澳门旅游的全新篇章作为全球著名的旅游目的

    2024年12月09日
    35
  • 香港王中王资料大全免费_作答解释落实_主页版v854.968

    在如今竞争激烈、信息高速流通的时代,很多人都在寻找能够带来财富的机会和方法。尤其是在彩票领域,精准的信息、有效的预测以及科学的分析,已经成为每一位彩民追求财富的关键。而“香港王中王资料大全免费”正是一个帮助彩民朋友们实现梦想、积累财富的宝贵资源。“香港王中王资料大全免费”作为一项汇聚香港最准开奖信

    2024年12月15日
    34
  • 2024年老奥正版资料免费大全_最新答案解释落实_实用版493.588

    part1:2024年,作为奥林匹克历史上一个意义非凡的年份,越来越多的奥运爱好者和体育迷都渴望能够掌握更深层次的奥运知识和资料。在这一年里,我们为大家精心准备了一份独一无二的“2024年老奥正版资料免费大全”,这不仅是一个资料库的合集,更是对奥林匹克历史和文化的深度剖析。无论您是奥运历史的忠实粉

    2024年12月22日
    27
  • 阿里大文娱CEO樊路远道歉:向灵犀同学道歉,自罚三个月工资_腾讯新闻

    \u003cdivclass="rich_media_content"\u003e\u003c!--NO_AD_ERROR_2--\u003e\u003cp\u003e鞭牛士报道,12月7日消息,阿里大文娱CEO樊路远道歉了。\u003c/p\u003e\u003cp\u003e\u003c/p

    2025年01月26日
    706
  • 特朗普:俄乌和平协议必须达成 将与普京和泽连斯基进行对话_腾讯新闻

    \u003cdivclass="rich_media_content"\u003e\u003c!--NO_AD_ERROR_2--\u003e\u003cp\u003e\u003cstrong\u003e财联社12月17日讯(编辑夏军雄)\u003c/strong\u003e当地时间周一(12

    2025年01月28日
    745
  • 两脚离合器换挡法的操作技巧与注意事项

    在驾驶手动挡汽车时,换挡技巧是每位驾驶员必须掌握的基本技能,两脚离合器换挡法是一种常见且实用的换挡方法,本文将详细介绍两脚离合器换挡法的操作步骤、技巧及注意事项,帮助读者更好地掌握这一技能。两脚离合器换挡法的定义及重要性两脚离合器换挡法是指在换挡过程中,使用两只脚分别控制离合器和油门,以实现平顺、快

    2025年01月26日
    12
  • 关于亚洲乱妇现象的探讨

    在当今社会,网络信息的传播速度极快,各种信息充斥着我们的日常生活,一些不健康、不正当的信息也在网络上广泛传播,其中就包括所谓的“亚洲乱妇”这一类内容,这种内容不仅违反了社会道德和法律法规,也对人们的身心健康造成了极大的危害,我们需要对这种现象进行深入的探讨和反思。什么是“亚洲乱妇”?“亚洲乱妇”是一

    2025年01月27日
    11
  • 搬家送礼指南,如何选择合适的礼物?

    根据不同需求挑选最佳礼品搬家对于每个人来说都是一件大事情,它不仅意味着新的开始,也代表着生活的变迁,在这个特殊的时刻,亲朋好友的关心和祝福显得尤为重要,而送上一份合适的礼物,更是表达心意、传递祝福的最好方式,搬家送什么礼物好呢?本文将为您提供一份详细的搬家礼物选择指南,帮助您根据不同需求挑选出最佳的

    2025年01月27日
    6

发表回复

本站作者后才能评论

评论列表(4条)

  • 小胜洋吖
    小胜洋吖 2025年01月29日

    我是蔚蓝之海的签约作者“小胜洋吖”!

  • 小胜洋吖
    小胜洋吖 2025年01月29日

    希望本篇文章《Meta最新论文证明,AI根本不懂人心_腾讯新闻》能对你有所帮助!

  • 小胜洋吖
    小胜洋吖 2025年01月29日

    本站[蔚蓝之海]内容主要涵盖:生活百科,小常识等内容......

  • 小胜洋吖
    小胜洋吖 2025年01月29日

    本文概览:################## \u003cdiv class="rich_media_content"\u003e\u003cp\u003e《AI未来指北》 特约作者...

    联系我们

    邮件:蔚蓝之海@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们