科技日報北京5月22日電 (記者張夢然)新一期《自然·人類行為》發表論文顯示,在測試追蹤他人心理狀態能力——也稱心智理論(Theory of Mind)的任務中,兩類大語言模型(LLM)在特定情況下的表現與人類相似,甚至更好。
心智理論對人類社交互動十分重要,是人類溝通交流和產生共鳴的關鍵。之前的研究表明,LLM這類人工智能(AI)可以解決復雜的認知任務,如多選決策。不過,人們一直不清楚LLM在心智理論任務(被認為是人類獨有的能力)中的表現是否也能比肩人類。
此次,德國漢堡—埃彭多夫大學醫學中心團隊選擇了能測試心智理論不同方面的任務,包括發現錯誤想法、理解間接言語以及識別失禮。他們隨后比較了1907人與兩個熱門LLM家族——GPT和LLaMA2模型完成任務的能力。
團隊發現,GPT模型在識別間接要求、錯誤想法和誤導方面的表現能達到甚至超越人類平均水平,而LLaMA2的表現遜于人類水平;在識別失禮方面,LLaMA2強于人類但GPT表現不佳。研究人員指出,LLaMA2的成功是因為回答的偏見程度較低,而不是因為真的對失禮敏感;GPT看起來的失利,其實是因為對堅持結論的超保守態度,而不是因為推理錯誤。
研究團隊認為,LLM在心智理論任務上的表現堪比人類,不等于它們具有人類般的“情商”,也不意味著它們能掌握心智理論。但他們也指出,這些結果是未來研究的重要基礎,并建議進一步研究LLM在心理推斷上的表現,以及這些表現會如何影響人類在人機交互中的認知。
【總編輯圈點】
情商,就是情緒智力,主要是指人在情緒、情感、意志、耐受挫折等方面的品質。有時候,我們不知道如何回復上司的一句“辛苦了”,親戚的一句“你這工作能掙多少”,也會求助大模型,希望這凝聚了人類智慧的語言模型能給出一些緩解尷尬或令人愉悅的建議。但大模型有情商嗎?大模型可以表現出有情商的樣子,但它顯然無法揣測人心的幽微之處,也無法體會出所謂話外有話,這些獨屬于人類社交互動的復雜之處,大模型還需要進一步學習。
免責聲明:凡本網注明“來源:XXX(非駐馬店廣視網、駐馬店融媒、駐馬店網絡問政、掌上駐馬店、駐馬店頭條、駐馬店廣播電視臺)”的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責,作品版權歸原作者所有,如有侵犯您的原創版權請告知,我們將盡快刪除相關內容。凡是本網原創的作品,拒絕任何不保留版權的轉載,如需轉載請標注來源并添加本文鏈接:http://www.hiddenladdercollective.com/showinfo-108-323565-0.html,否則承擔相應法律后果。