發(fā)布時間:2025-6-12 瀏覽次數(shù):190
日內瓦大學和伯爾尼大學的一個團隊使用情商(emotional intelligence, EI)測試評估了6種生成性人工智能。結果顯示:這些人工智能的表現(xiàn)優(yōu)于人類的平均表現(xiàn),甚至能夠生成新的情商測試問卷。這些發(fā)現(xiàn)為人工智能在教育、輔導和沖突管理方面開辟了新的可能性。該研究發(fā)表在《傳播心理學》雜志上。
大型語言模型(LLM)是能夠處理、解釋和生成人類語言的人工智能(AI)系統(tǒng)。例如,ChatGPT生成的AI就是基于這種模型。我們知道法學AI可以回答問題和解決復雜問題。但它們也能暗示情緒智能行為嗎?
充滿情緒張力的場景
為了找到答案,研究團隊對6種大語言模型(ChatGPT-4、ChatGPT-o1、Gemini 1.5 Flash、Copilot 365、Claude 3.5 Haiku和DeepSeek V3)進行了情商測試。
“我們選擇了常用的5種測試,”伯爾尼大學心理學研究所人格心理學、差異心理學和評估部門的講師兼首席研究員、該研究的主要作者Katja Schlegel說:“這些測試與情緒化的場景,旨在評估這些AI 理解、調節(jié)和管理情緒的能力。”
例如,其中的一個題目是:邁克爾的一位同事竊取了他的想法,并對他冷嘲熱諷。邁克爾最有效的反應是什么?
a) 與這位同事爭論;
b) 和他的上級談;
c) 默默地怨恨這位同事;
d) 從他那兒偷回一個想法;
選項 b)被認為是最合適的。
在測試AI的同時。研究人員讓人類參與者也進行了相同的5項測試。參與這項研究的科學家Marcello Mortillaro說:“最終,LLM取得了更高的分數(shù)——82%的正確答案,而人類的正確答案為56%。這表明這些人工智能不僅理解情緒,還掌握了情商行為的含義!
快速生成新的測試問卷
在第二階段,科學家們要求ChatGPT-4創(chuàng)建新的情緒智力測試,并且改變舊有的語義場景、創(chuàng)造新的場景。然后,400多名參與者進行了這些自動生成的測試。
Katja Schlegel說:“事實證明,它們與經(jīng)過多年開發(fā)的原始測試一樣可靠、清晰和現(xiàn)實。因此,LLM不僅能夠在各種可用選項中找到最佳答案,而且能夠生成適應所需環(huán)境的新場景。這進一步證實了像ChatGPT這樣的大語言模型情商頗高,可以對情感進行推理!
這些結果為人工智能在被認為是為人類保留的環(huán)境中使用鋪平了道路,例如教育、輔導或沖突管理,前提是由專家使用和監(jiān)督。
Schlegel, K., Sommer, N. R., & Mortillaro, M. (2025). Large language models are proficient in solving and creating emotional intelligence tests. Communications psychology, 3(1), 80. https://doi.org/10.1038/s44271-025-00258-x
2025-7-26
2025-7-25
2025-7-23
2025-7-22
2025-7-18