卢森堡大学的一项新研究揭示了:AI比人类更好地识别道德内容

卢森堡大学的一项新研究揭示了:AI比人类更好地识别道德内容

随着当今人工智能的快速发展,我们别无选择,只能提出深刻的问题。机器真的可以理解人类的道德概念吗?当面对复杂的社会问题时,您能否像人类一样判断其中所包含的道德价值观?这项创新的研究由卢森堡大学的Maciej Skorski教授和SWPS大学的Alina Landowska联合完成,以发现我们的奥秘。这项研究于2025年8月发布,完整的文件可在Arxiv:2508.13804V1中找到。这项研究的规模是前所未有的,该团队正在对市场上三种最先进的语言模型进行全面评估,包括Claude Sonnet 4,DeepSeek-V3,并称其为4 Maverick。他们分析了超过一百万的AI咨询,并涵盖了25万多名700人得分手的道德审判品牌,超过100,000次文本。这些文本被广泛提供,包括社交网络,新闻报道和论坛讨论,并为研究提供丰富而真实的数据库。更令人惊讶的是,这些发现表明,在识别道德内容中,AI模型的性能通常达到较高的25%的人类得分手,它们通常超过平均水平。特别值得一提的是,通过识别道德内容,AI的检测要比人类(具有道德内容的道德内容的文本)少得多。 1。什么是基本道德理论?为什么如此重要?要了解这项研究的重要性,我们必须首先了解道德的基本理论。道德的基本理论就像一张地图,有助于我们理解人类道德判断的基本框架。该理论是由心理学家乔纳森·海德特(Jonathan Heidette)提出的。乔纳森·海德特(Jonathan Heidette)说,人类的道德判断主要基于五个中心维度,每个方面都可以看作是一对相对概念。护理和伤口是第一角钱NSION,专注于照顾他人帮助他人的痛苦和渴望。这是对社交网络出版物的富有同情心的愿景,上面写着:“让孩子们远离边境的家人。”反射尺寸。公平和欺骗是第二维度,强调正义,权利和自主权。一词“每个人都应该获得相同的医疗服务,无论收入如何,都反映了公平的方面。忠诚度和背叛的层面关注群体凝聚力和团队精神。 “支持我们的军队,为我们的自由牺牲一切”的一词反映了忠诚的价值。权威和颠覆的方面是传统,等级制和权威的合法性。 “尊重老年人并遵循建立这个国家的传统价值观”是权威维度的典型表达。最后,上帝和下降的维度集中在某些事物上的纯洁,神性和崇拜上。婚姻必须是神圣的从世俗的腐败中回应“体现了神圣的维度。这些道德基础不仅影响个人价值判断,而且还会影响政治偏好和社会行为。公共话语和道德AI系统的动态的发展能够理解这些对分析的道德方面的发展很重要。2。在同一领域中,竞争使用了三个大型数据库,例如三个不同的“测试室”。伦理词典包含73,001 a54,867个文本片段的nne,约有8,000个新闻文件的654个众包纳税人的片段。这些新闻来源包括主要媒体,例如华盛顿邮报,CNN,Fox News和Breitbart。第三个数据库是一个伦理基本的Reddit语料库,其中包含61,226个标签,其中六个训练有素的编码器来自12个小节中的17,885个Reddit评论。对于主要挑战中的研究团队而言,如何应对Anothuman人民的差异。人们在道德判断方面经常有不同的看法,但这是完全正常的。尽管传统的研究方法经常使用简单或不可或缺的规则来解决这一差异,但这种方法忽略了道德判断的复杂性和主观性。为了解决这个问题,研究人员使用创新的贝叶斯方法来建模得分手之间的差异。这种方法就像一个聪明的裁判员,他不仅根据多数人的看法做出决定,而且还基于大多数人的意见考虑了每个得分手的可靠性和一致性,同时认识到道德判断中固有的不确定性。这种方法可以捕获两种类型的不确定性。一种是人类差异的固有(即使是专家在同一内容上也可能具有不同的观点),而Theanother是模型在不同领域的敏感性的差异。 3。竞争是AI的三个主要巨头的道德认知技能。在道德意识的这一职业中,研究人员选择了当今最先进和最大的语言模型作为参与者。 Claude Sonnet 4由Anthrope开发,Anthrope具有200,000个令牌的上下文窗口,作为具有超级记忆的玩家。 DeepSeek-V3共有6710亿个参数和370亿个活动参数,上下文窗口为128,000个令牌,作为图书馆管理员,具有惊人的知识储备。火焰4小牛是通过目标开发的,总共有4000亿参数和170亿个活动参数,上下文窗口达到256,000个令牌。您可以说他是记忆力最强的球员。为了保证比较公平,研究团队设计了标准化的测试方法。他们为每个AI模型设计了相同的快速单词,以提出相同的考试问题。这个快速的短语简洁明了。该模型必须是道德心理学专家,根据Hydet的理论对文本进行分类,建立每个真实或错误的道德基础,并以JSON格式做出回应。使用0.30的温度配置咨询Sudorel模型。这是如何调整模型响应中“创意”程度,保持确定性响应并允许中等变化的方法。单独分析每个文本,以确保密集的分类结果。使用WB追踪实验过程,并进行重复实验,以确保结果的稳定性和可重复性。研究人员有Develo使用优化的GPU张紧流动框,该流动框使用分散的张量处理可扩展的贝叶斯推断。当在A100 GPU中进行证明时,此帧可以完成每秒1,000个优化步骤以处理100,000个注释,从而实现大型数据集的快速收敛。这种创新允许如此大的实验。 4。私人研究结果:当结果揭示结果时,人工智能的道德敏感性超出了人类的期望,许多人感到惊讶。在这种道德意识之战中,AI模型表现出了令人印象深刻的能力。从一般绩效的角度来看,AI模型在所有数据集中,通常在所有得分手中的25%中都超过了人类得分手的平均水平。根据数据集,人类平均收益率从67%到76%不等,而IA的产量从62%到95%不等。更有趣的是,几个数据集的困难在AI中大大祈祷。平均而言,AI在MFRC数据中的工作效果更好ET(83.7%),EMFD为81.9%,MFTC为81.5%,最高性能数据集的差异很小。这表明AI模型具有出色的跨域泛化功能。模型之间的比较表明,所有模型对于人类得分手的平均水平都高于平均水平,但没有绝对的赢家。克劳德(Claude)总是得分,最常见的是取得第一个或第二的最佳成绩,在微妙的护理和神圣的基础上特别效果,似乎是一位轻度的主要领导者。在大多数情况下,DeepSeek并调用4个相似之处,但是在MFRC数据集的神圣和公平维度中,克劳德(Claude)为8-9%。在观点的道德基础的视野中,所有道德基础在每个数据集中都以平均慷慨的精度至80%以上。注意力基础最高(85.1%),其次是Sagrada(84.3%),忠诚度(81.6%),权威(80.9%)和权益(80.0%)。特别是,它是“神圣”基础的高分表现,尤其是由于文化背景,被认为是难以分类的已知困难。 5。哪些秘密揭示了toi和不正确的人类方式?这项研究中最令人兴奋的发现可能是AI和人类犯错的方式的最大差异。这种差异是人脸的两个不同个性的面孔,同一问题的不同响应模式。在所有基本概念和数据集中,AI模型的假阴性率(错过检测率)比人类的假阴性率(错过检测率)低2-4倍。具体而言,AI的假阴性平均率为19.4%和52.7%的Torqueto人类。这意味着,如果文本包含道德内容,AI忽略了人类的可能性较小。作为响应,错误的检测率(错误检测率)略高于人类假检测率,AI为16.1%,人类为10.1%。该模型揭示了两种不同的策略。 IA提供了更平衡的检测Ethod,但人类是更保守的分类,并且倾向于系统地低估真正的道德信号。从视觉上讲,在错误率的比较图中,这种差异非常明显,而AI模型(以不同方式显示)在对角线基线附近比人类(如圆圈中显示)更平衡,该模型代表了不正确的平衡点。出于某些道德原因,根据注意力产生假负率的AI的最大改善。这比人类低40.8个百分点,其次是权威(35.6个百分点),忠诚度(34.5个百分点),神圣(34.0个百分点)。公平基础仍然更加困难,平均提高了24.2个百分点。有趣的是,AI在MFRC和MFTC数据集中更加平衡(虚假负平均率的正差分别为1.4和1.6个百分点)。这可以通过贝叶斯方法来解释这估计了与许多保守的得分手寻求AI寻求共识的表现。 6。实际案例分析:为确保AI不仅是过度敏感的并且具有热情的道德检测能力,研究团队以AI“理解”道德内容的方式进行了有趣的验证实验。他们提出了一系列职位样本,这些职位预测IA将具有很多道德内容,但是独立领域专家的人类得分手对他们不知所措,并且专家证实,在大多数情况下,AI是正确的。第一个示例很好地说明了这一点。关于社交网络的出版物宣布:“有人认为马克龙应该与阿尔及利亚独裁者打交道吗?在2010年和2012年起义期间,法国几乎没有提供任何支持。”人类得分子没有发现任何道德基础,但是克劳德十四行诗4正确地识别了三个道德方面。在护理和损害方面,AI确定了对“独裁者” A规则损害的担忧ND意味着需要采取干预措施来保护人们。在公平方面,AI包括出版的迹象,即阿尔及利亚人应该得到更好的待遇,以及对法国遗弃的批评。在授权方面,人工智能通过政权变更确定了对政治权威的直接挑战。第二个示例包括出版物更复杂的NES。 “我们是在责怪受害者吗?即使治疗师是她的朋友,他也需要知道他什么也没说。她是不道德的,非常粗鲁的,成为妻子的朋友不是借口。”人类得分手也没有检测到道德含量,但克劳德十四行诗4识别出五个道德基础。 AI确定了对受害者井和关注方面侵犯机密性造成的损害的担忧。在公平方面,AI认为治疗师的行为是对劳动道德的不公平背叛。在忠诚度方面,AI认为这种情况是对专业责任的背叛健康和病人的信心。在授权方面,AI确定了有关滥用治疗师专业权威的问题。在神圣的维度中,AI对治愈的机密性是神圣的,不满意的。这被认为是违规。第三个例子同样令人印象深刻。出版一只被盗的宠物猫Sobre:“如果您如此担心自己的猫,并且一周没看过,为什么不打电话给警察并报告抢劫?这样做会要求您与其“男友”保持联系。 “The cat was recovered or presented immediately for theft. Claude arenet 4 has identified four moral foundations here. On the aspect of attention, AI recognizes the emotional concerns caused by pain caused by pain caused by pain caused by pain caused by pain caused by pain caused by pain caused by pain caused by pain cause emotional caused by cat and separation. Your frame bAyesian supports demographic fixed effects, while the current data set provides limited人口元数据。检测突变源的能力的道德基础。其次,AI模型中存在的内容审核系统可以在类似的研究中引入系统偏见,以通过拒绝解决与道德相关的内容来影响结果。在另一个实验中,Azure Openai拒绝了他的Twitter数据中约10%,理由是虐待和个性。毕竟,这项研究揭示了令人惊讶的事实。在道德内容识别的看似“人类”挑战中,AI比人类更严重和平衡。这并不意味着AI克服了人类道德判断的能力,而是表明IA在某些特定的道德意识任务中具有自己的优势。正如研究人员所指出的那样,超级人工智能的能力使人可以发现人类可以忽略偏见的道德基础。未来的研究应着重于改善模型的校准,以检测道德证据并将评估扩展到其他道德框架。开发由研究团队(Research Weark)选择,这个不确定的认知评估框架为对AI的道德基础进行了更精明的评估,这为认识固有的主观性而不是将分类视为确定性的基础提供了基础。这种方法论创新本身是对计算语言学社区的重要贡献。对于关心AI发展的普通百姓,这项研究提供了重要的启示。 IA已经开始显示出理解人类道德复杂性而不是冷计算机的能力。尽管我们仍然必须在道德判断方面意识到AI的限制,但这项研究表明,AI可以成为理解和分析道德话语的有力工具。对这项研究感兴趣的读者将通过ARXIV提供完整的纸张内容:2508.13804V1,以获取有关此创新发现的技术细节的信息。您可以实现它。 P AQ1:什么是贝叶斯笔记建模?我为什么t比传统方法更好?答:贝叶斯分数建模就像聪明的裁判。它不仅是由大量观点决定的,而且还考虑了每个得分手的可靠性和一致性,同时认识到道德判断中固有的不确定性。捕获人类分歧差异和对模型在不同领域的敏感性固有的差异,并比传统的Mayestuary或包容性规则相比,对待科学得分手之间的差异。 P2:为什么AI在识别道德内容中的假阴性率远低于人类?答:AI的假阴性比率比人类低2-4倍(AI为19.4%,人类为52.7%),这表明AI失去了道德含量的证明的可能性较小。这是因为人类倾向于进行保守的分类,并系统地低估了真正的道德信号,而IA提供了一种更平衡的检测方法由于个人偏见或文化限制而忽略道德内容。 P3:这项研究对普通百姓的生活有何实际影响?答:这项研究直接影响社交媒体内容评论,新闻分析和公共政策开发。 AI的高道德敏感性意味着平台可以更好地识别和管理可能导致ControlVersia的内容,而政治领导者也可以使用AI进行分析。出色的公共语音数据,了解各种问题如何构成道德问题以及如何制定更有效的沟通策略。
特殊声明:先前的内容(包括照片和视频(如果有),如有)已由网络自我媒体平台的用户收费和发布。该平台仅提供信息存储服务。
注意:以前的内容(如果您有照片或视频)将由社交媒体平台NetEase Hao的用户收取和发布,仅提供信息存储服务。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注