您现在的位置：首页 > 综合 > 特别关注 > 正文

研究：GPT-4 在执行多项现实任务中击败其他大语言模型

时间：2023-08-11 11:10:17 来源：站长之家

本文概要:

1. GPT-4在大型语言模型中表现出色，取得最高总分4.41。

2. GPT-4在几乎所有领域都领先于其他模型，只有在网购任务中，GPT-3.5表现更好。

(资料图片仅供参考)

3. 开源模型整体表现不佳，远远落后于商业模型和 GPT-3.5。

市面上已经有有许多商业和开源的文本生成人工智能。现在专门为测试辅助任务开发的基准测试表明，GPT-4在这一领域脱颖而出。

编程客栈（）8月11日消息:最新的研究显示，在 “现实世界语用任务” 中，GPT-4在大型语言模型中表现出色。研究团队使用一个名为 “AgentBench” 的基准测试对多个提供商的25个大型语言模型以及开源模型进行了测试。

“AgentBench”是专门为衡量大语言模型在“现实世界语用任务”中的辅python助能力而设计的标准化测试。所有测试均在实时交互环境中进行。这使得该基准特别适合其想要测量的内容:大型语言模型处理总共八个领域的各种日常任务的能力。

操作系统:LLM必须执行与计算机操作系统的使用相关的任务。

数据库:这个环境是关于LLM如何与数据库合作。

知识图:此环境测试LLM如何使用知识图。

数字卡牌游戏:这测试了LLM对数字卡牌游戏和制定策略的理解程度。

横向思维难题:此挑战测试法学硕士在解决问题时的创造力。这要求他们跳出框框思考。python

预算:此场景涉及基于 Alfworld 数据集的预算中发生的任务。

互android联网购物:此场景测试LLM在与在线购物相关的任务上的表现。

网页浏览:基于 Mind2Web 数据集，此场景测试LLM执行与使用互联网相关的任务的能力。

结果显示，GphpPT-4以最高总分4.41领先于其他模型，在几乎所有领域都表现出色，只在网购任务中稍逊于 GPT-3.5。

竞争对手 Anthropic 的 Claude 模型紧随其后，总得分为2.77，领先于 OpenAI 的免费 GPT-3.5Turbo 模型。商业模型的平均得分为2.24。与开源模型相比，GPT-4的优势更加明显，开源模型的平均得分只有0.42。

研究人员指出，开源模型在所有复杂任务中普遍表现不佳，远远落后于 GPT-3.5。研究团队将工具包、数据集和基准测试环境提供给研究界，以编程客栈便进行更广泛的性能比较。

关键词：

上一篇：文明出行交通安全共同守护
下一篇：最后一页

特别关注

宇瞳光学：安防领域今年出货量有望增长20%左右

宇瞳光学(300790)在投资者关系活动记录表中披露，在安防领域，今年第一

2023-08-11 10:44
数据要素概念股震荡走低

数据要素概念股震荡走低，三维天地(301159)跌超10%，卓创资讯(301299)

2023-08-11 10:53
智度股份：全球首款ChatGPT音箱将由VIFA于8月17日全球首发

智度股份(000676)今日官微消息，全球首款ChatGPT音箱，将由VIFA于8月17

2023-08-11 10:44
海南召开持续深化农垦改革领导体制和工作机制专题会议

8月10日，海南省委副书记沈丹阳主持召开专题会议，听取农垦改革相关情

2023-08-11 10:45
医美概念股震荡走高

医美概念股震荡走高，哈三联(002900)涨超8%，冠昊生物(300238)、爱朋医

2023-08-11 10:56
海康威视等设新公司经营范围含储能技术服务

企查查APP显示，近日，浙江海视鹿跃科技有限公司成立，注册资本2000万

2023-08-11 10:54
人民日报聚焦山东聊城：优质肉蛋奶丰富“菜篮子”

加快发展现代设施畜牧业，2030年我国畜禽养殖规模化率将达83%以上优质

2023-08-11 10:10
视频丨草长莺飞、碧水连天，马踏湖生态治理重现北国江南风光

“打华沟向北走，马踏湖上走一走，马踏湖不吹嘘，这是国家认定的旅游区

2023-08-11 10:12
内盘菜籽粕期货主力开盘涨超2%

内盘菜籽粕期货主力开盘涨超2%，纯碱、液化气、PTA、豆粕、不锈钢涨超1

2023-08-11 09:46
中国央行今日进行20亿元7天期逆回购操作

中国央行今日进行20亿元7天期逆回购操作，中标利率为1 90%，与此前持平

2023-08-11 09:53

热文推荐

研究：GPT-4 在执行多项现实任务中击败其他大语言模型

特别关注

焦点资讯