酒有十千,棋有独步——本土大模型百花齐放,文心一言站稳领先者身位 RlueEva-System 大模型测评来了!你 pick 哪一家
图片图片 2023 年上半年,在人工智能领域最火爆的概念非大模型莫属,仅在中国从百度率先推出中文大模型“文心一言”以来,短短数月堪称“百模大站”的市场竞争迅速白热化,截止 7 月中国本土已发布内测或公布正在研发的大模型已经超过数十家。一方面,业内多数有识之士形成共识,大模型的竞争将逐步收敛到谁能够率先有效的实现行业落地和行业价值的呈现;另一方面,基于大模型的自主学习和优化能力,负责任的开发者和团队正在思考如何应对“随着持续进步,未来的通用模型可能会默认学习各种危险的能力”。
与此同时,在更高层面,作为负责任的大国,中国针对高速发展的 AI 技术,率先在国家层面推动 AI 立法工作,探寻有助于 AI 技术发展和监管的路径。7 月 6 日,在世界人工智能大会科学前沿全体会议上,科技部战略规划司司长梁颖达表示,中国鼓励人工智能前沿研究和原始创新,鼓励人工智能技术开源发展,坚持科技向善的理念,发展负责任的人工智能。
这意味着针对中文大模型的健康发展,需要一款能够评估他们各方面能力输出水平的评测体系。
而正是于此,根据大模型测评工具 RlueEva-SystemTE 的最新测评结果(RlueEva-System,旨在搭建一套包括评测指标、评测范围、评测方法、评测环境等在内的评测体系,以可参照的透明作业流程对各类大模型的实际能力做出测评。),以文心一言为代表的中国本土通用大模型的能力正在显著提升,综合能力的行业平均水平已经与 ChatGPT3.5 不相上下。
此次评测体系指标共 6 大维度,包括基础服务能力、交互响应能力、理解创作能力、深度推理能力、专业领域能力、安全体系能力,一共覆盖 27 个细化的指标项。
评测体系范围覆盖时事、政治、舆论、热点、历史、文化、人文、科技、经济、社会、行业、场景等十数个领域,每个领域设置了 100 个以中文为载体的评测任务和内容。
在“安全体系能力”方面,文心一言已经完全拉开了与 GPT3.5 及本土其他大模型的差距。
在基础服务能力、交互响应能力、理解创作能力方面,国产通用大模型都能够表现出相当的水平,且不弱与 GPT3.5 的实测表现,但国产通用大模型已经初步形成了不同的能力梯队;在深度推理能力和专业领域能力方面,本次评测的所有通用大模型,所展现出来的能力存在一定优化空间。
未来,强化通用大模型生成内容及安全性能力建设,是提升需求侧“持续获得感”的重要基石。
获得感是需求侧在使用通用大模型时所获得的收益和体验,这包括提高效率、降低成本、优化决策、解决问题等方面。通过不断提高模型的准确性和效果、增强用户体验、提供个性化服务以及加强安全体系建设和保护能力等方面,可以为需求侧带来更好的获得感,从而推动通用大模型的广泛应用和发展。而提升大模型需求侧获得感的具体举措,TE 智库建议可以从以下几个方面着手:
提供个性化服务通用大模型应该能够根据用户的需求和偏好,提供个性化的服务。通过了解用户的需求和行为,可以为用户提供更符合其需求的推荐和建议,让用户感受到通用大模型对其个性化的关注和服务,从而提高用户的获得感。增强用户体验通用大模型应该具备良好的用户体验,包括易于理解和使用的交互界面、快速响应和高效处理用户请求的能力等。通过优化用户体验,可以让用户更愿意使用通用大模型,从而增强用户的获得感。加强安全体系建设和保护通用大模型应该能够保护用户的数据安全和隐私。通过加强数据安全和隐私保护措施,可以让用户对通用大模型产生信任感和安全感,从而提高用户的获得感。提高模型的准确性和效果通用大模型应该具备高准确性和效果,能够为用户提供精准的预测和决策支持。通过不断优化算法和模型,提高模型的性能和效果,可以让用户更信任和依赖通用大模型,从而提高用户的获得感。
评论