• 发文
  • 评论
  • 微博
  • 空间
  • 微信

中文大模型评测基准最新排名出炉!看看哪家上榜

商业秀 2024-05-07 17:28 发文

最新的中文大模型评测排名出炉啦,近日,国内权威的大模型评测机构SuperCLUE最新发布了《中文大模型基准测评2024年度4月报告》。报告选取国内外具有代表性的32个大模型4月份的版本,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考,真实准确地反映了国内外大模型在中文领域的综合能力和发展现状。报告显示,国内大模型的第一梯队已达到或接近国际一流的水平,其中既有腾讯混元、文心一言、通义千问等来自大厂的大模型,也有GLM-4、Baichuan3、Moonshot和Minimax等大模型创业公司的代表。

据了解,SuperCLUE是国内权威的通用大模型综合性测评基准,其前身是知名的第三方中文语言理解测评基准CLUE(The Chinese Language Understanding Evaluation)。SuperCLUE基于通用大模型在学术、产业与用户侧的广泛应用,构建了多层次、多维度的综合性测评基准,由十大基础任务组成,包括逻辑推理、代码、语言理解、长文本、角色扮演等。为更真实反映大模型通用能力,SuperCLUE本次测评由十大基础任务组成,包括逻辑推理、代码、语言理解、长文本、角色扮演等,题目为多轮开放式简答题,评测集共2194题。

这次尤其值得注意的是腾讯混元大模型,在基础和场景应用上均处于领先位置。在测评报告的总分排名上,腾讯混元大模型位列前三。在十大能力得分中,腾讯混元大模型的各项能力较为均衡,在语义理解能力上,以75.4的高分排名国内第一;在角色扮演、安全能力、计算、逻辑推理、工具使用、长文本能力上,也均处于位于国内一流水平。

自2023年9月首次亮相以来,通过持续迭代和实践,积累了从底层算力到机器学习平台再到上层应用的完整自主技术。

算力上,腾讯拥有自研的星脉高性能计算网络,可为AI大模型带来10倍通信性能提升;训练和推理框架上,腾讯自研的机器学习平台训练速度是主流框架的2.6倍,大模型推理成本相比业界主流框架下降70%;算法上,腾讯混元大模型率先采用混合专家模型 (MoE) 结构,模型总体效果相比上代模型提升50%。

如今腾讯混元大模型的参数量超过万亿,tokens数超过7万亿,在应用层面,它已经支持腾讯内部超过400个业务和场景接入,并且腾讯旗下协作SaaS产品都全面接入了混元,实现了智能化升级,腾讯混元也已经通过腾讯云面向企业和个人开发者全面开放。

声明:本文为OFweek维科号作者发布,不代表OFweek维科号立场。如有侵权或其他问题,请及时联系我们举报。
2
评论

评论

    相关阅读

    暂无数据

    商业秀

    理解商业,看见价值。聚焦互联网科...

    举报文章问题

    ×
    • 营销广告
    • 重复、旧闻
    • 格式问题
    • 低俗
    • 标题夸张
    • 与事实不符
    • 疑似抄袭
    • 我有话要说
    确定 取消

    举报评论问题

    ×
    • 淫秽色情
    • 营销广告
    • 恶意攻击谩骂
    • 我要吐槽
    确定 取消

    用户登录×

    请输入用户名/手机/邮箱

    请输入密码