• 发文
  • 评论
  • 微博
  • 空间
  • 微信

大模型的“繁花”时代到了!中国电信星辰语义大模型震撼开源!央企首家开源!

海峰看科技 2024-01-12 17:12 发布于陕西 发文

文/黄海峰的通信生活

这两天,由胡歌主演的电视剧《繁花》迎来大结局。在最后一刻,宝总转危为安,摆脱破产风险,玲子、汪小姐也迎来各自的结局。剧中人物处于巨变“繁花”时代,有着做时代弄潮儿的亢奋劲头,寄托着观众对美好未来的骐骥。

可喜的是,属于国产大模型领域的“繁花”时代来了!1月10日,中国电信星辰语义大模型TeleChat-7B版本(简称“TeleChat”)宣布开源,开放1T高质量清洗数据集。此外,中国电信将在1月底开源12B版本模型,为国产大模型发展注入新动能。

值得一提的是,星辰语义大模型已经适配昇腾AI基础软硬件。双方强强联合,构建国产化生态闭环,共同推动国产大模型在千行百业落地。

历经2023年百模大战洗礼,各家大模型已经在语言、语音、视觉等领域获得强大的生成能力。我们关心的是,星辰语义大模型的模型能力如何?其强大后盾何在?本次中国电信大模型开源将对行业带来哪些影响?我们来一一分析。

中国电信开源星辰语义大模型,抢滩大模型赛道

生成式AI作为人工智能的“iPhone时刻”,于刚刚过去的2023年,在国内掀起一场轰轰烈烈的“百模大战”。根据《2023中国新一代人工智能科技产业发展报告》显示,目前全国共有2200家人工智能企业,国内大模型总数达238个。无论是参与企业规模,还是大模型数量,中国已然成为仅次于美国的全球第二大大模型产业中心。

身处转型升级时期的电信运营商,自然也不愿错过这趟AI时代的列车。2023年11月,中国电信在2023数字科技生态大会上发布了千亿参数星辰语义大模型,并公布了后续的开源开放的时间表,并承诺面向开发者提供各类大模型工具支持。

这次,中国电信不仅将TeleChat-7B版本及其int8和int4量化版本的代码开源到Github社区,还同步上架到国内开源社区Gitee。

对于关注大模型的企业,这无疑是个利好消息,开发者可以直接下载TeleChat-7B int8量化镜像,大大加速了面向不同场景的大模型开发进程。

在这次开源信息中我发现一个亮点,那就是星辰语义大模型支持基于昇腾的Atlas 300I Pro推理卡运行推理任务。目前在搜索推荐、内容审核和OCR系统场景下有不错的表现。同时,星辰语义大模型可基于Atlas 训练服务器进行训练,支持PyTorch框架的基础上,增加了对昇思MindSpore框架的支持。模型精度、性能均表现不俗。

如前文所言,国内似乎并不缺大模型,最新的大模型数量已经超过了238个,但有强有弱。那么相比而言,中国电信推出的星辰语义大模型,其模型能力如何?技术亮点何在?

星辰语义大模型的优势很多,比如参数升级到千亿、支持 96K Token 上下文理解等。这里我想着重说的是大模型一直以来的老大难问题——幻觉,毕竟如果大模型在金融、法律等专业领域一本正经地胡说八道,会使得其专业性大打折扣。

而星辰语义大模型在业界首次提出缓解多轮幻觉的解决方案,通过关键信息注意力增强、知识图谱强化、多轮知识强化、知识溯源能力四大技术,将AI大模型的幻觉率降低了40%,这有助于大模型变得更有“人味”,真正去理解问题本身,告别风马牛不相及的答案。

说到这,你肯定很关心,本次开源的星辰语义大模型具备哪些能力,能为你的企业做哪些事?

我总结了四点:一是支持deepspeed微调,开源基于deepspeed的训练代码,支持Zero并行显存优化;二是多轮能力支持,开源多轮数据构建方式,集成针对多轮的mask loss训练方式,提升问答效果;三是外推能力提升,开源8K训练版本模型,还能外推到96K;四是长文生成能力很赞,对工作总结、PPT大纲、招标书等长文写作任务,均能胜任。

星辰语义大模型表现不俗,离不开中国电信三大后盾

开发出大模型只是打好地基,能为行业带来价值才是关键。

目前国产大模型很多,但是基于大模型开发的AI原生应用却很少。在大模型的应用场景落地上,星辰语义大模型在中国电信内部以及对外企事业单位客户的业务上,取得不错的反馈效果。

一方面,在中国电信内部,星辰语义大模型赋能行文写作、代码编程、网络故障分析以及经营分析等场景,以行文写作为例,其平均生成字数超过1500字,有效采纳率达到85.7%。

另一方面,在对外项目中,星辰语义大模型赋能企业经营分析、政务公开咨询、民生诉求接待等场景。

星辰语义大模型能有如此不俗的表现,是因为它站在巨人的肩膀上跳舞,其背靠着中国电信“算、数、法”三重强大后盾作为支撑。

其一,海量数据。中国电信在基础数据沉淀、数据流转通道和数据标注三个方面有核心数据优势。其中,基础数据包括全国海量热线咨询对话数据、大量工单办理数据、产品和活动数据。同时,中国电信使用大量通用知识数据,为大模型算法训练提供坚实基础。

其二,大规模算力资源。新型深度学习架构Transformer,在人工智能架构中占据主导地位,目前主流AI模型和产品都是基于Transformer构建,大模型对算力提出极大的要求。

中国电信在“2+3+7+N+M”布局基础上,构建中心、省、边缘、端的四级算力体系,打造可满足多个大模型同时训练的公共智算中心,实现分布式算力基础设施的高效互联。

其三,顶尖算法团队。中国电信大模型由下属专业AI公司——中国电信人工智能科技公司(简称“电信智科”)负责开发,并建立起高精尖的业界顶尖算法科学家团队,在语音、语义、图像等领域进行业界核心领先算法进行自研攻坚。

据了解,电信智科员工人数800人,研发人员占比75%,均是来自一线科技公司的资深工程师和来自国内外一流高校的应届生。厚实的人才积累使得公司能在对内对外业务中,取代外部算法能力,实现核心算法能力的自主可控。

笔者观察:国产大模型迎来“繁花”时代

为了抢滩大模型赛道,中国电信有着自己的思考,总结起来就是三条腿走路——模型能力、场景落地和开放生态。其中,开放的生态环境是重中之重。

纵观当前国内研发大模型的企业,主要以互联网大厂和专业大模型公司为主。不少传统行业开发者空有一身行业能力,但苦于没有技术能力和外围资源,只能对大模型望而生叹。

但本次的TeleChat-7B版本开源,夯实了中国电信构建开放生态的重要一环,降低了开发大模型的门槛,让国内企业集体上车,让企业可以在中国电信构建的大模型、算力等地基上“稳稳地造”。这体现了中国电信作为央企的责任传承,有力支持服务型、科技型、安全型企业发展目标落地。

与此同时,我国大模型还存在自主关键技术不足的问题,针对这一点,中国电信在核心算法上选择自研攻坚,并携手昇腾AI构建开源生态,充分体现了中国电信要做AI领域央企第一、国内前三的信心和决心。

整体上看,此次星辰语义大模型开源,说明属于国产大模型的“繁花”时代来了。面向未来,希望中国电信拾级而上,持续助力大模型快速落地到千行百业,成为推动产业升级的中坚力量。

声明:本文为OFweek维科号作者发布,不代表OFweek维科号立场。如有侵权或其他问题,请及时联系我们举报。
2
评论

评论

    相关阅读

    暂无数据

    海峰看科技

    关注5G、云计算、AI、终端的科...

    举报文章问题

    ×
    • 营销广告
    • 重复、旧闻
    • 格式问题
    • 低俗
    • 标题夸张
    • 与事实不符
    • 疑似抄袭
    • 我有话要说
    确定 取消

    举报评论问题

    ×
    • 淫秽色情
    • 营销广告
    • 恶意攻击谩骂
    • 我要吐槽
    确定 取消

    用户登录×

    请输入用户名/手机/邮箱

    请输入密码