小米开源首个7B推理AI大模型!聊聊小米如何通过架构创新和奖励模型等训练策略创新,媲美o1-mini
作者:羰汤羰及 InternLM、Qwen 等 LLM 全文约 4200 字,预计阅读 12 分钟 昨天 ,阿里通义发布了两款 MoE 模型和六款 Dense 模型,即便是其小尺寸模型 Qwen3-4B,在数学推理和编程上的性能依旧令人惊艳。 然而就在今天早晨,新组建的「小米大模型 Core 团队」突然开源四款 MiMo-7B 系列模型(包括基础模型、指令微调模型和两款强化学习模型),以仅
机智流
2025.05.06作者:羰汤羰及 InternLM、Qwen 等 LLM 全文约 4200 字,预计阅读 12 分钟 昨天 ,阿里通义发布了两款 MoE 模型和六款 Dense 模型,即便是其小尺寸模型 Qwen3-4B,在数学推理和编程上的性能依旧令人惊艳。 然而就在今天早晨,新组建的「小米大模型 Core 团队」突然开源四款 MiMo-7B 系列模型(包括基础模型、指令微调模型和两款强化学习模型),以仅
了不起的云计算
2025.04.294月29日凌晨,阿里正式对外发布Qwen3系列模型。DeepSeek-R1、OpenAI的o1和o3-mini、马斯克的Grok-3以及谷歌的Gemini-2.5-Pro等顶级模型相比,展现出极具竞争力的结果。 Qwen3 的基准测试指标相当好,其中,旗舰模型Qwen3-235B-A22B表现卓越,而小型MoE模型Qwen3-30B-A3B激活参数数量仅为Qwen3-32B的10%,但性能更
前方智能
2025.04.28日前,同为清华系的两家 AI 领域企业智谱与生数科技正式宣布达成战略合作,双方将凭借在大语言模型和多模态生成模型领域的深厚技术积累与显著优势,全方位开展联合研发、产品联动、解决方案整合以及行业协同等合作。 根据双方签署的战略协议,在产品合作方面,智谱的 MaaS 平台将接入生数科技的 Vidu API。这一接入,意味着智谱 MaaS 平台能够融合 Vidu 强大的视频生成能力,进而为更为广泛的开
快科技
2025.04.18快科技4月18日消息,据报道,阿里巴巴旗下通义万相宣布开源其创新视频生成技术——"首尾帧生视频14B模型"。 这项突破性AI技术能够根据用户提供的起始和结束画面,智能生成720p高清过渡视频,为视频创作带来全新可能。 该模型通过先进的深度学习算法,能够精准理解输入画面的内容、风格及主题特征。当用户提供首尾两帧图像后,模型会智能分析画面中的视觉元素,包括物体形态、色彩构成
前方智能
2025.04.18日前,阿里通义万相宣布开源业界首个百亿参数规模的首尾帧生视频模型Wan2.1-FLF2V-14B,可根据用户提供指定的开始和结束图片,生成一段衔接首尾画面的720p高清视频。 图源:网络 基于现有的Wan2.1文生视频基础模型架构,通义万相首尾帧生视频模型进一步引入了额外的条件控制机制,通过该机制可实现流畅且精准的首尾帧变换。 在推理阶段,为了在有限内存资源的条件下支持高清视频推理,
前方智能
2025.04.16日前,智谱AI正式向中国证监会北京证监局提交上市辅导备案,由中金公司担任辅导机构。作为国内 “大模型六小虎” 中首家启动IPO的企业,智谱AI计划于2025年10月完成辅导,最快2026年登陆A股。 公开资料显示,智谱无控股股东,实际控制人为唐杰、刘德兵。唐杰直接持有智谱7.4081%股权。刘德兵直接持有智谱华章0.2554%股权,并通过持股平台合计控制智谱17.3966
雷科技
2025.04.02比起新模型本身,开源的意义更大。 在暗示推出一款开源模型的一个多月后,OpenAI 似乎准备好「兑现」承诺了。 4 月 1 日,OpenAI CEO 山姆·奥特曼(Sam Altman)在社交平台 X(原 Twitter)上公开宣布:OpenAI 计划在接下来的几个月内,发布一个强大的、具备推理能力的开放权重(Open-Weight)大模型。 图/ X 是 DeepSee
蓝鲨硬科技
2025.03.17"扎根应用,创造价值" 作者 | 黄 炜 编辑 | 卢旭成 3月16日,百度抛出了两款核弹级产品——文心大模型4.5以及文心大模型X1。 按照百度的设定,文心大模型4.5,是一款多模态基础大模型,擅长生成及解读图片、视频,能解答多领域问题;文心大模型X1,是一款深度思考模型,在逻辑推理、复杂计算及工具调用等方面表现尤为出色。 根据Ben
前方智能
2025.03.13编译/前方智能 谷歌近日发布了其最新的开源 AI 模型 Gemma 3,声称其为“全球最强单加速器模型”。Gemma 3 基于与 Gemini 2.0 模型相同的研究和技术,旨在实现高性能和高效率,尤其是在资源受限的环境中。 图源:谷歌 Gemma 3 提供 1B、4B、12B 和 27B 四种参数规模,支持超过 35 种语言,并具备分析图像、文本和短视频的多模态
快科技
2025.03.13快科技3月13日消息,自3月6日发布通义千问QwQ-32B以来,目前,通义千问QwQ-32B稳居全球最大AI开源社区HuggingFace趋势榜榜首,成为当前最受欢迎的开源大模型之一。 值得关注的是,近期,多家海外AI平台也宣布接入了该开源模型。 据了解,AI平台SambaNova Systems全面支持QwQ-32B推理,并在输出速度上达到最高水平。 SGlang、Ollama、CAMEL
前方智能
2025.03.05日前,国内大模型独角兽智谱宣布推出「智谱2025开源年」第一个模型:首个支持生成汉字的开源文生图模型CogView4。 在DPG-Bench基准测试中,CogView4综合评分排名第一,在开源文生图模型中达到SOTA,也是首个遵循Apache 2.0协议的图像生成模型。 图源:智谱 据悉,CogView4具备较强的复杂语义对齐和指令跟随能力,支持任意长度的中英双语输入,能够生成在给定范围
锌财经
2025.03.04作者|孙鹏越 编辑|大 风 谁也想不到,一直以“开源”和“免费”为核心的DeepSeek,居然是第一个打通商业闭环的AI大模型。 五天五连炸的“DeepSeek开源周”正式收官,给硅谷科技巨头带来了亿点点中国科技震撼。 在开源周的收官日,DeepSeek不仅放出了DeepSeek-V3/R1
数科社
2025.03.032月28日,百度扔出深水炸弹:文心大模型4.5将在3月16日正式登场,且6月30日正式开源,并强调该版本“在基础模型能力、多模态与深度思考能力上实现跨越式提升”。同样在2月28日凌晨,OpenAI突然空降发布GPT-4.5模型,但其性能与市场预期存在显著差距。 这场戏剧性的“隔空交锋”,揭开了大模型竞赛下半场的核心命题—&mdash
光子星球
2025.02.24撰文 | 郝 鑫 编辑 | 吴先之 DeepSeek冲击影响下,云和AI正在成为重估阿里的标尺。 2月20日,阿里发布2025财年第三季度业绩报告(截至2024年12月31日止)。报告期内,阿里云实现营收317.42亿元,同比增长13%,相比上一季度7%的增速接近翻倍。整体收入(不计来自阿里巴巴并表业务的收入)实现双位数同比增长11%。调整后EBITA增长3
陆玖商业评论
2025.02.20技术基建和应用生态,才是支撑百度开源战略的真正底牌。 2月18日,百度发布2024年Q4及全年业绩。财报数据显示,百度全年总营收1331亿元,归属百度核心净利润达234亿元,同比增长21%。 值得一提的是,这部分利润增幅,很大程度来自云业务的强劲增长。数据显示,四季度收入同比增长达26%。云业务的增长,则很大程度来自与AI业务的同频共振。 截至报告期末,文心大模型日调