• 发文
  • 评论
  • 微博
  • 空间
  • 微信

0521晚报:Google I/O 开发者大会 | 全球首个无限步骤AI智能体 | 英伟达让机器人通过梦境学习新技能

机智流 2025-05-22 10:41 发文

作者:HowardZhangdqs

资讯GoogleI/O 2025开发者大会:AI与AR的创新盛宴

Google I/O 2025于5月20日至21日在加州山景城举行,聚焦人工智能(AI)、Android、Web和云计算领域的重大更新。大会发布了Gemini Ultra订阅服务(每月250美元),提供最高级别AI访问权限,包括Veo 3视频生成器、Flow视频编辑应用及Gemini 2.5 Pro的Deep Think模式。此外,谷歌推出Android XR智能眼镜原型机,与Warby Parker等品牌合作,支持增强现实功能,预计2025年底发布。Gemini应用月活用户已超400万,并计划与谷歌地图、日历等服务深度集成。

https://io.google/2025/

Google推出AI编程智能体Jules:重构开发者工作流

Google Labs发布Jules,一款集成Gemini模型的AI编程智能体,支持自动生成代码、分解复杂任务、运行测试并与GitHub无缝集成。开发者通过自然语言描述需求,Jules生成详细计划并自动编写代码,支持Python和JavaScript,每日提供5次免费任务。其“仓库视图”(Repo View)可管理任务历史,即将推出的“Codecast”功能可生成代码库活动的音频摘要。Jules定位为GitHub Copilot的竞争者,强调自主性和Google生态深度整合。

https://jules.google.com/

英伟达发布DreamGen项目:机器人通过梦境学习新技能

英伟达推出DreamGen,利用视频世界模型(如Sora、Veo)生成神经轨迹,让机器人在“梦境”中自主探索学习。在RoboCasa基准测试中,合成数据规模扩展至人类演示的333倍,显著提升机器人在复杂任务中的成功率(如叠毛巾、擦液体)。实验显示,仅需10-13条真实轨迹,机器人即可学会22种新技能,并在陌生环境中实现从0到28%的泛化能力。DreamGen通过微调视频模型、生成虚拟数据、提取伪动作标签等流程,为机器人训练提供高效解决方案。

https://www.nvidia.com/en-us/research/dreamgen/

何恺明团队发布MeanFlow:单步图像生成新SOTA

何恺明团队(CMU与MIT联合)提出MeanFlow,一种基于平均速度场的单步生成建模框架,在ImageNet 256×256数据集上实现FID 3.43的SOTA性能,无需预训练或蒸馏。MeanFlow通过引入平均速度概念优化流匹配方法,从头训练即可达到显著提升,其开源代码和论文已在arXiv发布。该模型为生成模型的效率与性能平衡提供了新思路,尤其在计算资源受限场景中表现优异。

https://arxiv.org/abs/2505.13447

Flowith Agent NEO发布:全球首个无限步骤AI智能体

Flowith发布Agent NEO,支持无限步骤、无限上下文(10万token)和无限工具调用,可处理长达数月的复杂任务(如撰写百万字小说、开发3D游戏)。其多线程画布界面允许同时与多个代理协作,云执行能力达10 petaflops,适用于内容创作、学术研究和软件开发。在GAIA基准测试中,Agent NEO在复杂任务上准确率达90%,超越Claude 3.7和GPT-4o。用户可通过邀请码注册体验,免费版支持基础功能,付费会员提供更多资源。

https://flowith.net/

Hugging Face推出Tiny Agents:轻量级AI代理框架

Hugging Face发布Tiny Agents,一个基于Inference Client和MCP(模型上下文协议)的轻量级代理框架,已集成到NPM包中。Tiny Agents支持快速构建可组合的AI代理,强调代码生成作为核心交互方式,而非传统的JSON指令。框架提供与Hugging Face Hub的无缝集成,支持多种LLM(包括Claude和GPT-4),并通过简化逻辑和模块化设计降低开发门槛,适用于需要灵活工具调用的应用场景。

https://huggingface.co/docs/smolagents/index

小工具II-Agent

Intelligent Internet(II)团队发布了全球首个完全开源的通用AI代理II-Agent。II-Agent基于Anthropic的Claude模型,支持多模态处理、工具使用和网络搜索,可用于研究与事实核查、软件开发、工作流自动化等场景。其开源框架提供CLI接口、WebSocket服务器和Google Cloud集成,强调开放透明的“Agent群体协作”愿景。

https://github.com/intelligent-internet/ii-agent

声明:本文为OFweek维科号作者发布,不代表OFweek维科号立场。如有侵权或其他问题,请及时联系我们举报。
2
评论

评论

    相关阅读

    暂无数据

    机智流

    关注AI领域前沿产业资讯和学术研...

    推荐商品

      举报文章问题

      ×
      • 营销广告
      • 重复、旧闻
      • 格式问题
      • 低俗
      • 标题夸张
      • 与事实不符
      • 疑似抄袭
      • 我有话要说
      确定 取消

      举报评论问题

      ×
      • 淫秽色情
      • 营销广告
      • 恶意攻击谩骂
      • 我要吐槽
      确定 取消

      用户登录×

      请输入用户名/手机/邮箱

      请输入密码