人工智能行业最新动态
新论文提出 Beyond Length Scaling 方法,通过协同广度(多样本)和深度(长推理)两个维度来提升生成式奖励模型的性能。
新论文 BBQ-to-Image 提出在大规模文生图模型中实现数值边界框和颜色(Qolor)控制的方法,提升图像生成的空间和色彩精度。
宝玉评论称 MCP 协议一年多仍然活跃,Agent Skills 已成为所有 Agent 的核心基础架构,OpenClaw 的强大正源于其丰富的 Skills 体系。
OpenAI Codex App 登陆 Windows,支持 PowerShell、Git Bash 和 WSL,构建原生沙盒机制限制 AI 写文件权限和网络访问,新增 WinUI 等 Windows 专属技能。
Replicate 宣布 Qwen Image 2 上线,支持完美文字渲染、专业排版(幻灯片/海报/漫画)和 2K 照片级图像生成,架构更轻量推理更快。
Elon Musk 公开指责媒体 Axios 实际上是 OpenAI 的公关机构,凸显 xAI 与 OpenAI 之间持续的竞争和舆论交锋。
xAI 发布声明,表示致力于部署让人们生活更美好的人工智能,同时将在数据中心附近增加电力基础设施,以降低美国民众的能源成本。
Browserbase 展示了与 Claude Code 集成的远程浏览器 QA 能力:AI Agent 可在真实浏览器中模拟用户操作测试登录等流程,并提供完整操作回放。
Elon Musk 透露 Tesla 将在数月内停产 Model S 和 Model X,将弗里蒙特工厂空间转为生产 Optimus 人形机器人,建议消费者尽快下单。
Perplexity 为其 Computer 产品推出语音交互模式,用户无需打字,通过对话即可完成各种操作,进一步降低 AI 操控电脑的使用门槛。
xAI 宣布将建设 1.2GW 发电厂作为其超级计算机的主要电力来源,该电厂将独立于本地电网供电。公司强调在部署 AI 的同时将帮助降低美国民众的能源成本。
Replit 发布两种开发模式的区别说明:Design 模式用于快速 UI 布局设计,App 模式用于逻辑、功能等完整应用开发。
论文《Beyond Language Modeling》系统探索多模态预训练方法,研究如何突破传统语言建模框架,有效整合多种模态信息。
论文提出 Utonia 架构,旨在用单一编码器处理所有类型的点云数据,向通用 3D 场景理解迈出重要一步。
英国森林研究机构借助 Meta 开源计算机视觉模型 DINO,在林业监测和森林生态管理方面取得实质进展。
Google Search 的 AI Mode Canvas 功能现已面向美国所有英语用户开放,新增创意写作和编程任务支持,用户可在搜索中直接构建计划、起草文档或创建交互工具。
海螺 AI 将参加 3 月 6-7 日在首尔乐天影城举办的 WAIFF AI 电影节,并设立「MiniMax 最佳青年 AI 电影奖」,奖品包括年度 Max 会员及 5000 积分。
AI 编程工具 Cursor 宣布通过 Agent Client Protocol(ACP)正式支持 JetBrains 系列 IDE,开发者现可在 IntelliJ、PyCharm 等环境中使用 Cursor 的 AI 能力。
Replit 与 Alif 合作举办黑客松活动,发布参赛者项目作品视频集锦。
Helios 是一个 14B 参数的视频生成模型,统一支持文生视频/图生视频/视频转视频三种任务,单张 H100 可达 19.5 FPS,支持分钟级长视频生成,已集成到 SGLang。
Meta 首席 AI 科学家 LeCun 在 Musk 的 AGI 言论下回复讽刺,称 Tesla 将率先实现「Artificial Grokon Intelligence」,暗讽 Grok 模型水平。
Musk 发文称 Tesla 将成为实现 AGI 的公司之一,且可能是首个以人形机器人/原子操控形态实现 AGI 的公司。
研究者提出 Sphere Encoder 新方法用于图像生成,探索球面表征空间在生成模型中的应用潜力。
据 The Information 报道,OpenAI 正开发代码托管平台以替代 GitHub。起因是工程师频繁遭遇 GitHub 服务中断。项目仍处早期阶段,可能作为内部工具或未来商业产品。
Sam Altman 在全员大会上表示 OpenAI 不能做出作战决策,五角大楼如何使用其 AI 不由公司决定。OpenAI 正重新修订合同条款,将明确禁止用于美国公民国内监控。此前 OpenAI 火速接替 Anthropic 与五角大楼合作引发争议。
研究者提出利用奖励建模来增强图像生成模型的空间理解能力,改善生成图像中物体的空间位置和关系准确性。
n8n 发布新播客教程,展示如何抓取 App 评论数据,通过新的 Pinecone Assistant 节点进行对话式分析,并将洞察转化为带历史记录和日志的微型 SaaS 产品。
Replit 发布直播演示视频,展示如何在其平台上快速构建营销获客和销售驱动工具,体现 AI 编程在实际商业场景中的应用。
Google DeepMind 发布 Gemini 3.1 Flash-Lite,性能超越上一代 2.5 Flash,同时速度更快、价格更低。新增思考级别功能,可根据不同任务灵活调节推理深度,支持 UI 生成、仪表盘和模拟等复杂任务。
LMSys 与 NVIDIA 合作展示 SGLang 在 GB300 NVL72(Blackwell Ultra)上的推理性能,相比 H200 实现 25 倍吞吐量提升,GB200 NVL72 在 4 个月内性能提升 8 倍,关键技术包括 NVFP4 GEMM 优化和计算通信重叠。