人工智能行业最新动态
OpenAI 发布 GPT-5.3-Codex,在编码任务上表现卓越:SWE-Bench Pro 57%、TerminalBench 2.0 76%、OSWorld 64%。支持任务中途调整和实时更新,响应更快
Anthropic 工程博客:Opus 4.6 使用代理团队自主构建 C 编译器,两周后成功在 Linux 内核上运行。分享了关于大规模代理协作的经验教训
Cursor 宣布 Opus 4.6 已上线,在长时间运行任务和代码审查方面表现出色
OpenAI 与 Ginkgo Bioworks 合作,将 GPT-5 连接到自主实验室。AI 可自主提出实验方案、大规模运行、学习结果并决定下一步,形成闭环研究系统
Perplexity 推出 Model Council 功能,同时运行三个前沿模型,比较输出并获得更准确、更高置信度的答案。仅限网页版 Perplexity 用户
Cursor 团队分享长时间运行代理系统经验:在最近一次为期一周的运行中,数百个代理每小时产生超过 1,000 次提交。首次公开分享相关经验
Kimi 宣布首次登顶 OpenRouter LLM 排行榜总使用量榜首,这是团队的重要里程碑。感谢所有用户的支持
v0 发布重大更新:可导入任意 GitHub 仓库并在实际代码库上工作,每次代码更改自动生成提交,支持直接从 v0 创建 PR 和合并
vLLM-Omni 论文已上传 arXiv,记录了为任意到任意多模态模型服务的系统设计,采用基于阶段的分解方法
Sam Altman 表示使用新模型的体验比基准分数显示的进步更大。新模型支持「务实」和「友好」两种人格风格选择
Anthropic 发布工程博客,量化代理编码评估中的基础设施噪声。基础设施配置可能使代理编码基准分数波动数个百分点
HuggingFace 发布 Community Evals 和 Benchmark 仓库,支持去中心化评估。用户和模型作者报告的分数将显示在排行榜上
Together 发布 Python SDK 2.0,全新类型安全、OpenAPI 驱动的客户端,设计更快更易用
上海 AI 实验室发布 Intern-S1-Pro,1T 参数 MoE 开源多模态科学推理模型,在科学推理任务上达到 SOTA,可与领先闭源模型竞争
NVIDIA 与 Dassault Systèmes 宣布开创物理 AI 新时代,打造可学习、模拟和进化的虚拟孪生技术
vLLM 宣布在 NVIDIA GB200 上运行 DeepSeek R1/V3 的性能数据:预填充 26.2K TPGS,解码 10.1K TPGS,使用一半 GPU 即可达到 H200 的 3-5 倍吞吐
Mistral 发布 Voxtral Mini 4B Realtime,4B 参数流式语音识别模型,延迟低于 500ms,准确率可比离线模型,vLLM 首日支持
vLLM 宣布首日支持 Intern-S1-Pro,这是一款万亿参数级 MoE 科学推理模型:1T 总参数、512 专家、每 token 激活 22B 参数
ElevenLabs 宣布将利用新融资加大对 ElevenAgents 的投入,使企业能够部署具有可靠性、集成、测试和监控功能的语音和聊天代理
Qwen3-Coder-Next 现已在 Together、HuggingFace 和 Ollama 上线,作为生产就绪的编码代理可供使用
Kimi 宣布支持斯坦福大学 CS224N 自然语言处理课程,学生将使用 Kimi K2.5 API 构建期末项目
NVIDIA Nemotron 在 HuggingFace 上的下载量突破 3000 万,vLLM 感谢与 NVIDIA AI Dev 的持续合作
Kimi 推出 K2.5 充值优惠活动第二轮:$200-$499 享 20% 赠券,$500-$1999 享 25% 赠券
Sam Altman 发推称「真的很期待几个月后让 Elon 宣誓作证,四月的圣诞节!」暗示 OpenAI 与 Elon Musk 的诉讼将在四月开庭
Sam Altman 宣布欢迎 Dylan Scand 加入 OpenAI 担任 Preparedness 负责人,称「事情即将快速推进,我们将很快使用极其强大的模型,需要相应的安全保障」
Andrej Karpathy 宣布启用 fp8 训练后复现 GPT-2 时间缩短至 2.91 小时,使用 8×H100 Spot 实例仅需约 20 美元。感叹「7 年前 GPT-2 被认为太危险不能发布,如今成为新手教程」
Sam Altman 宣布 Codex 应用上线首日下载量突破 20 万,用户反馈积极。「CODEX FTW!」
Runway 发布 Motion Sketch 功能,用户可通过手绘草图和标注来描述动作意图,配合 Gen-4.5 图生视频模型使用,无需编写文字提示
Anthropic 宣布 Claude Pro 和 Max 计划用户现可连接 Slack 工作区,支持搜索频道内容、准备会议、发送消息,无需离开 Claude 对话界面
Anthropic 宣布 Apple Xcode 现已直接集成 Claude Agent SDK,开发者可在 iPhone、Mac 和 Apple Vision Pro 等全平台获得 Claude Code 完整功能