来自 Twitter · Hacker News · GitHub 的 AI 行业动态
Chamath 评论微软移除 Claude 一事,指出企业 AI 工具的核心问题不是能力,而是缺少上下文与监管会让工具在循环中无限运行、推高成本,看好 8090 Software Factory 这类控制层方案。
Anthropic 与合作伙伴在上月启动的 AI 网络安全协作项目 Project Glasswing 中,已在关键软件里发现超过一万个高危或严重级漏洞。
OpenAI CEO Sam Altman 公开向社区征集愿景,询问大家最希望 AI 在未来能解决的核心问题,暗示 OpenAI 或将据此推进下一步研究方向。
DeepSeek 宣布 V4-Pro 模型的促销价格永久生效,鼓励开发者继续基于 V4-Pro 构建创新应用。
OpenAI 在「Codex 周四」发布多项更新,其中 Codex 现可从手机端安全调用 Mac 上的应用,即便 Mac 处于锁定、息屏状态也能运行。
swyx 正开发一个 skill,把简陋的「氛围编程」MVP 应用改造为可维护、端到端测试的生产级 agent 代码库;该工具昨日自主运行约 16 小时、提交 103 次。
英伟达 CEO 黄仁勋与戴尔 CEO 迈克尔·戴尔联合发布 Dell AI Factory 重大更新,全栈平台覆盖从桌面工作站到搭载 NVIDIA Vera Rubin 的数据中心机架,面向企业级自主 AI agent。
Google DeepMind 为 Google Antigravity 推出 Science Skills,整合 UniProt、AlphaFold 数据库等 30 多个生命科学权威数据源,加速日常科研工作流。
谷歌公布今秋将推出的 AI 音频眼镜,与三星、Gentle Monster、Warby Parker 合作设计,内置 Gemini 提供免手操作的智能助手功能。
Google 在 I/O 上宣布为 Pomelli 加入 agentic 能力,企业可从已有文件构建「Business DNA」、生成品牌手册,并一键生成完整网站。
OpenAI 宣布向 YC 现有批次(2026 春季 + 夏季)的每家创业公司提供价值 200 万美元的 API token 额度——但并非免费赠送,而是通过 SAFE 协议换取少量股权(媒体测算公司估值达 1 亿美元时约合 2%)。此举意在吸引创业公司基于 OpenAI 构建,也引发对创始人控制权与供应商锁定的讨论。
Runway 推出 Aleph 2.0,用户编辑视频中的单帧后,模型可将该改动自动延续到整段视频,已在网页版 Edit Studio 上线。
Figure AI 人形机器人直播已连续运行 191 小时,累计处理 23.8 万个包裹,展示其在物流场景下的持续作业能力。
Paul Graham 认为学校对 AI 的使用应制定差异化政策,某些场景应鼓励使用,另一些场景则应彻底禁止。
YC 总裁 Garry Tan 表示当下是 AI 的「Apple II 时刻」,呼吁创业者抓住机会,成为未来为数十亿人打造个人 AI 的群体之一。
xAI 宣布用户现可凭 Grok 或 X Premium 订阅在 opencode 中调用 Grok Build 背后的模型,主打高速度与代码库理解能力。
Claude 官方账号分享用 Claude Design 进行原型设计与创意尝试,展示其在界面与视觉设计方向的探索。
Meta 首席 AI 科学家 Yann LeCun 称,人们正逐渐意识到当前 AI 距离人类的智能与学习能力仍很遥远;它之所以好用,是靠积累海量陈述性知识来弥补常识缺失、对现实理解不足以及有限的推理与规划能力。
据 Artificial Analysis 评测,Qwen3.7-Max 在智能指数上拿到 56.6 分,较 Qwen3.6-Max-Preview 提升 4.8 分;官方称其科学推理更敏锐、Agent 能力更强、编码表现更好,且幻觉更少。
阿里通义千问推出最新旗舰模型 Qwen3.7-Max,面向 Agent 场景:可端到端完成编码、通过 MCP 集成处理办公与生产力任务,并具备长程自主能力——官方称其曾在内核优化任务上连续运行 35 小时、调用工具超 1000 次,且与 Agent 脚手架无关。
SpaceX 正为新成立的 SpaceXAI 招募世界级工程师与物理学家,强调即使毫无 AI 经验也欢迎申请,应聘者需向指定邮箱发送约 3 条要点邮件,马斯克表示将亲自审阅通过初筛的邮件。
近日,网易有道宣布“子曰”大模型迎来 4.0 版本的全方位升级。“子曰4" 正式迈入全模态时代,不仅全面支持文本、图片、音频的融合交互,有道更宣布将核心的“多模态模型”与“语音合成(TTS)模型”正式开源。与此同时,翻译模型也迎来了深度的技术重构,翻译质量与效率实现双重提升。多模态模型视觉与数理斩获SOTA,纯文本数理难题性能行业领先据介绍,开源的“子曰4”多模态模型在 27B 参数规模上,面向教育场景,将支持视觉输入的数理能力拉到了行业顶尖水平(SOTA)。在同等参数规模的模型中,“子曰4”在处理带图表的数学题、物理题等高难度视觉数理问题上表现惊艳。中文纯文本数理难题的性能也获得显著提升,模型准确率达81.4%,达到行业领先水平。 子曰4在多个视觉数理基准上达到同规模模型中最佳水平 图片来源: https://huggingface.co/netease-youdao/Confucius4 更为关键的突破在于实际落地的“性价比”。相关负责人介绍,新模型采用了精细化思维链重构方案,通过汇聚大规模优质精简的推理样本进行深度优化,成功将推理思维链输出长度压缩了43.2%。这意味着它可以用更少的 Token、更短的推理路径更快地给出答案,为企业和开发者大幅降低了实际业务场景中的推理成本。 子曰4在多个视觉数理基准上大幅降低了输出token的数量 图片来源: https://hugging
宝玉介绍 OpenAI Codex 的两个实用技巧:Steer(Shift+Enter)可在任务执行中途打断并补充新指令,Agent 会在下一轮工具调用间隙加入;Queue(Enter)则把新任务排队,待当前步骤完成后逐条执行。
Latent Space 主理人 swyx 认为,自 OpenAI o3 之后「深度研究」功能就已基本失效——把一句粗糙提示直接换成一份没人读的长报告,远不如「阅读→思考→提问」反复迭代的交互式探索更利于主动学习与厘清意图。
Stability AI 推出面向艺术创作的开源权重模型家族 Stable Audio 3.0,支持最长 6 分钟的可变长度生成与完整歌曲创作,用户在社区许可下拥有作品版权(年收入 100 万美元以内可商用)。
vLLM 与 Novita Labs 合作发布生产级外部 KV 缓存服务 PegaFlow,以独立 Rust 守护进程运行,使 KV 缓存在引擎崩溃、升级和模型切换后依然保留,预热后可让 vLLM 启动速度提升 2.15 倍。
Perplexity 将查询感知的上下文压缩技术投入生产,系统在最多削减 70% 上下文 token 的同时提升答案质量,并强调「更好的上下文胜过更多的上下文」。
上周末多场美国大学毕业典礼上,演讲嘉宾称赞 AI 时频频被学生嘘场,前 Google CEO 施密特、地产高管、唱片公司 CEO 均遭遇抵触;Gallup 调查显示美国人对 AI 的期待正在降温、愤怒上升。
OpenAI 表示该数学证明来自一个通用推理模型,而非专为解数学题打造的专用系统,并称这对数学界与 AI 界都是一个重要里程碑。
Figure AI 的人形机器人自主分拣直播进入第 8 天,已连续运行 167 小时,累计自主分拣 20.9 万件包裹。