来自 Twitter · Hacker News · GitHub 的 AI 行业动态
Anthropic 与 Mozilla 合作测试 Claude 发现安全漏洞的能力,Opus 4.6 在两周内发现 22 个漏洞,其中 14 个为高危,占 Mozilla 2025 年修复的高危漏洞总量的五分之一。
宝玉分享 GPT-5.4 使用感受:写作虽有进步但不及 Opus 4.6,存在过度思考和自作主张问题,配图时未经确认就自行设置风格和版本。
KOL 宝玉发布 Claude Code 翻译技能,支持快速翻译、精翻和长文分块并行处理,可配合 X 文章和网页内容翻译,术语表可定制。
Anthropic CEO Dario Amodei 发布公开声明,引发广泛关注。
最新论文提出 Proact-VL,一种能够主动感知和响应的视频语言大模型,旨在实现实时 AI 伴侣应用。
Replicate 宣布 GPT-5.4 Thinking 已上线,支持最高 100 万 token 上下文,适合复杂任务的 Agent 编程场景。
腾讯在 Hugging Face 发布 HY-WU 模型,一个可扩展的功能性神经记忆框架,首个实例化应用于文本引导的图像编辑领域。
Supabase 宣布 Pro 用户可将 Postgres、Auth、Storage 等全栈日志直接发送至 Datadog、Sentry、Grafana Loki 等平台,实现全栈可观测性。
Karpathy 指出真正值得关注的基准应是「哪个研究组织的 Agent 代码能最快改进 nanochat」,这才是新的元游戏。
OpenAI CEO Sam Altman 发推表示将能够修复「这三件事」,引发广泛关注和讨论,推文获得超过 3000 点赞。
n8n 展示了一套 AI 求职工作流方案,可自动监控目标公司、通过 API 拉取职位、智能评分筛选,并每日生成语音简报。
LlamaIndex 与 DBOS 合作推出持久化 Agent 工作流方案,每步状态自动持久化,崩溃或重启后可从断点恢复,支持 SQLite 和 Postgres 两种模式。
LlamaIndex 指出直接用 GPT-4o 解析 PDF 存在阅读顺序错乱、表格缺失、数据幻觉等问题,将于 3 月 26 日举办 LlamaParse 对比各大模型的在线研讨会。
知名博主宝玉认为,除编程 Agent 领域外,OpenAI 的 GPT-4.5 和 o1 pro 目前仍处于行业顶尖水平。
Latent Space 主理人 swyx 指出,SWE-bench 作者本人不认可低成本采样的基准结果,要达到统计显著性需 30-60 倍计算量,呼吁社区冷静对待排行榜分数。
HeyGen 的 Video Agent 上线 Replicate,可通过文本提示自动生成含 AI 脚本、虚拟主播、配音和剪辑的完整视频,同时推出 Avatar IV 引擎和翻译口型同步功能。
LTX-2.3 视频模型发布,支持更清晰的画面保真度与屏幕文字渲染、复杂多主体提示词、首尾帧图生视频、原生竖屏及 24/48fps 输出。
Together Research 在 AI Native 大会上一周内发布七项新成果,涵盖 FlashAttention、ATLAS、ThunderKittens 等,均将投入生产环境。
swyx 因不满 Claude Code 的上下文压缩质量,开源了一款分析工具,帮助开发者深入了解压缩过程中丢失了哪些信息,也可扩展用于 Codex 压缩分析。
Latent Space 主理人 swyx 发帖征集开源的 Claude Cowork(协作编程)替代方案,表示已离不开这一功能,如找不到将自行开发。
Vercel 与 Stripe 合作的安全支付功能正式 GA,开发者可通过 v0、Vercel Marketplace 或 CLI 一键集成 Stripe 支付。
Kling Video 3.0 Motion Control 在 Replicate 上线,支持精准人脸身份锁定、复杂表情还原、遮挡下的高保真恢复,以及各种角度下的清晰细节。
LTX-2.3 视频生成模型已发布到 Hugging Face,用户可直接下载使用。
nanochat 项目在单个 8×H100 节点上将 GPT-2 训练时间从约 3 小时缩短至 2 小时,最大提升来自将数据集从 FineWeb-edu 切换到 NVIDIA ClimbMix。
Karpathy 认为在当前范式下,可以通过将各种记忆操作作为工具引入强化学习来取得重大进展。目前的压缩和记忆实现只是早期粗糙版本,都可以泛化并纳入优化流程。
GPT-5.4 成为 OpenAI 首个原生支持电脑操控的通用模型,在 OSWorld 桌面操控测试中以 75% 成功率超越人类(72.4%),编程能力整合了 GPT-5.3-Codex,投行建模得分从 68.4% 跃升至 87.3%。
OpenAI 发布新的思维链(CoT)可控性评估套件和研究论文,发现 GPT-5.4 Thinking 难以隐藏其推理过程,表明 CoT 监控仍是有效的安全工具。
GPT-5.4 Thinking 和 Pro 版本今日起在 ChatGPT、API 和 Codex 中逐步推出,这是 OpenAI 最新的旗舰推理模型。
n8n 大使 Friedemann 基于 n8n、Supabase 和 AI 工作流复刻了 OpenClaw,推出 n8n-claw 自托管 AI Agent 框架,可完全自主部署。
Perplexity 宣布 GPT-5.4 和 GPT-5.4 Thinking 现已面向 Pro 和 Max 订阅用户开放使用。