人工智能行业最新动态
腾讯在 Hugging Face 发布 HY-WU 模型,一个可扩展的功能性神经记忆框架,首个实例化应用于文本引导的图像编辑领域。
Supabase 宣布 Pro 用户可将 Postgres、Auth、Storage 等全栈日志直接发送至 Datadog、Sentry、Grafana Loki 等平台,实现全栈可观测性。
Karpathy 指出真正值得关注的基准应是「哪个研究组织的 Agent 代码能最快改进 nanochat」,这才是新的元游戏。
OpenAI CEO Sam Altman 发推表示将能够修复「这三件事」,引发广泛关注和讨论,推文获得超过 3000 点赞。
n8n 展示了一套 AI 求职工作流方案,可自动监控目标公司、通过 API 拉取职位、智能评分筛选,并每日生成语音简报。
LlamaIndex 与 DBOS 合作推出持久化 Agent 工作流方案,每步状态自动持久化,崩溃或重启后可从断点恢复,支持 SQLite 和 Postgres 两种模式。
LlamaIndex 指出直接用 GPT-4o 解析 PDF 存在阅读顺序错乱、表格缺失、数据幻觉等问题,将于 3 月 26 日举办 LlamaParse 对比各大模型的在线研讨会。
知名博主宝玉认为,除编程 Agent 领域外,OpenAI 的 GPT-4.5 和 o1 pro 目前仍处于行业顶尖水平。
Latent Space 主理人 swyx 指出,SWE-bench 作者本人不认可低成本采样的基准结果,要达到统计显著性需 30-60 倍计算量,呼吁社区冷静对待排行榜分数。
HeyGen 的 Video Agent 上线 Replicate,可通过文本提示自动生成含 AI 脚本、虚拟主播、配音和剪辑的完整视频,同时推出 Avatar IV 引擎和翻译口型同步功能。
LTX-2.3 视频模型发布,支持更清晰的画面保真度与屏幕文字渲染、复杂多主体提示词、首尾帧图生视频、原生竖屏及 24/48fps 输出。
Together Research 在 AI Native 大会上一周内发布七项新成果,涵盖 FlashAttention、ATLAS、ThunderKittens 等,均将投入生产环境。
swyx 因不满 Claude Code 的上下文压缩质量,开源了一款分析工具,帮助开发者深入了解压缩过程中丢失了哪些信息,也可扩展用于 Codex 压缩分析。
Latent Space 主理人 swyx 发帖征集开源的 Claude Cowork(协作编程)替代方案,表示已离不开这一功能,如找不到将自行开发。
Vercel 与 Stripe 合作的安全支付功能正式 GA,开发者可通过 v0、Vercel Marketplace 或 CLI 一键集成 Stripe 支付。
Kling Video 3.0 Motion Control 在 Replicate 上线,支持精准人脸身份锁定、复杂表情还原、遮挡下的高保真恢复,以及各种角度下的清晰细节。
LTX-2.3 视频生成模型已发布到 Hugging Face,用户可直接下载使用。
nanochat 项目在单个 8×H100 节点上将 GPT-2 训练时间从约 3 小时缩短至 2 小时,最大提升来自将数据集从 FineWeb-edu 切换到 NVIDIA ClimbMix。
Karpathy 认为在当前范式下,可以通过将各种记忆操作作为工具引入强化学习来取得重大进展。目前的压缩和记忆实现只是早期粗糙版本,都可以泛化并纳入优化流程。
GPT-5.4 成为 OpenAI 首个原生支持电脑操控的通用模型,在 OSWorld 桌面操控测试中以 75% 成功率超越人类(72.4%),编程能力整合了 GPT-5.3-Codex,投行建模得分从 68.4% 跃升至 87.3%。
OpenAI 发布新的思维链(CoT)可控性评估套件和研究论文,发现 GPT-5.4 Thinking 难以隐藏其推理过程,表明 CoT 监控仍是有效的安全工具。
GPT-5.4 Thinking 和 Pro 版本今日起在 ChatGPT、API 和 Codex 中逐步推出,这是 OpenAI 最新的旗舰推理模型。
n8n 大使 Friedemann 基于 n8n、Supabase 和 AI 工作流复刻了 OpenClaw,推出 n8n-claw 自托管 AI Agent 框架,可完全自主部署。
Perplexity 宣布 GPT-5.4 和 GPT-5.4 Thinking 现已面向 Pro 和 Max 订阅用户开放使用。
Sam Altman 补充提到 GPT-5.4 还新增了 /fast 快速模式,认为用户会喜欢这一功能。
Cursor 宣布 GPT-5.4 已上线其编辑器,称该模型比此前版本更自然、更主动,目前在 Cursor 内部基准测试中排名第一。
Cursor 发布 Automations 新功能,支持构建始终在线的 AI Agent,可持续执行自动化任务,进一步强化其 AI 编程助手定位。
Grok iPhone 应用在 App Store 获得超 100 万条评分且均分达 4.9 星,Elon Musk 发推庆祝并附下载链接。
Elon Musk 展示 Grok Imagine 的视频生成功能,称其生成的视频质量优秀。该推文获超 2.3 万点赞,引发广泛关注。
GPT-5.4 号称最准确高效模型,token 更少、速度更快。用户可在思考过程中随时打断并调整方向,本周 Android 和网页端上线,iOS 即将跟进。