来自 Twitter · Hacker News · GitHub 的 AI 行业动态
Garry Tan 分享 AI Agent 辅助编程体验——代码分支不再因长时间搁置而腐烂,可随时用 Agent 快速跟进,这是 AI 编程带来的一大解放。
Y Combinator CEO Garry Tan 宣布 GStack 将推出 /design-shotgun 设计探索功能,用户可自由尝试各种方向和变体,与 AI 协作创造精美设计。
知名投资人 Chamath 表示英伟达的估值重估缺乏合理性,苹果、微软、Meta 和 Alphabet 的自由现金流估值倍数变化同样令人费解,指出公开市场定价模型正在快速变化。
Runway 推出全新 Ad Concepter 应用,用户只需一个提示词、参考图和产品照片即可快速探索广告概念、构图和故事节拍,现已在网页端上线。
Google 展示 Veo 3.1 新功能,用户可在 Gemini 和 Flow 中通过食材照片加提示词快速生成移动端优先的创意视频,赋予用户更强的创作控制力。
Perplexity AI 正式为三星浏览器的 Galaxy Android 和 Windows 设备提供 Browsing Assist 功能,进一步扩展其 AI 搜索能力在移动端的覆盖。
Y Combinator Lightcone 播客专访 François Chollet,探讨其从深度学习研究到创建 ARC Prize 的历程,以及新发布的 ARC V3 基准测试——旨在衡量 AI 的学习、适应和推理能力。
宇树科技开源了高质量真实世界人形机器人全身遥操作数据集,自3月5日起公开并持续高频更新,目标是建立场景覆盖、任务复杂度和操作多样性最全面的人形机器人数据集。
SAM 3.1 是 SAM 3 的直接升级版,通过引入 object multiplexing 技术,在不牺牲精度的前提下显著提升视频处理效率,使高性能应用在小型硬件上也能运行。模型和代码已开源。
OpenAI CEO Sam Altman 宣布,与 Oracle 和 Related Digital 合作的 Stargate 密歇根数据中心项目本周已开始搭建首批钢梁,标志着该项目进入实质建设阶段。
vLLM 宣布 Kimi K2.5 1T MXFP4 在 AMD GPU 上实现高达 18 倍交互性能提升,优化已合入 0.18.0 版本,AMD 黑客松设立 65 万美元 MI355X 专项赛道。
OpenAI 连续关停 Sora(日推理成本 1500 万美元、总收入仅 210 万)、Instant Checkout(仅 12 家接入)和成人聊天 Citron mode,迪士尼 10 亿美元投资交易作废。
AI 工程师 swyx 分享将过去 4 年 Mac 配置博客交给 Claude AI 自动转换为可执行脚本,称这是记录工作流程者的黄金时代。
因 CMS 配置失误,Anthropic 泄露了代号 Capybara 的新模型 Claude Mythos,作为 Opus 之上的第四档,在编程、推理和网络安全测试中大幅超越 Opus 4.6。
Altman 分享了用户 Paul 利用 ChatGPT 等 LLM 设计 mRNA 疫苗方案拯救爱犬的故事,称 AI 赋予个人研究机构级别的科研能力。
Musk 回应关于 2028-2030 年 AGI 时间表的讨论,表示那大概就是 AI 超越所有人类智能的时间节点。
Garry Tan 呼吁释放 AI Agent,认为开放市场和开放平台是 2020 年代实现繁荣所需的反垄断方式。
OpenAI 为 Codex 推出插件功能,可将技能提示词、应用集成和 MCP 服务器配置打包为可复用插件,支持团队共享。公共插件目录尚未开放。
vLLM 团队推荐了一项关于推测解码的系统性研究,对 vLLM 中各种推测解码策略进行了全面评测,为生产环境部署选型提供实用参考。
Y Combinator CEO Garry Tan 宣布其开源项目 gstack 达到 5 万 Star 里程碑,并表示现在可以直接在 Claude Code 中通过命令安装使用。
Product Hunt 官方分享 Claude Code 能一次性生成完整网站落地页的体验,展示 AI 编程工具在前端开发中的强大能力。
新论文发布 CUA-Suite,提供大规模人工标注的视频演示数据集,为训练和评估计算机使用 Agent 提供重要基准。
海螺 AI 分享创作者使用 Light Studio 制作的精彩视觉作品,鼓励社区用户展示创作并互相交流灵感。
海螺 AI 推出大促活动,单一会员可使用 Nano Banana、Seedream、GPTImage、Veo、Sora、MiniMax Audio 和 Light Studio 全套工具,并享受新工具优先体验。
Meta 发布 TRIBE v2 模型,无需重新训练即可预测未见过个体的脑响应,准确率较前代提升 2-3 倍,已开源模型、代码和论文。
研究者提出 LagerNVS 方法,利用潜在几何表示实现全神经网络架构的实时新视角合成,推动 3D 视觉领域发展。
研究者提出 The Pulse of Motion 方法,可从视频的视觉动态特征中测量物理帧率,为视频质量分析提供新思路。
LlamaIndex 推出基于开源文档解析器 LiteParse 的可视化引用指南,通过边界框提取和页面截图技术实现文本与页面元素的精准关联。
vLLM 将在旧金山举办动手工作坊,参与者可在 NVIDIA DGX Spark 硬件上部署 vLLM,体验 OpenAI 兼容 API 并对比本地与云端推理延迟。
Replit 展示了使用其 Canvas AI 编程功能构建的旅行应用 demo,展现 AI 辅助开发在实际场景中的应用能力。