来自 Twitter · Hacker News · GitHub 的 AI 行业动态
海螺 AI 推出大促活动,单一会员可使用 Nano Banana、Seedream、GPTImage、Veo、Sora、MiniMax Audio 和 Light Studio 全套工具,并享受新工具优先体验。
Meta 发布 TRIBE v2 模型,无需重新训练即可预测未见过个体的脑响应,准确率较前代提升 2-3 倍,已开源模型、代码和论文。
研究者提出 LagerNVS 方法,利用潜在几何表示实现全神经网络架构的实时新视角合成,推动 3D 视觉领域发展。
研究者提出 The Pulse of Motion 方法,可从视频的视觉动态特征中测量物理帧率,为视频质量分析提供新思路。
LlamaIndex 推出基于开源文档解析器 LiteParse 的可视化引用指南,通过边界框提取和页面截图技术实现文本与页面元素的精准关联。
vLLM 将在旧金山举办动手工作坊,参与者可在 NVIDIA DGX Spark 硬件上部署 vLLM,体验 OpenAI 兼容 API 并对比本地与云端推理延迟。
Replit 展示了使用其 Canvas AI 编程功能构建的旅行应用 demo,展现 AI 辅助开发在实际场景中的应用能力。
Supabase 与 Stripe 合作推出集成功能,开发者可通过 Stripe CLI 直接创建和管理 Supabase PostgreSQL 数据库,作为 Stripe Projects 开发者预览版的一部分。
MIT CSAIL 回顾了 21 年前研究人员用计算机自动生成无意义论文并成功被掠夺性期刊接收的经典实验,并提供了在线工具供自行生成体验。
Google DeepMind 将 Gemini 3.1 接入 Live API,LlamaIndex 随即构建演示:通过终端语音助手直接对话,触发本地文档解析工具调用,实时听取 Agent 反馈解析结果。
AI21Labs 发现并修复了 vLLM 中 Mamba-1 CUDA 内核的一个隐蔽 Bug:uint32_t 类型的 stride 与 cache_index 相乘在大规模场景下静默溢出,已合并至 PR #35275。
Delphi Ventures 创始人 José Macedo 在中国 AI 生态圈实地考察两周后撰文,分享对中国 AI 创始人特质、硬件壁垒、软件泡沫以及中西方不对称性的深度观察。
AI 领域 KOL 宝玉分享 Claude Code Skills 管理经验:通用 skills 装全局,专用 skills 装项目级别互不干扰,不同任务在不同项目中完成即可,无需专门管理器。
Latent Space 主播 swyx 预告 a16z 联创 Marc Andreessen 即将上节目,讨论 OpenClaw 和 Pi 如何从「软件吞噬世界」演进到「AI 吞噬软件」的新叙事。
Y Combinator 支持的 Sazabi 正式发布,主打 AI 原生可观测性,支持分钟级接入、AI 驱动的自主告警和无缝事件排查,为高速迭代的工程团队打造。
Boston Dynamics 发布行业指南,介绍机器人和 AI 工具如何在制造、能源和重工业领域填补设施运营缺口,降低维护风险并提升响应速度,实现企业级数据采集自动化。
a16z 宣布投资 Airbase,该公司为无线电频谱提供软件平台——频谱是经济和国家安全依赖的隐形高速公路。商业太空经济起飞和电子战转型正在推动频谱管理现代化。
Cohere 发布 Transcribe 语音识别模型(2B 参数,Apache 2.0),支持 14 种语言。为 vLLM 贡献了编码器-解码器优化,语音工作负载吞吐量提升 2 倍。
字节跳动 Lynx 团队架构师黄玄分享:借助 AI 独立完成 Vue Lynx(让 Vue 3 跑在字节跨平台引擎上),展示了跨 session 架构一致性、自动化测试验证闭环等 AI 驱动开发方法论。
Google DeepMind 发布 9 项研究(逾 1 万名参与者),探讨 AI 可能被滥用进行有害操纵(含情感利用和认知欺骗),涵盖金融和健康两大高风险领域。
前阿里 Qwen 技术负责人林俊旸发布长文:大模型的下一阶段不是让模型想得更久,而是让模型为了行动而思考。回顾 o1/R1 的教训:RL 不再是轻量附加步骤,而是系统工程问题。
Mistral 发布 Voxtral 4B TTS 模型(CC BY-NC 权重,非商用),支持 9 种语言的自然韵律和情感表达,多款预设音色,超低延迟流式输出(24kHz)。企业可通过 API 商用。vLLM 首日支持。
Google 宣布 Gemini 现在支持从其他 AI 应用导入用户的记忆、偏好和聊天历史,降低用户切换成本。
a16z 投资人 Sakina 分享 YouTube 国际化经验:AI 竞赛的赢家不是拥有最聪明模型的公司,而是最善于把本地信任节点(教师、会计、社区领袖)放大 10 倍的公司。
Visual Studio Code 通过 GitHub Copilot 集成 Ollama,用户可以在 VS Code 中直接选用 Ollama 的任意本地或云端模型进行编程辅助。
基于 SherpaOnnx 的 macOS 语音输入工具,支持本地/云端双引擎识别,可接入大模型做文本优化和语音命令,数据全部存在本地。
只需简单提示即可生成包含对话、音效、剪辑节奏和电影级构图的完整场景,支持图生视频和纯文本生成。
Search Live 交互式多模态对话功能已覆盖 200+ 国家和地区,由 Gemini 3.1 Flash Live 驱动,原生支持多语言。
Cursor 发布 Composer 2 技术报告,揭示通过实时强化学习训练新检查点的方法,实现每 5 小时更新一次模型版本。
新模型响应更快、对话更自然,Gemini Live 对话记忆翻倍,多语言支持扩展至 200+ 国家和地区。