G³周报(16)
Abseil 性能优化指南
- 重视性能优化的意义:
- 反驳“过早优化”:引用 Knuth 的完整名言指出,虽然不应在 97% 的非关键路径上纠结微小效率,但绝不能放弃那 关键的 3%。
- 工程视角:在成熟的工程学科中,12% 的性能提升是巨大的,不应被忽视。
- 避免“性能债务”:如果在开发大型系统时完全不考虑性能,最终会导致系统呈现“扁平化”的性能分布(Flat Profile),即没有明显的瓶颈,性能损耗分散在各处,导致后续优化极其困难。
- 性能估算 (Estimation):
- 建立直觉:区分代码类型(测试代码、应用热点代码、底层库代码),对底层库代码尤为重要,应尽可能选择高效实现(如使用
absl::InlinedVector代替std::vector)。 - 封底计算 (Back-of-the-envelope):建议通过计算基础操作(如内存读取、网络传输、磁盘寻道等)的粗略成本来评估不同设计方案的可行性。文章更新了经典的延迟数据表(例如 L1 缓存引用 0.5ns vs SSD 读取 1MB 1ms)。
- 建立直觉:区分代码类型(测试代码、应用热点代码、底层库代码),对底层库代码尤为重要,应尽可能选择高效实现(如使用
- 测量与分析 (Measurement):
- 测量先行:在动手优化前,必须先进行测量。
- 工具使用:推荐使用
pprof获取高层级概览,使用perf深入细节。 - 微基准测试 (Microbenchmarks):编写微基准测试有助于快速迭代和防止回退,但需注意其局限性。
- 应对“扁平化”性能图谱 (Flat Profiles):
- 积少成多:当没有单一瓶颈时,通过在子系统中进行多次 1% 的微小优化,累积起来也能产生显著效果。
- 结构化调整:尝试在调用栈更高层进行重构(例如将循环处理改为批量处理),或者减少内存分配次数(分配器往往是主要开销)。
- API 设计考量:
- 批量接口 (Bulk APIs):提供批量操作接口(如
LookupMany、DeleteRefs)以减少跨边界调用的开销或利用算法优势。 - 信息传递:允许调用者传递已有的信息(如时间戳
WallTime),避免在底层函数中重复获取或计算。 - 线程安全策略:通常首选线程兼容 (Thread-compatible)(由外部同步)而非线程安全 (Thread-safe)(内部同步),除非内部同步能带来特定的性能优势(如分片锁)。
- 批量接口 (Bulk APIs):提供批量操作接口(如
- 算法改进:
- 强调从算法复杂度层面解决问题(如从 O(N²) 优化至 O(N)),这是提升性能最关键的手段。
- https://abseil.io/fast/hints.html
meshoptimizer v1.0
- 里程碑式发布:
- 经过九年开发,meshoptimizer 终于迎来了 v1.0 版本。
- 该库是一个在业界广泛使用的网格优化库(基于 MIT 许可),旨在让 3D 网格更小、渲染更快。
- v1.0 标志着大多数功能的稳定,未来版本将保持 API 和 ABI 的兼容性。
- 核心功能与改进:
- 聚类 (Clusterization):
- 算法更快速,空间聚类质量更高(特别是针对顶点受限的 meshlets)。
- 移除了对齐限制,简化了内存管理。
- 提供
meshopt_partitionClusters以优化分层聚类的 DAG 结构。
- 简化 (Simplification):
- 引入了属性感知(attribute-aware)的简化算法,大幅提升视觉质量。
- 新增“宽松模式”(Permissive mode,目前仍实验性),允许在一定程度打破原有拓扑限制以获得更好的简化效果。
- 支持针对子集(subsets)的锁定与稀疏简化,优化处理大量小部件的性能。
- 压缩 (Compression):
- 默认启用 v1 版本的顶点编解码器(Vertex Codec v1),相比 v0 版本压缩率提升约 10%,解压速度更快(在 Apple M4 上提升 30%)。
- 支持新的
KHR_meshopt_compression扩展,相比旧版扩展提供更好的压缩效果。
- 聚类 (Clusterization):
- 配套工具与库:
- clusterlod.h:随 v1.0 新增的一个单头文件库,用于实现类似 Nanite 的连续层次细节(LOD)系统,生成分层聚类结构。
- gltfpack:配套的 glTF 优化命令行工具,支持全场景优化(去重、简化、压缩),新增对
KHR_meshopt_compression的支持(需通过-cz开启)。
- 未来展望:
- 开发将持续进行(v1.1, v1.2…),目前没有计划推出破坏兼容性的 v2.0。
- 将继续改进简化质量、聚类算法以及对新硬件/扩展的支持。
- 致谢:
- 核心库的主要开发工作得到了 Valve 的赞助,同时也受益于与 NVIDIA 工程师的交流。
- https://meshoptimizer.org/v1.html
ReSTIR PG
- 核心理念:
- 提出了一种名为 ReSTIR-PG 的实时渲染方法,旨在解决 ReSTIR(Reservoir Spatiotemporal Importance Resampling)技术中初始候选样本质量受限的问题。
- 利用 ReSTIR 产生的重采样路径(Resampled Paths)来提取引导分布(Guiding Distributions),进而为下一帧生成更高质量的初始候选样本。
- 解决的问题:
- 虽然 ReSTIR 通过时空重采样显著降低了方差,但其最终效果受限于初始候选样本的质量(通常分布不佳且容易引入相关性伪影)。
- 传统路径引导方法依赖于原始路径追踪样本,而 ReSTIR-PG 则形成了一个闭环:利用重采样后的高质量路径反哺引导采样。
- 关键观察与方法:
- ReSTIR 接受的路径在本质上已经近似于目标路径贡献密度。
- 这些路径的弹射方向自然遵循局部路径引导的理想分布(即入射辐射率与余弦加权 BSDF 的乘积)。
- 利用这一特性,通过密度估计(Density Estimation)利用每一帧的重采样路径来拟合轻量级的引导分布。
- 性能与优势:
- 降低方差:相比传统方法,生成的图像噪点更少。
- 快速响应:对场景变化的响应速度更快。
- 减少伪影:有效减少了由于样本相关性引入的视觉伪影。
- 实时性能:在保持上述优势的同时,依然能够维持实时的渲染帧率。
- https://research.nvidia.com/labs/rtr/publication/zeng2025restirpg/
MapAnything
- 统一前馈模型:MapAnything 是一个简单、端到端训练的 Transformer 模型。它不同于针对特定任务训练的独立模型,而是一个单一模型,能够通过单次前馈处理解决超过 12 种不同的 3D 重建任务(如未标定的 Structure-from-Motion、标定的多视图立体视觉、单目深度估计、相机定位、深度补全等)。
- 灵活的输入模态:该模型支持高度灵活的输入组合。除了接收图像外,还可以选择性地接收几何信息,如相机内参(intrinsics)、外参/姿态(poses)、深度图(depth)或部分重建结果。
- 分解式场景表示:MapAnything 利用了一种“分解式”的多视图场景几何表示法。它不是直接回归点云,而是预测一系列深度图、局部射线图、相机姿态以及一个度量比例因子(metric scale factor)。这种表示法能有效地将局部重建升级为全局一致的度量框架。
- 高性能与高效训练:实验表明,MapAnything 的性能匹配甚至超越了针对特定任务优化的专家级前馈模型,同时具备更高效的联合训练特性,为构建通用的 3D 重建骨干网络铺平了道路。
- 开源与应用:该项目已开源代码(基于 Apache-2.0 协议)及预训练模型,并提供了多种交互式 Demo(包括 Hugging Face 在线 Demo、本地 Gradio 和 Rerun 可视化),支持与 COLMAP 和 Gaussian Splatting 等工具的集成。
- https://github.com/facebookresearch/map-anything
OpenAI 发布 GPT-5.2 迎战 Gemini 3,迪士尼十亿美元入股 OpenAI
- OpenAI 发布 GPT-5.2 系列回应 Gemini 3
- 为应对 Google Gemini 3 带来的竞争压力,OpenAI 推出了 GPT-5.2 模型家族(包含 Pro、Thinking 和 Instant 版本)。
- 新功能允许用户在 5 个级别(最高至 x-high)调整推理能力。
- GPT-5.2 Pro 在 ARC-AGI 等基准测试中创下新高,且在同等推理能力下成本大幅降低(相比一年前降低约 390 倍)。
- 迪士尼与 OpenAI 达成重磅战略结盟
- 双方签署了为期 3 年的独家协议,允许 OpenAI 使用迪士尼旗下(包括漫威、皮克斯、卢卡斯影业等)的角色(如米老鼠、达斯·维达)来训练 Sora 生成 30 秒短视频。
- 作为交换,迪士尼获得了 OpenAI 价值 10 亿美元的股份,并计划在 Disney+ 上展示部分用户生成的 AI 视频内容。
- Runway 推出通用世界模型 GWM-1
- Runway 发布了 GWM-1 系列模型,包含 Worlds(环境模拟)、Robotics(机器人训练数据生成)和 Avatars(交互式角色生成)。
- 与传统视频生成不同,这些模型旨在构建具有物理一致性和实时交互能力的“世界模型”,支持从不同视角和动作实时生成连贯场景。
- 低样本多模态适应技术 (SEMI)
- 研究板块介绍了一种名为“样本高效模态集成 (SEMI)”的新技术。
- 该技术利用 LoRA 适配器,仅需极少量样本(如 32 个例子),就能让预训练的 LLM 理解并处理全新的非文本数据类型(如医疗 X 光片、传感器数据或分子结构图),解决了专业领域数据稀缺的难题。
- 吴恩达 (Andrew Ng) 的观点
- 吴恩达在信中指出,虽然 LLM 具有通用性,但目前要提升其在特定领域的知识和表现,仍需依赖繁琐、“零碎”的数据工程(Piecemeal Process)。
- 他强调不要过度炒作 AI 短期内实现 AGI,也不要低估其潜力,通往更高级智能的道路仍需长期的艰苦努力。
- https://www.deeplearning.ai/the-batch/issue-332/
**NASA GIS **
- 活动背景:2025 年 11 月 19 日是第 26 个 GIS 日,今年的全球主题是“地理通才时代:空间与万物的交汇”(Geo-Generalist Era: Where Spatial Meets Everything),旨在强调 GIS 技术在各行各业中的广泛应用。
- 核心展示:NASA 发布了一个交互式的 StoryMap(故事地图),其中包含一个由 39 张卫星图像组成的拼贴画。这些图像由 NASA 的地球观测卫星群拍摄,展示了地球景观的多样性、人类活动的影响以及各种科学现象。
- GIS 的应用价值:文章通过具体案例重点介绍了 GIS 技术如何帮助科学家监测长期天气趋势、追踪环境灾害(如野火烟羽、飓风路径)以及编目自然资源。
- 学习资源:为了配合庆祝活动,NASA Earthdata 推出并推广了一系列新的 GIS 学习资源,包括:
- 如何将下载的 NASA 数据加载到常用的 GIS 软件(如 QGIS 和 ArcGIS Pro)中。
- 创建 NetCDF 镶嵌数据集和使用网络/图像服务的高级教程。
- 目标与意义:该活动旨在提升公众对地理信息系统的认识,展示空间数据如何帮助解决复杂的现实世界挑战,并鼓励更多跨学科的专业人士(“地理通才”)利用空间洞察力进行工作。
- https://www.earthdata.nasa.gov/learn/gis/storymaps/nasa-earth-science-celebrates-gis-day-2025
Google Research 2025
- 生成式模型的全面进化:
- Gemini 3:推出了迄今为止最强、最真实的LLM(大型语言模型),在SimpleQA Verified和FACTS等事实性基准测试中达到了最先进的水平。
- 多模态事实性:将事实性研究扩展到图像、音频、视频和3D环境,提升了Veo、Imagen等模型的质量。
- 多语言与文化适应:Gemma模型现支持超过140种语言,通过TUNA分类法和社区数据收集,增强了模型的文化感知能力。
- 生成式UI (Generative UI):
- 在Gemini 3中引入了生成式UI,能够根据提示动态创建沉浸式视觉体验和交互界面(如网页、游戏、应用),并已应用于Google搜索的AI模式和Gemini应用中。
- 量子计算的新里程碑:
- 发布了Willow芯片,实现了可验证的量子优势。
- 提出了“量子回声”(Quantum Echoes)算法,在Willow芯片上的运行速度比传统超级计算机快13,000倍,推动了药物设计和聚变能源等领域的应用。
- 加速科学发现:
- AI辅助科学家 (AI co-scientist):发布了多智能体AI系统,帮助科学家生成、评估和迭代假设,已在药物重用和抗微生物耐药性研究中取得成果。
- 基因组学与神经科学:推出了DeepSomatic工具用于癌症基因变异识别,发布了C2S-Scale单细胞分析基础模型,以及LICONN方法用于绘制脑组织神经元连接图谱。
- 地球智能与危机应对 (Earth AI):
- FireSat卫星:发射了首颗FireSat卫星,利用AI实时检测小型野火,被《时代》杂志评为2025年最佳发明之一。
- 洪水与气象预测:洪水预报模型覆盖全球20亿人口,NeuralGCM模型为印度3800万农民提供季风预报,WeatherNext 2提供更精准的中期天气预报。
- 基础设施与效率:
- 开发了LAVA调度算法,优化云数据中心的资源效率。
- 持续投入推测性解码(如块验证)等新技术,提升模型运行的成本和能源效率。
- 全球合作与生态系统:
- 计划于2026年在新加坡设立新的Google Research中心。
- 继续通过开源项目、学术合作和奖学金计划支持全球研究社区。
Enjoy Reading This Article?
Here are some more articles you might like to read next: