jinnianhui今年会智能工程学院梁小丹教授课题组发布全新主动几何集成框架GeoThinker

小^- 中大⁺

稿件来源：智能工程学院编辑：余婷审核：孙耀斌阅读量：

今年会新闻网讯（通讯员李浩源）近日，jinnianhui今年会智能工程学院梁小丹教授课题组与引望科技，联合上海交通大学、上海创智学院，发布了全新主动几何集成框架GeoThinker。

图注：GeoThinker模型框架

目前的视觉语言模型（VLM）在物体识别上已经非常成熟，但在理解复杂的3D物理空间关系时仍面临挑战。核心瓶颈在于传统的“被动融合”模式，即模型无差别地接收所有几何信息，导致视觉语义与底层几何位置难以精准对齐。这种方式不仅引入了大量如地板、墙面等无关的背景噪声，掩盖了关键的空间逻辑，还使得模型在处理复杂推理任务时精度不足，难以真正“读懂”三维物理世界。

针对这些痛点，团队提出了名为GeoThinker的全新主动几何集成框架。GeoThinker实现了从“被动融合”向“主动感知”的范式转变，其核心在于构建了“按需查询”的智能机制。通过空间基座融合和重要性门控（IG）等核心架构，模型能够根据具体任务上下文，主动识别并定向提取关键的空间纹理信息。这种设计就像为模型装上了“智能滤镜”，使其能自发关注物体边界和关键结构，同时屏蔽冗余的背景干扰。

实验结果显示，GeoThinker在多项权威空间智能基准测试中展现了极强的领先性。它在 VSI-Bench 上以 72.6 分的成绩刷新了 SOTA 纪录，性能显著优于 GPT-5 和 Gemini-3-Pro 等闭源大模型。在全球 EASI 综合榜单中，GeoThinker 位列总榜第 6，是开源界公认的标杆模型。此外，该框架在具身智能机器人指代和自动驾驶规划决策等实际应用中也表现卓越，即便在极低分辨率的模糊图像下依然能保持稳健的空间推理能力。这一研究证明，空间智能的未来在于模型能够根据需求主动、精准地整合几何结构信息。

论文链接：https://arxiv.org/abs/2602.06037

开源代码: https://github.com/Li-Hao-yuan/GeoThinker

返回列表

首页

今年会新闻

jinnianhui今年会

今年会简介

现任领导

服务机构

今年会校区

信息公开

院系设置

学部

院系

附属医院

师资队伍

院士

名医

优秀社会科学家

教学名师

国家级

省级

杰出中青年学者

人才培养

本科生培养

研究生培养

国际生培养

科学研究

科研进展

重大科技创新平台

重点研究机构

国家级平台

省部级平台

学术期刊

今年会看点

校园生活

校园文化

校园风光

校园看点

图说今年会

2024

2023

2022

往期回顾

校园媒体

数字虚拟医学博物馆

百年校庆

科研进展

jinnianhui今年会智能工程学院梁小丹教授课题组发布全新主动几何集成框架GeoThinker