自己的原文哦~ https://blog.51cto.com/whaosoft/14053474
#When Semantics Mislead Vision
大模型看图“猜”字? MLLMs场景语义幻觉首次揭秘!
近年来,多模态大模型(MLLMs)在图像理解领域飞速发展,然而在面对模糊、无语义的场景文字时,它们常常“翻车”:生成出看似合理、实则脱离图像内容的回答。
来自特伦托大学、香港科技大学等机构的研究者们将这一现象命名为 语义幻觉(Semantic Hallucination),并系统分析了其成因。研究发现—— 模型内部越关注文字区域的层,越能避免幻觉的发生,这为改进多模态感知提供了关键线索。
基于这一洞察,团队提出了一套 无需重新训练的幻觉抑制方案,包括两个核心模块: ZoomText:一种无需外部检测器的“由粗到细”策略,用于自动锁定潜在文本区域; Grounded Layer Correction:智能识别“抗幻觉”的模型层,在解码阶段引导输出更贴合图像。该方法可以无痛移植到任何MLLMs中,以提升多模态大模型在自然场景OCR的表现。
此外,团队还构建了首个专为语义幻觉设计的评估基准—— TextHalu-Bench,包含1730个真实复杂场景样本,覆盖5类常见生活场景,全面检验多模态大模型在场景文字识别和理解的鲁棒性。
- 论文标题:When Semantics Mislead Vision:Mitigating Large Multimodal Models Hallucinations in Scene Text Spotting and Understanding
- 论文链接:https://arxiv.org/abs/2506.05551
- 项目链接:https://github.com/shuyansy/MLLM-Semantic-Hallucination
背景介绍|什么是语义幻觉?
随着多模态大模型(MLLMs)在通用图像问答领域的强势崛起,研究者们希望它们能取代传统 OCR 系统,实现端到端的场景文字识别与理解。然而,大模型在自然ocr场景下的鲁棒性是个悬而未决的问题。
实际上,当场景文本中的词语语义完整时,主流的MLLMs(Qwen-VL)能给出较为准确的答案,然而面对无语义的单词时,这些模型便会“看走眼”——它们仍然输出语义合理但视觉上错误的答案。例如将图像上的 “apole” 依旧识别成“apple”。我们称这种现象为:语义幻觉(Semantic Hallucination)。
通俗来说,就是模型靠“猜语义”而不是“看图像”在作答。
图一通过图像编辑方法和真实场景图片中进一步验证了这一猜想: 现有模型往往严重依赖语言先验,而非真正从图像中“看懂”文字。

图一: 多模态大模型的语义幻觉探究 a: 大模型往往倾向于将没有语义的单词误识别为有语义的单词 b & c: 大模型在OCRBench 和 ICDAR 2015上分别在有语义单词和无语义单词的识别结果
现象解剖|语义幻觉的根源
那么,语义幻觉究竟是如何在模型中“悄悄发生”的?
研究团队深入挖掘了这一问题的根源,发现语义幻觉的出现,与模型不同层级的注意力分布密切相关。为此,他们计算了幻觉文本在每一层的“幻觉倾向得分”,并与真实文本进行了对比,进一步将这一信息融合到模型的注意力图中,从而观察模型在各层是“靠看”还是“靠猜”。
令人惊讶的是,模型在处理文本时的策略,随着层数的提升发生了显著变化:在底层,模型主要提取视觉特征,此时幻觉倾向较低;而在高层,特别是涉及语义理解的层,模型更倾向于根据语义进行“脑补”,幻觉文本的风险显著上升。换句话说:层级越高,模型越容易“用语义代替视觉”。
更进一步的分析还发现了一种有趣的“负相关关系”:当模型的注意力集中于真实文字区域时,反而不容易产生幻觉。这提示我们,也许在某些中间层,模型“看得更准”——既能识别文本,又不过度依赖语义推断。
于是,一个关键问题被提出:能否找到模型中“最会看字”的那一层,并让它帮助模型做出更精准的判断?

图二 探究语义幻觉的原因
方法设计|两大模块
1. ZoomText:无需外部检测器即可定位文字区域
为了找到模型中“最会看字”的那一层,首先需要定位文字区域的位置。尽管ocr专有模型可以检测文字区域,然而这会增大模型的推理效率。因此,能否利用模型自身的能力去定位文字至关重要。
首先,模型会通过计算文本查询token和图像token之间的交叉注意力,识别出潜在的文本区域。通过对这些高响应区域进行阈值筛选,获得粗略的文本区域候选集。同时,模型利用“相对注意力特性”,即和文本查询相关的视觉token在不同层展现不同的关注度,从而滤除噪声区域。
2. Grounded Layer Correction:优化解码过程,减少幻觉现象
利用zoomtext得到的文本token,模型会计算LLM中每个transformer层中的文本区域注意力,即文本区域中的视觉token attention ratio。 随后,模型会选择最强的文本区域注意力层),并将该层的信息与最终解码层的隐藏状态结合。具体而言,研究团队利用加权融合的方式在解码前将来自视觉对齐层的知识与全局信息结合,从而优化模型输出,既保留了语义信息,又减少了幻觉的产生。

图三 ZoomText示意图
语义幻觉,如何评估?|TextHalu-Bench
现有的场景文本基准如 ST-VQA 和 TextVQA,虽然在推动多模态研究上发挥了重要作用,但它们的测试集大多集中于语义明确、视觉清晰的图像。这种设计让模型可以“猜语义”而非“看图像”,很难真实评估其视觉感知能力。
为此,研究团队提出了首个聚焦语义幻觉现象的基准测试集——TextHalu-Bench。
该基准集从 ICDAR2013、ICDAR2015、MSRA-TD500 等多个公开数据集中精心筛选标注出 1,730 个样本,刻意选择那些视觉模糊、语义不完整的“非语义文本”场景:孤立数字、未完成单词、生僻字符……这些正是模型最容易“脑补”的地方。
为了全面评估模型的能力,TextHalu-Bench设计了两个子任务:Spotting(从图像中提取文本)和Understanding(评估模型能否进行语义对齐)
同时,数据涵盖商业、工业、交通、公共设施、日常生活五大现实场景,贴近实际应用,全面衡量模型在真实世界中的视觉稳健性。
TextHalu-Bench 的出现,不仅首次为“语义幻觉”提供了量化评估标准,也为后续模型训练与优化提供了方向。

图三 TextHalu-Bench示意图
实验结果|幻觉明显减少,多模态理解任务全面提升
在我们对七个场景文本基准的广泛实验中,得出了三大主要结论:
1.语义幻觉仍然是多模态大模型的重大挑战
在提出的TextHalu-Bench上,表现最好的专有模型GPT-4o仅取得45.3的F1分数。这一挑战主要来自两个方面:首先,场景文本的复杂性和多样性比文档OCR任务更具挑战性;其次,非语义文本需要依赖精确的视觉定位,而非语义先验,很多模型在这一点上仍存在严重的幻觉问题。
2.本工作提出的幻觉抑制方法有效提升模型性能
该方法在不同模型上带来了显著的性能提升。具体而言,Mini-Monkey和Qwen2.5-VL分别提高了4.1%和5.5%的F1分数,表明该策略有效地帮助模型在场景文本的识别和理解中更好地对齐视觉信息。。
3.本工作方法的泛化能力
除了TextHalu-Bench,该方法在多个公共视觉-语言基准上也表现出色。比如,Mini-Monkey在ST-VQA上提升了约4%的准确率,Qwen2.5-VL在SEED-Bench上提高了约3%。这些结果表明,该抑制方法具有广泛的通用性,有效增强了视觉对齐能力,而不会削弱模型其他能力。

表一 本工作主要实验结论
展望|语义幻觉,这一大盲点正逐渐浮出水面
研究团队首次系统揭示了其成因与表现,并提出了专为该现象设计的评估基准,填补了多模态理解中缺乏“反语言偏置”测试样本的空白。在此基础上,进一步设计了面向场景文本任务的幻觉抑制方法,可无缝集成进主流多模态大模型中,大幅提升其视觉对齐能力。
目前数据、方法与代码均已开源,希望能为更稳健、更可信的多模态系统建设提供助力,推动大模型从“会说”走向“看懂再说”。
#Deterministic Object Pose Confidence Region Estimation
6D位姿置信区间估计的直接法
本篇分享 ICCV 2025 论文Deterministic Object Pose Confidence Region Estimation,提出6D位姿置信区间估计的直接法。
- 论文链接:https://arxiv.org/abs/2506.22720
在自动驾驶、机器人操作、增强现实等安全关键领域,精确感知三维物体的位置和姿态(6D位姿)至关重要。 然而,仅提供单一的最优位姿估计,在面对视觉模糊等情况时无法保证系统的可靠性,甚至可能引发灾难性后果。 因此,对位姿估计进行不确定性量化,即提供一个能以特定概率包围真实位姿的“置信区间”,已成为学术界和工业界的前沿方向。
当前主流的置信区间估算方法严重依赖于随机采样,这一过程不仅计算效率低下,而且生成的置信区间往往过于宽泛(体积过大),极大地限制了其实际应用价值。 为解决这些挑战,国防科技大学图像测量与视觉导航团队提出了一种高效的确定性6D位姿置信区间估计方法。
该方法摒弃了耗时的采样过程,首先通过神经网络直接回归关键点的概率分布,然后利用归纳保形预测(Inductive Conformal Prediction) 将其校准为具有用户指定覆盖率的2D关键点置信区间。 核心创新在于,团队借助隐函数定理(Implicit Function Theorem),将2D关键点置信区间确定性地、直接地传播到6D位姿空间,生成紧凑的椭球置信区间。
实验结果表明,该方法在保证相近的真实位姿覆盖率的前提下,推理速度提升超过33%,并且生成的置信区间体积大幅度缩小——旋转置信区间体积最多减小99.9%,平移置信区间体积最多减小99.8%。 该工作为高可靠性、安全关键应用的落地提供了坚实的技术支撑。
Abstract
本文提出了一种位姿置信区间估计的直接法。对于用户,只需要自定义覆盖率,其后算法能生成以指定覆盖率覆盖位姿真值的6D位姿置信区间,并且能够输出紧凑的位姿置信区间。
本文的贡献与创新点如下:
- 提出了一种基于 ICP (归纳保形预测) 的方法来预测关键点置信区域,该方法依赖于对高斯关键点分布的确定性回归。
- 利用 IFT (隐函数定理),将关键点置信区域直接传播到6D位姿中,同时保持了与采样方法相当的位姿覆盖率。
- 提出了全面的度量标准来评估估计出的位姿置信区域。
Method
本文提出的确定性位姿置信区间估计流程如图2所示,主要包含三个核心步骤。给定输入图像(a),方法首先回归关键点的二维高斯分布(b);随后通过归纳保形预测校准得到2D关键点置信区间(c);最后,通过基于隐函数定理的确定性传播,高效地得到紧凑的6D位姿置信区间(d)。

图2
1. 确定性关键点回归 (Keypoint Deterministic Regression)
不同于计算和存储开销大的热力图方法,本文采用一种高效的回归模型,直接预测图像中每个语义关键点的二维高斯分布参数(均值和协方差矩阵)。 这种方式直接对关键点位置的不确定性(Aleatoric Uncertainty)进行建模。
2. 归纳保形预测与置信区间校准 (Conformal Prediction & Calibration)
为了使预测的置信区间具有严格的统计保障,本文采用归纳保形预测(ICP)框架。 该框架利用一个校准数据集,计算出一个非符合性分数阈值。 对于新的测试图像,该阈值可以确保生成的2D关键点置信区间(一系列以预测均值为中心,以协方差和阈值为半径的圆形区域)能够以用户预先设定的概率(例如 )覆盖所有真实的关键点位置。
3. 基于隐函数定理的确定性传播 (IFT-based Deterministic Propagation)
这是本文的核心创新。团队摒弃了传统的随机采样,利用隐函数定理(IFT)来解析PnP求解器中6D位姿(输出)相对于2D关键点(输入)的雅可比矩阵。 这个雅可比矩阵建立起了输入和输出不确定性之间的映射关系。随后,根据不确定性传播理论,将2D关键点的协方差矩阵(代表2D置信区间)通过该雅可比矩阵,“确定性”地、直接传播为6D位姿的协方差矩阵。 这个6D协方差矩阵最终定义了一个紧凑的椭球体,作为最终的旋转和位移置信区间。
此外,本文还提出了一套更完善的评估指标,不仅评估位姿精度和覆盖率,还首次将置信区间的体积作为关键衡量标准,以更全面地评价不确定性量化方法的性能。
Experiments
Main Results

表3给出了本文方法的位姿真值覆盖率和其它采样方法的对比。从表中可以发现,由于大幅降低置信区间体检,我们的方法覆盖率相对于采样方法会降低一些。此外,为了更全面的展示我们的方法的性能,我们计算了数据集置信区间体积:

表4给出了本文置信区间估计方法和其它采样方法的对比,我们设计了专门用于置信区间的评价指标(置信区间体积)。从表中可以发现,我们的方法作为一种无需采样的范式,其置信区间更紧凑。
可视化实验

此外,为了更全面的展示我们的方法的性能,我们进行了位姿置信区间的可视化:
如图3所示,我们展示了LMO数据集中本文方法二维关键点置信区间(第一列)和位姿置信区间(第二列表示旋转,第三列表示平移)和采样方法(第四列表示旋转,第五列表示平移)输出置信区间凸包。结果显示,本文方法可以输出更加紧凑的置信区间。

图7表示的是本文方法在SPEED数据集,输出的关键点置信区间和位姿置信区间。更多的实验结果和实验细节,欢迎阅读我们的论文原文以及补充材料。
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
文章来源于互联网:51c大模型~合集155
相关推荐: 百度重回牌桌,发布深度思考大模型X1和文心一言4.5
百度一口气发布两个大模型。原定4月1号起免费,现在提前开放。 话不多说,我们直接进入重点。 优点 新发布的两款大模型都可以免费使用。 API价格足够的便宜。 文心一言4.5原生多模态基础大模型,除了文件、图片之外,还支持视频和语音作为输入。 X1模型可以进行深…
5bei.cn大模型教程网










