Introduction

在vision-language任务中, 经常能看到视觉与文本的对齐.

典型的模型有MIniGPT-4, LLaVA, LLaVA-1.5

视觉幻觉的三个类别: 对象, 属性和关系

论文主要对训练数据和模型特点作分析

产生幻觉的原因

  1. generative nature of LLMs
  2. biased training data
  3. inability of vision encoders to accurately ground images
  4. misalignment among different modalities
  5. insufficient context attention

目前的方法主要是

  1. optimization of training data
  2. refinement of various modules within LVLMs
  3. post-processing of generated outputs

Hallucination in the Era of LVLM

Large Vision-Language Models

LVLM通常包括三个组成部分

  1. visual encoder, 通常是CLIP的变体, 将images变为visual tokens

  2. modality connection, 将visual tokens与word embedding space对齐, 使LLM能处理视觉信息.

    这方面常见的Modality alignment包括cross attention, adapters, Q-Formers, 或简单的Linear/MLP

  3. LLM

LVLM的训练

  1. pre-training, LVLMs从aligned image-text pairs获取vision-language信息
  2. instruction-tuning, LVLMs根据human instructions在各种任务数据集上tuning

Hallucination in LVLMs

“Hallucination in LVLMs refer to contradictions between the visual input (taken as ‘fact’) and the textual output of a LVLM”

Unique Challenges regarding Hallucination in LVLMs

Hallucination Detection Difficulties 幻觉检测困难

Intertwined Causes

图片质量可能影响文本先验和statistical biaes

Compound MItigation Motheds

Vision Encoder扩大scale, LLMs扩大scale都能减少幻觉

Evaluation Methods and Benchmarks

当前评估方法主要分为两种

  1. 评估模型生成没有幻觉的内容的方法. generative
  2. 评估模型辨别幻觉的能力. discriminative

Evaluation on Non-Hallucinatory Generation

handcrafted pipeline

手动设计pipeline具有更强的可解释性

CCEval在应用CHAIR前应用GPT4实现多模态对齐

FAITHSCORE提供了一个细粒度的方法评估幻觉是否产生

Model-based End-to-End Methods

End-to-End的方法直接评估模型结果

LLM-based evaluation

使用LLM对LVLM生成的结果进行评级

hallucination data driven model evaluation

构建带标签的幻觉数据集, 用于微调模型以检测幻觉

Evaluation on Hallucination Discrimination

通常采用QA形式, 询问LVLM图像是否符合给定的文本描述

POPE: 仅回答Yes or No, 提问的内容以随机, 经常出现, 与经常出现的object同时出现的object三种方式确定

CIEM: 类似POPE, 但是通过提示ChatGPT来自动选择对象

NOPE

Evaluation Benchmarks

Discriminative Benchmarks

POPE(size 3000), CIEM(size 17983), NOPE(size 72941)

提问object是否存在于图中, 使用准确率作为metric

discriminative只是在object层面上进行幻觉的判断, 无法对attribute和relation无法进行判断

Generative Benchmarks

可以对object, attribute和relation进行幻觉的判断

AMBER: 结合了generative和discriminative tasks

Generative benchmarks的metric更复杂和多变, 通常具体到幻觉的种类去设计metric

Causes of LVLM Hallucinations

Hallucinations from Data 数据

Data Bias

  • distribution imbalance(数据分布不平衡): 在factual judgment QA pairs里, 大多数回答都是Yes, 这导致LVLM可能更容易回答Yes
  • data homogeneity(数据同质性): 导致模型更容易回答某方面的问题, 如MiniGPT-4因缺乏instruction tuning更倾向于描述图像而不是回答用户的具体问题, LLaVA不能准确地描述local visual relation

Annotation Irrelevance(标签与图像内容不相关)

许多instruction data是由LLMs生成的, 生成的instruction可能与图像的对象, 属性和关系在细粒度上不对应

Hallucinations from Vision Encoder 视觉编码器

目前Vision Encoder主要由CLIP衍生

Limited Visual Resolution

更高的图像分辨率可以使Vision Encoder在识别时更准确, 从而减少幻觉. 现有模型通常使用较少的图像分辨率, 如LLaVA和LLaVA-15分别采用224*224和336*336像素

Fine-grained Visual Semantics

CLIP主要关注对象的存在, 对图像的细粒度关注不够, 如背景描述, 对象计数和对象关系

Hallucinations from Modality Aligning 模态对齐

Connection Module Simplicity

既有的connection module常用全连接层

Limited Token Constraints

Q-Former将预定数量的随机初始化token编码为与文本对齐的视觉特征. 但token数量有限, 无法在对齐过程中对图像中存在的所有信息进行编码

Hallucinations from LLM 大语言模型

Insufficient Context Attention

关注生成文本, 而非更关注图像信息

Stochastic Sampling Decoding 随机采样解码

将随机性引入解码过程, 有助于防止生成与目标文本编码相似的低质量文本, 生成丰富内容. 但随机性会放大产生幻觉的风险

Capability Misalignment

指令微调时的扩展要求与模型固有能力有较大差异, 更可能产生幻觉

Mitigation of LVLM Hallucination

Mitigation for Data

Bias Mitigation

CIEM, 生成对比问题答案对

Ferret提出用类似的假信息替换原始负样本

Annotation Enrichment 解释更丰富

M-HalDetect, 由来自COCO的4000个图像描述对组成, 标记有对象存在, 相对位置和属性

GRIT有110万个样本, with refer-and-ground instructions over hierarchical spatial knowledge

Mitigation for Vision Encoder

Scaling-up Vision Resolution

MONKEY将大图分成小图分别输入LVLM

InternVL处理大图

Perceptual Enhancement

大多数LVLM采用CLIP的ViT作为Vision Encoder, 关注显着物体salient objects(位于前景), 忽视一部分视觉信息. 为了增强对象级感知能力, VCoder使用额外的感知模式, 如segmentation map, depth map作为额外Vision Encoder的输入.

引入额外的预训练模型来获取控件位置信息和场景图细节, 用于增强空间感知能力, 引导LVLM解决问题

Mitigation for Connection Module

Connection Modules Enhancing

LLaVA-1.5将linear改为MLP

InterVL基于LLaMA2构建QLLaMA, 改进了Q-Former

Alignment Training Optimizing

visual token和text token间添加新的学习目标使二者更接近.

采用Reinforcement Learning from Human Feedback(RLHF)协调多模态

Mitigation for LLM

Decoding Optimization

使模型在解码过程中关注适当的上下文, 不同的解码策略

Aligning with Human

训练LVLM以满足人类偏好, 利用RLHF, DPO, HA-DPO, FDPO等等与人类对齐

Mitigation via Post-processing

post-processing方法输入visual data, user instructions和LVLM response, 输出refined response

LURE: 利用幻觉的产生原因来训练

Woodpecher: 纠正错误, 整合知识库中的整局来完善生成内容

Future Directions

Supervision Objective

细致的监督目标很重要. 当前LVLM主要采用coarse-grained(粗粒度, 如图像标题), 这限制了理解复杂视觉信息的能力

空间感知监督, 如object masked language modeling

Enriching Modalities

多模态集成还增强了在单模态上的性能

LVLMs as Agent 智能体

让LVLM使用视觉工具(如检测和分割模型), LVLM的输出作推理

Delving into Interpretability

LVLM内部的幻觉机制及其解决方案有待研究

其他论文研读

BLIP-2

两阶段预训练

  1. 一阶段: 使Q-Former学习和文本相关的视觉表示, 向量组作为可学习参数, 经过self attention后, 与Image Encoder进行cross attention, 最终将向量组与图片的单塔输出与文本的单塔输出作对比学习.

    self attention处作不同的mask处理以适应不同的任务

  2. 二阶段: 学习一个全连接层, 使Q-Former的输出映射为LLM的输出

Monkey

只使用BLIP2生成overall caption, CC3M生成原始标注作为补充

Region Proposal and Caption, 使用GRIT+PROCR生成物体框和object的名称和详细描述, 并提取图像中的文本框坐标和文本内容

Segmentation and Caption: 使用SAM+BLIP2分割物体并生成对应描述

Filter: 使用BLIP2对图像区域, 对象及其描述性文本的一致性评估并过滤低分匹配

ChatGPT Summary: 将overall caption, 过滤后的区域框和对应描述, 过滤后的分割图和对应描述及其坐标输入ChatGPT中总结, 让ChatGPT考虑各个物体间的位置关系及其相互关联

LURE ANALYZING AND MITIGATING OBJECT HALLUCINATION IN LARGE VISION-LANGUAGE MODELS

文章认为, 物体幻觉出现的三种形式为

  • co-occurrence: 物体共同出现
  • uncertainty: 不确定性
  • position: 位置

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

既有的connector如QFormer和linear projection都存在问题

  1. Disparity in parameter scales参数尺度不匹配

    既有大模型能到1000B, 但广泛使用的vision encoders只有1B

  2. Inconsistent representation模态不一致

  3. Ineffient connection连接效率低

    connector通常是轻量级且随机初始化的, 可能无法捕获跨模态的交互和依赖关系

Contribution:

  1. scale up vision encoder, 将1B扩大到6B
  2. scale up connector, 在LLaMA基础上将入含有96个queries的向量组和cross-attention层, 增加了1B参数, 共8B