Introduction
在vision-language任务中, 经常能看到视觉与文本的对齐.
典型的模型有MIniGPT-4, LLaVA, LLaVA-1.5
视觉幻觉的三个类别: 对象, 属性和关系
论文主要对训练数据和模型特点作分析
产生幻觉的原因
- generative nature of LLMs
- biased training data
- inability of vision encoders to accurately ground images
- misalignment among different modalities
- insufficient context attention
目前的方法主要是
- optimization of training data
- refinement of various modules within LVLMs
- post-processing of generated outputs
Hallucination in the Era of LVLM
Large Vision-Language Models
LVLM通常包括三个组成部分
-
visual encoder, 通常是CLIP的变体, 将images变为visual tokens
-
modality connection, 将visual tokens与word embedding space对齐, 使LLM能处理视觉信息.
这方面常见的Modality alignment包括cross attention, adapters, Q-Formers, 或简单的Linear/MLP
-
LLM
LVLM的训练
- pre-training, LVLMs从aligned image-text pairs获取vision-language信息
- instruction-tuning, LVLMs根据human instructions在各种任务数据集上tuning
Hallucination in LVLMs
“Hallucination in LVLMs refer to contradictions between the visual input (taken as ‘fact’) and the textual output of a LVLM”
Unique Challenges regarding Hallucination in LVLMs
Hallucination Detection Difficulties 幻觉检测困难
Intertwined Causes
图片质量可能影响文本先验和statistical biaes
Compound MItigation Motheds
Vision Encoder扩大scale, LLMs扩大scale都能减少幻觉
Evaluation Methods and Benchmarks
当前评估方法主要分为两种
- 评估模型生成没有幻觉的内容的方法. generative
- 评估模型辨别幻觉的能力. discriminative
Evaluation on Non-Hallucinatory Generation
handcrafted pipeline
手动设计pipeline具有更强的可解释性
CCEval在应用CHAIR前应用GPT4实现多模态对齐
FAITHSCORE提供了一个细粒度的方法评估幻觉是否产生
Model-based End-to-End Methods
End-to-End的方法直接评估模型结果
LLM-based evaluation
使用LLM对LVLM生成的结果进行评级
hallucination data driven model evaluation
构建带标签的幻觉数据集, 用于微调模型以检测幻觉
Evaluation on Hallucination Discrimination
通常采用QA形式, 询问LVLM图像是否符合给定的文本描述
POPE: 仅回答Yes or No, 提问的内容以随机, 经常出现, 与经常出现的object同时出现的object三种方式确定
CIEM: 类似POPE, 但是通过提示ChatGPT来自动选择对象
NOPE
Evaluation Benchmarks
Discriminative Benchmarks
POPE(size 3000), CIEM(size 17983), NOPE(size 72941)
提问object是否存在于图中, 使用准确率作为metric
discriminative只是在object层面上进行幻觉的判断, 无法对attribute和relation无法进行判断
Generative Benchmarks
可以对object, attribute和relation进行幻觉的判断
AMBER: 结合了generative和discriminative tasks
Generative benchmarks的metric更复杂和多变, 通常具体到幻觉的种类去设计metric
Causes of LVLM Hallucinations
Hallucinations from Data 数据
Data Bias
- distribution imbalance(数据分布不平衡): 在factual judgment QA pairs里, 大多数回答都是Yes, 这导致LVLM可能更容易回答Yes
- data homogeneity(数据同质性): 导致模型更容易回答某方面的问题, 如MiniGPT-4因缺乏instruction tuning更倾向于描述图像而不是回答用户的具体问题, LLaVA不能准确地描述local visual relation
Annotation Irrelevance(标签与图像内容不相关)
许多instruction data是由LLMs生成的, 生成的instruction可能与图像的对象, 属性和关系在细粒度上不对应
Hallucinations from Vision Encoder 视觉编码器
目前Vision Encoder主要由CLIP衍生
Limited Visual Resolution
更高的图像分辨率可以使Vision Encoder在识别时更准确, 从而减少幻觉. 现有模型通常使用较少的图像分辨率, 如LLaVA和LLaVA-15分别采用224*224和336*336像素
Fine-grained Visual Semantics
CLIP主要关注对象的存在, 对图像的细粒度关注不够, 如背景描述, 对象计数和对象关系
Hallucinations from Modality Aligning 模态对齐
Connection Module Simplicity
既有的connection module常用全连接层
Limited Token Constraints
Q-Former将预定数量的随机初始化token编码为与文本对齐的视觉特征. 但token数量有限, 无法在对齐过程中对图像中存在的所有信息进行编码
Hallucinations from LLM 大语言模型
Insufficient Context Attention
关注生成文本, 而非更关注图像信息
Stochastic Sampling Decoding 随机采样解码
将随机性引入解码过程, 有助于防止生成与目标文本编码相似的低质量文本, 生成丰富内容. 但随机性会放大产生幻觉的风险
Capability Misalignment
指令微调时的扩展要求与模型固有能力有较大差异, 更可能产生幻觉
Mitigation of LVLM Hallucination
Mitigation for Data
Bias Mitigation
CIEM, 生成对比问题答案对
Ferret提出用类似的假信息替换原始负样本
Annotation Enrichment 解释更丰富
M-HalDetect, 由来自COCO的4000个图像描述对组成, 标记有对象存在, 相对位置和属性
GRIT有110万个样本, with refer-and-ground instructions over hierarchical spatial knowledge
Mitigation for Vision Encoder
Scaling-up Vision Resolution
MONKEY将大图分成小图分别输入LVLM
InternVL处理大图
Perceptual Enhancement
大多数LVLM采用CLIP的ViT作为Vision Encoder, 关注显着物体salient objects(位于前景), 忽视一部分视觉信息. 为了增强对象级感知能力, VCoder使用额外的感知模式, 如segmentation map, depth map作为额外Vision Encoder的输入.
引入额外的预训练模型来获取控件位置信息和场景图细节, 用于增强空间感知能力, 引导LVLM解决问题
Mitigation for Connection Module
Connection Modules Enhancing
LLaVA-1.5将linear改为MLP
InterVL基于LLaMA2构建QLLaMA, 改进了Q-Former
Alignment Training Optimizing
visual token和text token间添加新的学习目标使二者更接近.
采用Reinforcement Learning from Human Feedback(RLHF)协调多模态
Mitigation for LLM
Decoding Optimization
使模型在解码过程中关注适当的上下文, 不同的解码策略
Aligning with Human
训练LVLM以满足人类偏好, 利用RLHF, DPO, HA-DPO, FDPO等等与人类对齐
Mitigation via Post-processing
post-processing方法输入visual data, user instructions和LVLM response, 输出refined response
LURE: 利用幻觉的产生原因来训练
Woodpecher: 纠正错误, 整合知识库中的整局来完善生成内容
Future Directions
Supervision Objective
细致的监督目标很重要. 当前LVLM主要采用coarse-grained(粗粒度, 如图像标题), 这限制了理解复杂视觉信息的能力
空间感知监督, 如object masked language modeling
Enriching Modalities
多模态集成还增强了在单模态上的性能
LVLMs as Agent 智能体
让LVLM使用视觉工具(如检测和分割模型), LVLM的输出作推理
Delving into Interpretability
LVLM内部的幻觉机制及其解决方案有待研究
其他论文研读
BLIP-2
两阶段预训练
-
一阶段: 使Q-Former学习和文本相关的视觉表示, 向量组作为可学习参数, 经过self attention后, 与Image Encoder进行cross attention, 最终将向量组与图片的单塔输出与文本的单塔输出作对比学习.
self attention处作不同的mask处理以适应不同的任务
-
二阶段: 学习一个全连接层, 使Q-Former的输出映射为LLM的输出
Monkey
只使用BLIP2生成overall caption, CC3M生成原始标注作为补充
Region Proposal and Caption, 使用GRIT+PROCR生成物体框和object的名称和详细描述, 并提取图像中的文本框坐标和文本内容
Segmentation and Caption: 使用SAM+BLIP2分割物体并生成对应描述
Filter: 使用BLIP2对图像区域, 对象及其描述性文本的一致性评估并过滤低分匹配
ChatGPT Summary: 将overall caption, 过滤后的区域框和对应描述, 过滤后的分割图和对应描述及其坐标输入ChatGPT中总结, 让ChatGPT考虑各个物体间的位置关系及其相互关联
LURE ANALYZING AND MITIGATING OBJECT HALLUCINATION IN LARGE VISION-LANGUAGE MODELS
文章认为, 物体幻觉出现的三种形式为
- co-occurrence: 物体共同出现
- uncertainty: 不确定性
- position: 位置
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
既有的connector如QFormer和linear projection都存在问题
-
Disparity in parameter scales参数尺度不匹配
既有大模型能到1000B, 但广泛使用的vision encoders只有1B
-
Inconsistent representation模态不一致
-
Ineffient connection连接效率低
connector通常是轻量级且随机初始化的, 可能无法捕获跨模态的交互和依赖关系
Contribution:
- scale up vision encoder, 将1B扩大到6B
- scale up connector, 在LLaMA基础上将入含有96个queries的向量组和cross-attention层, 增加了1B参数, 共8B