Token Logit Based
[ICML2025] The Hidden Life of Tokens: Reducing Hallucination of Large Vision-Language Models via Visual Information Steering
给定一张图像及其 LVLM 生成的描述, 识别
- 隐藏真实 token(Hidden Genuine Tokens): 在生成内容中缺失但在视觉输入中可见的 token
- 解码真实 token(Decoded Genuine Tokens): 与视觉基础 token 连续出现的 tokens
- 幻觉 tokens(Hallucinated Tokens) 从生成内容的幻觉部分提取的 tokens
三个发现:
- 视觉 token 在生成过程中受到的注意力减少
- 语义上有意义的 token 更早达到峰值激活
- 视觉基础 token 在推理时仍有很多的隐藏信息