Token Logit Based

[ICML2025] The Hidden Life of Tokens: Reducing Hallucination of Large Vision-Language Models via Visual Information Steering

给定一张图像及其 LVLM 生成的描述, 识别

  • 隐藏真实 token(Hidden Genuine Tokens): 在生成内容中缺失但在视觉输入中可见的 token
  • 解码真实 token(Decoded Genuine Tokens): 与视觉基础 token 连续出现的 tokens
  • 幻觉 tokens(Hallucinated Tokens) 从生成内容的幻觉部分提取的 tokens

三个发现:

  1. 视觉 token 在生成过程中受到的注意力减少
  2. 语义上有意义的 token 更早达到峰值激活
  3. 视觉基础 token 在推理时仍有很多的隐藏信息