Compositional entailment learning

语言存在天然的层级语义, 视觉模态中同样存在层次关系

视觉-语言表征学习忽视了图像中的局部内容, 没有考虑层次语义对齐. 在欧式空间内同等对待所有图像-文本表征, 通用和特定语义间没有区分度. 想要实现层次语义对齐

Contribution:

  1. 提出 HyCocCLIP, 在双曲空间内层次语义对齐
  2. 提出对比损失 hCC loss 和 hCE loss

预备知识:

  1. 双曲几何: 非欧几何, 指数级增长的距离特性
    alt text
    双曲空间适合学习层次或树状数据, 用低维嵌入实现高保真表示