Skip to content

验证并提升SAM+Clip在语义分割场景下的zero-shot分割精度 #3542

@chenjjcccc

Description

@chenjjcccc

问题描述 Please describe your issue

验证并提升SAM+Clip在语义分割场景下的zero-shot分割精度

任务描述

任务背景

  • 以语义分割为代表的视觉任务存在泛化性差的问题,即每次在新数据上都需要重新训练。大模型的发展利用图文链接的形式大大提升了模型的泛化性,但是前沿论文对于zero-shot的研究表明,完全的zero-shot的分割精度依旧较低。因此我们借用clip中对zero-shot的定义,即在未见过的图片而非是未见过的类别上,查看CLIP+SAM模型的分割效果(这一定义也十分有实用意义),并借用前沿论文的思想对baseline进一步优化。这一举动将验证并优化语义分割模型在未见过的数据上的泛化性

完成步骤

  1. 使用PaddleSeg中的SegmentAnything代码,在cityscapes和ADE20k上直接分割,查看评估精度。
  2. 使用冻结的CLIP模型对SA-1B数据进行高置信度标签筛选标注。
  3. 参照前沿论文的代码,对CLIP在SA-1B上进行微调训练,查看训练后在cityscapes上的精度。
  4. 进行各类论文调研和优化,最后超过或能对比到监督训练的模型精度。
  5. 参考PR提交规范提交代码PR到ppseg中。

提交内容:

  1. 代码提交到PaddleSeg。

Metadata

Metadata

Assignees

Labels

No labels
No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions