chinese_clip

2024年4月10日修改
介绍
1.
本文将介绍,如何从0到1的训练一个中文clip模型。
2.
在处理数据的过程中,训练的过程中,需要的注意事项。
3.
从数据流的角度,看看clip模型是怎么处理数据的,模型是怎么构建的。image和text的模型的差异性,两个模型是怎么合并起来计算loss的。
clip模型介绍
CLIP的英文全称是Contrastive Language-Image Pre-training,即一种基于对比文本-图像对的预训练方法或者模型。CLIP是一种基于对比学习的多模态模型,与CV中的一些对比学习方法如moco和simclr不同的是,CLIP的训练数据是文本-图像对:一张图像和它对应的文本描述,这里希望通过对比学习,模型能够学习到文本-图像对的匹配关系。
如下图所示,CLIP包括两个模型:
1.
Text Encoder和Image Encoder,其中Text Encoder用来提取文本的特征,可以采用NLP中常用的text transformer模型;
2.
Image Encoder用来提取图像的特征,可以采用常用CNN模型或者vision transformer。
附件不支持打印

加载失败,