参考LoRA(Low-Rank Adaptation)详解 - 知乎 这个算法属于PEFT(Parameter Efficient Fine-tuning),在此之前还有提示学习(Prompt Learning)和适配器学习(Adapter Learning)(也许以后填坑吧) 这俩的缺点大概就是prompt的依赖性和adapter引入的额外推理时…
数据集 WIT(WebImageText)包含4亿文本-图像对,从网络上搜索得到 预训练策略 这张图算是经典永流传了,对于输入的N个图像文本对,用左边矩阵的形式构建出N个正对和N2−N个负对,计算他们的余弦距离,并最小化正对的距离,最大化负对的距离 具体的训练策略蛮有意思,他居然用的SCE Loss(勘误,这里是对称的 交叉熵损失,而非SCE,对称…
欢迎使用WordPress。这是您的第一篇文章。编辑或删除它,然后开始写作吧!