NLP 领域使用的技术不断地向其他领域扩展,如 CV 和多模态,鸿沟正在被打破。本文中谷歌研究院和加州伯克利的研究人员在文本到图像模型中引入人类反馈,微调后的模型生成见过和未见过对象的效果得到了显著提升。

最近,深度生成模型在根据文本 生成高质量图像方面取得了显著成功,部分原因在于深度生成模型扩展到了大规模网络数据集(如 LAION)。但是,一些重大挑战依然存在,因而大规模文本到图像模型无法生成与文本 完全对齐的图像。举例而言,当前的文本到图像模型往往无法生成可靠的视觉文本,并在组合式图像生成方面存在困难。

回到语言建模领域,从人类反馈中学习已经成为一种用来「对齐模型行为与人类意图」的强大解决方案。这类方法通过人类对模型输出的反馈,首先学习一个旨在反映人类在任务中所关心内容的奖励函数,然后通过一种强化学习算法(如近端策略优化 PPO)使用学得的奖励函数来优化语言模型。这种带有人类反馈框架的强化学习(RLHF)已经成功地将大规模语言模型(例如 GPT-3)与复杂的人类质量评估结合起来。

近日,受 RLHF 在语言领域的成功,谷歌研究院和加州伯克利的研究者提出了使用人类反馈来对齐文本到图像模型的微调方法。

论文地址:

本文方法如下图 1 所示,主要分为 3 个步骤。

第一步:首先从「设计用来测试文本到图像模型输出对齐的」一组文本 中生成不同的图像。具体地,检查预训练模型更容易出错的 —— 生成具有特定颜色、数量和背景的对象,然后收集用于评估模型输出的二元人类反馈。

第二步:使用了人工标记的数据集,训练一个奖励函数来预测给定图像和文本 的人类反馈。研究者提出了一项辅助任务,在一组扰动文本 中识别原始文本 ,以更有效地将人类反馈用于奖励学习。这一技术改进了奖励函数对未见过图像和文本 的泛化表现。

第三步:通过奖励加权似然最大化更新文本到图像模型,以更好地使它与人类反馈保持一致。与之前使用强化学习进行优化的工作不同,研究者使用半监督学习来更新模型,以测量模型输出质量即学得的奖励函数。

生成绘画过程_绘画关键词生成器_chatgpt生成ai绘画关键词

研究者使用带有人类反馈的 27000 个图像 – 文本对来微调 模型,结果显示微调后的模型在生成具有特定颜色、数量和背景的对象方面实现显著提升。图像 – 文本对齐方面实现了高达 47% 的改进,但图像保真度略有下降。

此外,组合式生成结果也得到了改进,即在给定未见过颜色、数量和背景 组合时可以更好地生成未见过的对象。他们还观察到,学得的奖励函数比测试文本 上的 CLIP 分数更符合人类对对齐的评估。

不过,论文一作 Kimin Lee 也表示,本文的结果并没有解决现有文本到图像模型中所有的失效模型,仍存在诸多挑战。他们希望这项工作能够突出从人类反馈中学习在对齐文生图模型中的应用潜力。

方法介绍

为了将生成图像与文本 对齐,该研究对预训练模型进行了一系列微调,过程如上图 1 所示。首先从一组文本 中生成相应的图像,这一过程旨在测试文生图模型的各种性能;然后是人类评分员对这些生成的图像提供二进制反馈;接下来,该研究训练了一个奖励模型来预测以文本 和图像作为输入的人类反馈;最后,该研究使用奖励加权对数似然对文生图模型进行微调,以改善文本 – 图像对齐。

人类数据收集

为了测试文生图模型的功能,该研究考虑了三类文本 :指定数量( count)、颜色、背景。对于每个类别,该研究对每个描述该物体的单词或短语两两进行组合来生成 ,例如将绿色(颜色)与一只狗(数量)组合。此外,该研究还考虑了三个类别的组合(例如,在一个城市中两只染着绿颜色的狗)。下表 1 更好的阐述了数据集分类。每一个 会被用来生成 60 张图像,模型主要为 v1.5 。