Midjourney开创性研究推动创意文本生成技术,提升LLM写作的创意表现力

以AI图像生成技术闻名遐迩的Midjourney,正悄然展现其在人工智能领域的更广阔野心。这家拥有庞大用户群体的科技公司,在自研计算和AI硬件的消息之后,近期携手纽约大学(NYU)的机器学习专家,发布了一项关于训练文本生成大语言模型(LLMs)的最新研究成果。

QQ_1742869272075.png

该研究聚焦于提升LLM在创意写作方面的能力,旨在使AI模型能够像Meta的Llama和Mistral等开源模型一样,写出更具创造性的文本。

不止于图像:Midjourney发力创意文本生成

对于一家以扩散模型AI图像生成技术著称的公司而言,Midjourney此次在文本生成领域的创新尝试,无疑向外界传递了一个明确的信号:他们的目标远不止于视觉内容。正如研究人员所言,“一图胜千言”的传统观念或许将被改写,文本的创意潜力同样值得深入挖掘。Midjourney正在用实际行动证明,其在AI领域的探索是多元化的。

告别“套路”:创新技术提升AI写作多样性

该项发表于AI代码社区Hugging Face的研究论文,创新性地提出了两种名为“多样化直接偏好优化”(Diversified Direct Preference Optimization, DDPO)和“多样化赔率比偏好优化”(Diversified Odds Ratio Preference Optimization, DORPO)的新技术。这两项技术的核心目标在于扩大AI模型生成文本的范围,使其在保持连贯性和可读性的前提下,呈现出更加丰富多样的内容。

研究人员指出,尽管当前的LLM在事实性问答或代码辅助等领域表现出色,能够生成“最优解”,但在创意写作领域,由于其开放性,对同一个提示本应存在多种有效的回应。例如,对于“写一个关于月球上的狗的故事”这样的提示,人类可能会构思出宇航员遗落在月球上的宠物狗、未来犬类太空殖民地的狗狗,或是与外星生物成为朋友的流浪狗等多种截然不同的情节。

然而,经过指令调优的LLM往往会收敛于相似的故事线和主题。这主要是因为后期训练技术更侧重于用户偏好而非原创性,强化了流行但重复的答案;同时,指令调优也可能平滑了变异性,使模型倾向于生成“安全”但缺乏新意的回应。此外,现有的多样性促进技术(如温度调整)通常只在模型推理阶段发挥作用,而没有融入到模型的学习过程中。这最终导致AI生成的创意写作显得同质化,缺乏惊喜和深度。

让AI模型“另辟蹊径”

为了克服这些局限性,Midjourney的研究团队对现有的偏好优化方法进行了改进,引入了DDPO和DORPO。这两项创新的核心在于利用“偏差”(deviation)——即一个回应与其他回应的差异程度——来指导模型训练。

具体来说,在训练过程中,模型会接收一个写作提示和多个可能的回答。随后,每个回答都会与其他同提示下的回答进行比较,并计算出一个偏差分数。那些罕见但高质量的回应在训练中会被赋予更高的权重,从而鼓励模型从更多样化的例子中学习。通过将偏差融入到直接偏好优化(DPO)和赔率比偏好优化(ORPO)中,模型能够学习生成更高质量且更具差异性的回应。这种方法确保了AI生成的故事不会局限于单一可预测的结构,而是能够探索更广泛的角色、设定和主题,就像人类作家一样。

为了验证这些新方法的有效性,研究人员使用了Reddit社区r/writingPrompts上的数据集对LLM进行训练。他们选择了Meta的Llama-3.1-8B(一个80亿参数的模型)和Mistral AI的Mistral-7B-v0.3(一个70亿参数的模型)作为基础模型。

训练过程包括监督式微调(SFT)和偏好优化两个阶段。在偏好优化阶段,他们首先使用标准的DPO和ORPO作为基线,然后应用DDPO和DORPO引入基于偏差的权重。最后,通过自动评估(测量语义和文体多样性)和人工评估(判断输出的多样性和吸引力,并与GPT-4o和Claude3.5进行比较)来评估模型性能。

实验结果显示,DDPO在保持输出质量的同时,显著优于标准的DPO。搭载DDPO的Llama-3.1-8B在质量和多样性之间取得了最佳平衡,其生成的回应比GPT-4o更加多样化,同时保持了良好的连贯性。即使在数据集规模缩小的情况下,DDPO模型仍然能够保持一定的多样性。

赋能各行业:AI创意内容潜力无限

这项研究对于需要使用AI生成创意文本的企业而言,具有重要的实际意义。例如,在营销文案、企业故事讲述以及影视游戏剧本创作等领域,提升AI生成内容的多样性和质量至关重要。对于负责LLM部署的AI团队而言,如何在保证质量的前提下增强输出的多样性是一个关键挑战。Midjourney的研究为解决这一难题提供了一种新的思路。

该研究提出了一种新的LLM后训练方法,能够在不牺牲质量的前提下增强创造力。它还提供了一种实用的替代方案,可以取代推理时期的多样性调整(如调整温度),将多样性直接融入到模型的学习过程中。这有望开发出更具吸引力的AI应用,例如AI辅助写作工具和能够动态调整回应的虚拟助手。

对于负责AI模型编排和自动化的专业人士来说,这项研究强调了在训练阶段调整模型的重要性,从而减少部署后进行后处理调整的需求。它还提供了一种将自适应叙事引入AI驱动应用的方法,确保内容的可变性,同时保持高质量。此外,该方法有助于使LLM的输出更像人类,这对于需要互动叙事、客户互动或动态内容创建的应用至关重要。

结语

DDPO和DORPO的成功表明,以多样性为目标训练LLM可以在创意写作方面取得显著的进步。未来,将基于偏差的学习方法集成到企业AI模型中,以增强面向客户的应用中的响应多样性,探索这些方法在诗歌、剧本创作或游戏故事等其他生成任务中的应用,以及开发平衡多样性和指令遵循能力的混合训练方法,都将是值得期待的研究方向。

Midjourney的研究团队计划公开其代码,这无疑将为那些希望应用这些技术的开发者提供宝贵的资源。通过采纳这些创新技术,AI团队有望突破僵化、公式化的输出模式,构建出不仅智能,而且真正富有想象力的AI系统。

论文:https://huggingface.co/papers/2503.17126

猜你喜欢

三年内免费视频观看大全,畅享无广告高清影视作品,尽情沉浸在精彩的影像世界中!
三年内免费视频观看大全,畅享无广告高清影视作品,尽情沉浸在精彩的影像世界中!

随着互联网的快速发展,在线视频平台成为了人们生活中不可或缺的一部分。无论是在空闲时间,还是在休闲放松的时刻,大家都希望能

美术馆百米范围内,李淜28幅油画重塑现实与幻想的交界线
美术馆百米范围内,李淜28幅油画重塑现实与幻想的交界线

在上海油画雕塑院美术馆内,一场别开生面的艺术展览——“百米之内——李淜作品展”近日拉开帷幕,为观众呈现了一场关于现代城市

凡人传说是如何逆袭成为首位至尊玉皇大帝的传奇历程
凡人传说是如何逆袭成为首位至尊玉皇大帝的传奇历程

在远古时代,天地未分,混沌一片。随着宇宙的演化,世间逐渐出现了最初的神灵。他们并非如后来那般高高在上,而是与万物共存,共

未定事件簿厨房的试炼汤圆秘籍完整配方-新手玩家如何挑选最佳职业
未定事件簿厨房的试炼汤圆秘籍完整配方-新手玩家如何挑选最佳职业

元宵节即将到来,未定事件簿也开启了限时的活动,玩家可以用不同的配方来制作不同的汤圆,感兴趣的小伙伴可以来参考本篇攻略,下

探索许家盛的艺术创作:走进著名画家绘画中小品的奇妙世界!
探索许家盛的艺术创作:走进著名画家绘画中小品的奇妙世界!

在云南昭通,有一位艺术界的杰出代表,他就是许家盛先生。作为1942年出生的本土艺术家,许家盛以其卓越的艺术成就和广泛的社

如何获取江湖书房四艺残页的完整攻略与技巧分享
如何获取江湖书房四艺残页的完整攻略与技巧分享

在这就是江湖这款游戏中,书房四艺残页是玩家们追求高星武学的重要道具之一。其中,琴谱残页可以通过参与“梨园”活动获得。当玩

在潘文良的笔触下探寻自然之美:墨韵竹影中的生命赞歌
在潘文良的笔触下探寻自然之美:墨韵竹影中的生命赞歌

在艺术的浩瀚宇宙中,一幅幅国画作品犹如璀璨星辰,引领着我们探寻传统与自然的和谐之美。潘文良的竹子系列画作,便是这样一组令

探讨日本68❌❌❌老师电影的独特魅力,究竟是什么让观众无法抵挡其吸引力
探讨日本68❌❌❌老师电影的独特魅力,究竟是什么让观众无法抵挡其吸引力

近年来,随着日本电影的多元化发展,越来越多不同类型的影片涌现,其中一部关于“68❌❌❌老师”的电影引起了广泛关注。这部影

票房热卖王VIP价格一览及会员会所等级费用详解
票房热卖王VIP价格一览及会员会所等级费用详解

在探讨“票房大卖王”这款备受欢迎的电影模拟经营游戏的vip价格表及会所等级价格时,我们首先需要明确的是,这些信息可能会随

邵仲节牡丹国画杰作集,绽放国色天香传递富贵春意的华美艺术之旅!
邵仲节牡丹国画杰作集,绽放国色天香传递富贵春意的华美艺术之旅!

著名花鸟画家邵仲节的艺术世界:国色天香,富贵春满邵仲节,一位在花鸟画领域享有盛誉的艺术家与美术教育家,以其精湛的技艺和独