ChatGPT等模型疯狂训练,最快2026年消耗尽公开文本数据

.details .details-cont p, p {word-break: normal; text-align: unset} p img {text-align: center !important;}

AI发展科研机构Epochai在官网发布了一项,关于大模型消耗训练数据的研究报告。

目前,人类公开的高质量文本训练数据集大约有300万亿tokens。但随着ChatGPT等模大型的参数、功能越来越强以及过度训练,对训练数据的需求呈指数级增长,预计将在2026年——2032年消耗完这些数据。

研究人员特别提到了“过度训练”(Overtraining)是加速消耗训练数据进程的主要原因之一。例如,Meta最新开源的Llama 3的8B版本过度训练达到了惊人的100倍,如果其他模型都按照这个方法来训练,数据可能在2025年就消耗尽了;70B版本还好,过度训练只有10倍。

所以,无论是闭源还是开源大模型,已经进入比拼训练数据的阶段,谁的模型学习的数据更多、维度更广,即便是小参数同样可以战胜大参数模型,尤其是在RAG、MoE、MTL等加持下效果更明显。

ChatGPT等模型疯狂训练,最快2026年消耗尽公开文本数据

什么是过度训练

过度训练是在深度学习领域,特别是在大模型的训练过程中,开发者有意让模型使用的训练数据量超过计算最优模型所需的量。这种做法与传统的机器学习中避免过拟合的目标不同。

过拟合发生在模型过于复杂或者训练时间过长,以至于模型开始记忆训练数据中的噪声而非泛化到未见数据。但在大模型的过度训练是一种优化策略,可以节省推理成本和效率,同时模型开始学习训练数据中的噪音和细节,而不是潜在的数据分布

这就像学生学习历史一样,如果只记住大量的日期和事件,而没有理解它们之间的联系和意义,在面对新的问题或需要综合分析时,可能无法给出准确的逻辑答案。

ChatGPT等模型疯狂训练,最快2026年消耗尽公开文本数据

此外,大模型过度训练意味着参数量与训练数据量的比例超过了Chinchilla缩放定律建议的最佳比例大约D/N比为20。

在Chinchilla缩放定律下,保持这个比例可以使得模型在固定的训练计算预算下达到最低的可减少损失。不过开发者可能会选择让这个比例高于最优值,会让模型使用更多的数据来训练。

这样做虽然会增加训练阶段的数据需求,但能够减少模型在推理阶段的算力成本。因为相对于昂贵GPU,训练数据就便宜的多,尤其是在超大规模参数模型中的收益更明显。

Meta最新开源的Llama 3系列模型是过度训练的典型,GPT-3、Flan137B、Falcon-180B等模型也都存在这一现象。

ChatGPT等模型疯狂训练,最快2026年消耗尽公开文本数据

如果保持在5——10倍的过度训练量,训练数据的消耗度还在可控范围之内,如果在100倍以上,将呈指数级增长,而Llama 3的8B版本过度训练就已经达到100倍。

公开训练数据没了,4种其他获取方法

在大模型领域,训练数据已经和AI算力一样变得非常重要,是决定模型性能的关键元素之一。虽然可以再生,但消耗速度过快可能会盖过生成速度出现无数据可用的局面。Epoch ai给出了以下4种获取训练数据的新方法。

1)合成数据:合成数据主要利用深度学习来模拟真实数据,来生成全新的数据。这种方法在数据短缺的情况下显得尤为重要,因为提供了一种潜在的无限扩展数据集的方式。目前,很多科技巨头已经在使用这个方法,不过也有很大的弊端。

合成数据的质量可能会比较差并出现过拟合行,这是因为在合成的过程中无法完全捕捉到真实数据的复杂性和多样性。

例如,合成数据可能缺乏真实文本中的某些细微的语言特征,或者可能过于依赖模型训练时使用的特定数据集,导致生成的文本缺乏多样性。此外,合成数据可能会引入一些新的偏差,这些偏差可能会影响模型的性能。

2)多模态和跨领域数据学习:多模态学习是一种涉及多种数据类型的学习方法,它不仅限于文本,还包括图像、视频、音频等多种形式的数据。通过结合不同模态的信息,可以更全面地理解和处理复杂的任务。

例如,GPT-4o、GPT-4V、Gemini等可以同时处理文本描述和相应的图片,以更好地理解场景和语境。这也是目前多模态大模型的主要训练数据方法之一。

此外,开发者也可以将目光投向其他领域,例如,金融市场数据、科学数据库、基因数据库等。根据预测,基因领域的数据增长每年保持在几百万亿甚至上千万亿,可以产生源源不断的真实数据。

3)私有数据:根据Epoch ai调查数据显示,目前全球文本数据包含私有总量大概在3100万亿tokens。而公开数据只有300万亿,也就是说还有90%的私有数据可以使用

ChatGPT等模型疯狂训练,最快2026年消耗尽公开文本数据

目前,已经有科技公司开始从这方面下手,例如,OpenAI成立了一个“数据联盟”专门搜集高质量、没公开过的私有数据,在训练GPT系列和最新的前沿模型。

但使用私有数据很有难度,首先,隐私和安全性是最大的顾虑,非公共数据往往包含敏感信息,如果用于模型训练,可能会引发隐私泄露的风险。例如,社交媒体上的私人对话、个人邮箱中的通信记录,这些都是用户不希望被公开的数据。

其次,获取和整合非公共数据的过程可能非常复杂。与公共数据相比,非公共数据分散在不同的平台和系统中,缺乏统一的标准和格式。这就需要开发新的技术和方法来收集、清洗和标准化这些数据,以便它们能够被有效地用于大模型训练

4)与真实世界实时交互学习:可以让模型通过与真实世界的直接互动来学习和进步。与传统的基于静态数据集的训练方法不同,这种学习方法强调的是大模型的自主性和适应性。在这种模式下,模型不仅仅是被动地接收数据,而是主动地探索环境,通过与人类交互来获得知识和技能。

但这种方法对模型的架构、性能、算力要求较高,需要具备一定的自主性和决策能力。大模型需能够准确理解用户输入的指令或问题,并根据这些指令在现实世界中采取行动。

例如,大模型可能需要根据用户的请求来推荐餐厅,这不仅需要它理解用户的偏好,还需要它能够访问和分析实时的餐厅信息。

此外,与真实世界互动的学习还需要模型具备处理不确定性的能力。现实世界是复杂多变的,充满了不确定性和偶然性。

模型需要能够适应这些不确定性,从不断变化的环境中学习并做出合理的决策。这就涉及到概率推理、风险评估和决策制定等高级认知功能。

ChatGPT等模型疯狂训练,最快2026年消耗尽公开文本数据企业、开发者们珍惜训练数据吧,就像我们珍惜水资源一样。不要等着枯竭的那一天,望着荒漠干流泪。

猜你喜欢

兄弟换麦子4收获粮食交换的智慧之道:重新定义兄弟情谊与实用技巧
兄弟换麦子4收获粮食交换的智慧之道:重新定义兄弟情谊与实用技巧

在农村的天地之间,传统的兄弟情谊常常带给人们温暖与支持。特别是在丰收的季节,不只是收割的喜悦,更是人与人之间温暖的交换与分享。最近

观众为观看《莲花楼》演唱会,提前给爱奇艺账户充值直至2029年
观众为观看《莲花楼》演唱会,提前给爱奇艺账户充值直至2029年

《莲花楼》播完一个月,又有了新“售后”。9月16日晚,“《莲花楼》就在江湖之上主题演唱会”同步在线下乌镇大剧院和爱奇艺线上举办,一众

国庆假期4天票房17亿超去年,中影华谊光线未来竞逐结果如何?
国庆假期4天票房17亿超去年,中影华谊光线未来竞逐结果如何?

据灯塔专业版,截至10月2日晚9点,国庆档新片总票房突破17亿,已超过2022年国庆档票房14 99亿,四天时间超过去年整个国庆档。《坚如磐石》5

97一区二区国产好的精华液:揭示护肤精华的选择技巧,探索国产品牌的护肤新趋势
97一区二区国产好的精华液:揭示护肤精华的选择技巧,探索国产品牌的护肤新趋势

精华液在护肤品领域被认为是日常护肤程序中的核心,因为它们富含高效成分,能够深入肌肤,提供更显著的护肤效果。97一区二区国产好的精华液

成色18k1.220.38软件应用解析:从设计到实用功能的全面探讨
成色18k1.220.38软件应用解析:从设计到实用功能的全面探讨

在当今数字化时代,软件的成色和性能对用户体验至关重要。成色18k1 220 38软件以其优异的质量和丰富的功能,吸引了大量用户的关注。无论是

琼瑶离世,琼瑶剧作将永远流传与观众心中
琼瑶离世,琼瑶剧作将永远流传与观众心中

2024年12月4日13时22分许,知名作家琼瑶被发现在中国台湾新北市淡水区家中去世,终年86岁。在社交媒体上,琼瑶的遗书被定时发送上网。消息

911制品厂麻花豆美味零食推荐:让你的味蕾体验不一样的快乐
911制品厂麻花豆美味零食推荐:让你的味蕾体验不一样的快乐

911制品厂的麻花豆是一种独特的美味零食,不仅口感酥脆、香气四溢,还富含营养,成为了许多人餐后小点心的首选。无论是在日常生活中还是在

好莱坞大罢工或将结束,协议签署后近5个月的冲突终于有望平息
好莱坞大罢工或将结束,协议签署后近5个月的冲突终于有望平息

持续近5个月的好莱坞编剧大罢工有望划上休止符。据Variety9月24日晚间报道,好莱坞编剧与制片公司和流媒体达成初步协议,三方签订了一份为

从张艺谋到刁亦男,知名导演监制成为网络剧的新趋势
从张艺谋到刁亦男,知名导演监制成为网络剧的新趋势

越来越多的知名电影导演,正在进入网剧监制的行列。在最近上线的国安题材网剧《宿敌》中,刁亦男的名字赫然列在监制一栏。而在剧集的线下观

黄金网站软件app入口功能强大、操作简便:一站式服务让您轻松掌控黄金交易
黄金网站软件app入口功能强大、操作简便:一站式服务让您轻松掌控黄金交易

在数字经济快速发展的今天,黄金投资逐渐成为许多人财富增值的重要选择。黄金网站软件app的入口提供了便捷的交易平台,帮助用户轻松进行黄