OpenAI 与News Corp和Reddit等公司最近达成的备受瞩目的数据许可协议凸显了人工智能对高质量数据的需求。Frontier 模型已经在互联网的大部分领域进行了训练,例如 Common Crawl,它索引了大约10%的所有网页,用于 LLM 训练,包含超过 100 万亿个 token。
进一步改进 AI 模型的途径之一是扩展和增强它们可以训练的数据。我们一直在讨论如何聚合数据的机制——特别是以去中心化的方式。我们特别感兴趣的是探索去中心化方法如何帮助生成新的数据集,并在经济上奖励贡献者和创造者。
过去几年,加密行业内讨论的一个话题是数据 DAO,即创建、组织和管理数据的个人集合。Multicoin 和其他公司已经讨论过这个话题,但人工智能的快速发展催生了数据 DAO 的新“为什么是现在?”。
我们想围绕数据 DAO 主题分享我们的思考,以探究以下问题:数据 DAO 如何加速 AI 发展?
订阅
当今人工智能中的数据
如今,人工智能模型都是通过公共数据进行训练的,要么通过与新闻集团和 Reddit 等公司合作,要么通过从开放互联网上抓取数据。例如,Meta 的 Llama 3 就是通过来自公开来源的15 万亿个 token 进行训练的。这些方法在快速聚合大量数据方面非常有效,但它们在收集数据的内容和方式方面都有局限性。
首先,什么是:AI 开发受到数据质量和数量的限制。Leopold Aschenbrenner 曾写过关于限制算法进一步改进的“数据墙”的文章:“很快,在更多抓取的数据上对更大的语言模型进行预训练的简单方法可能会开始遇到严重的瓶颈。”
打破数据壁垒的一种方法是开放新数据集。例如,模型公司无法在不违反大多数网站服务条款的情况下抓取登录限制的数据,而且从定义上讲,他们无法访问尚未汇总的数据。此外,还有大量私人数据无法用于当今的 AI 训练:想想企业 Google Drive、公司 Slacks、个人健康数据或私人消息。
其次,如何实现:在现有模式下,汇总数据的公司占据了大部分价值。Reddit的 S-1将数据许可列为主要预期收入来源:“我们预计我们不断增长的数据优势和知识产权将继续成为未来法学硕士培训的关键要素。”生成实际内容的最终用户不会从这些许可协议或 AI 模型本身中获得任何经济利益。这种错位可能会抑制参与——已经有人起诉生成AI 公司或选择退出训练数据集。更不用说将收入集中在模型公司或平台手中而不将份额分给最终用户的社会经济影响。
数据 DAO 效应
上述数据问题有一个共同点:它们受益于来自多样化、有代表性的用户样本的规模化贡献。任何单个数据点对模型性能的价值可能微不足道,但总的来说,一大群用户可以聚合对 AI 训练有价值的新数据集。这就是数据 DAO 的理念可以发挥作用的地方。有了数据 DAO,数据贡献者可以从贡献数据中获得经济利益,并控制数据的使用和货币化方式。
数据 DAO 可以解决当前数据格局中的哪些空白?以下是一些想法——请注意,此列表并不详尽,数据 DAO 肯定还有其他机会:
真实世界数据在去中心化物理基础设施 (DEPIN) 领域,Hivemapper 等网络旨在通过激励行车记录仪所有者贡献数据以及激励用户通过其应用贡献数据(例如有关道路封闭或维修的信息)来收集世界上最新鲜的全球地图数据。从某种角度来看,DEPIN 是现实世界的数据 DAO,其中数据集由硬件设备和/或用户网络生成。这些数据对各种公司都有商业利益,收入以代币奖励的形式返还给贡献者。
个人健康数据生物黑客是一项社会运动,个人和社区采用 DIY 方式研究生物学,通常是通过自己做实验。例如,个人可能会服用不同的益智药来提高大脑功能,或测试不同的疗法或环境变化来改善睡眠,甚至给自己注射实验药物。
数据 DAO 可以通过组织参与者进行共同的实验并有条不紊地收集结果,为这些生物黑客活动带来结构和激励。这些个人健康 DAO 获得的收入(例如来自研究实验室或制药公司的收入)可以以个人健康数据的形式返还给贡献结果的参与者。
通过人工反馈进行强化学习使用 RLHF(基于人工反馈的强化学习)对 AI 模型进行微调涉及利用人工输入来提高 AI 系统的性能。通常,反馈者的理想形象是其领域的专家,他们可以有效地评估模型的输出。例如,实验室可能会寻求数学博士学位来提高其法学硕士的数学能力等。代币奖励可以通过其投机性优势在寻找和激励专家参与方面发挥作用,更不用说使用加密支付渠道提供的全球访问权限了。Sapien 、Fraction和Sahara等公司正在这个领域开展工作。
私人数据随着用于 AI 训练的公开数据逐渐枯竭,竞争的基础可能会转向专有数据集,包括私人用户数据。大量高质量数据仍无法通过登录墙、私信、私人文档等方式获取。这些数据不仅可以有效地训练个人 AI,还包含公共网络上无法获取的宝贵信息。
然而,访问和利用这些数据在法律和道德方面都面临着重大挑战。数据 DAO 可以提供解决方案,让有意愿的参与者上传和货币化他们的数据并管理其使用方式。例如,Reddit 数据 DAO允许用户将从平台本身导出的 Reddit 数据(包含评论、帖子和投票历史)上传到数据宝库,然后以保护隐私的方式将其出售或出租给 AI 公司。代币激励措施不仅允许用户通过一次性数据交易获得收益,还可以根据在其数据上训练的 AI 模型所创造的价值获得收益。
未决问题与挑战
虽然数据 DAO 的潜在优势巨大,但也存在一些注意事项和挑战。
激励措施的扭曲影响如果从加密货币中使用代币激励的历史中可以得出一个结论,那就是外部激励会改变用户行为。这对于利用代币激励来获取数据具有直接影响:激励可能会扭曲参与者基础和所贡献的数据类型。
引入代币激励措施还可能使参与者试图欺骗系统,提交低质量或伪造的数据以最大化他们的收益。这很重要,因为这些数据 DAO 的收入机会取决于数据质量。如果贡献有偏差,就会损害数据集的价值。
数据测量和奖励数据 DAO 的核心理念是,贡献者通过代币激励获得其提交内容的奖励,从长远来看,这些奖励将汇聚到 DAO 的收入中。然而,鉴于数据价值的主观性,要确切知道要奖励各种数据贡献多少是一项挑战。例如,在上面关于生物黑客的例子中:某些用户的数据是否比其他用户更有价值?如果是这样,这些决定因素是什么?对于地图数据:某些地区的地图信息是否比其他地区更有价值,如何量化这种差异?(目前有积极的研究通过计算其对模型性能的增量贡献来衡量人工智能中的数据价值,但这种方法可能需要大量计算。)
此外,建立强大的机制来验证数据的真实性和准确性至关重要。如果没有这样的措施,系统可能会受到欺诈性数据提交(例如创建虚假账户)或 Sybil 攻击的影响。DEPIN 网络试图通过在硬件设备级别进行集成来解决这个问题,但其他类型的数据 DAO 依赖于用户驱动的贡献,可能会容易受到操纵。
新数据的增量大多数开放网络已经用于培训目的,因此数据 DAO 运营商必须考虑通过分布式努力收集的数据集是否真正具有增量性,是否对开放网络上现有的数据具有补充作用,以及研究人员是否可以从平台获得这些数据的许可或通过其他方式获取这些数据。上面概述的想法强调了收集超出现有范围的全新数据的重要性,这又引出了下一个考虑因素:影响程度和收入机会。
评估收入机会从本质上讲,数据 DAO 正在构建一个双边市场,将数据买家与数据贡献者联系起来。因此,数据 DAO 的成功取决于吸引愿意为数据付费的稳定而多样化的客户群。
数据 DAO 需要确定并验证其最终需求,并确保收入机会足够大(无论是总体还是按每个贡献者计算),以激励所需数据的数量和质量。例如,创建用户数据 DAO 以汇集个人偏好和浏览数据用于广告的想法已经讨论多年,但最终,这种网络能够传递给用户的收入可能微乎其微。(作为比较,Meta 2023 年底的全球 ARPU 为 13.12美元。)由于 AI 公司计划在培训上花费数万亿美元,其数据的每个用户收入可能足以吸引大规模贡献,这为数据 DAO 提出了一个有趣的“为什么是现在”。
克服数据墙
数据 DAO 代表着一种可能很有前途的途径,可以生成新的高质量数据集并克服 AI 中的数据壁垒。具体如何实现还有待观察,但我们很高兴看到这个领域的发展。
如果您是在这个领域工作的建筑商,请联系我们——我们很乐意听到您的声音。
感谢Matt Lim 、Tom Hamer 、Anastasios Angelopoulos 、Nish Bhat和Jason Zhao的审阅,以及感谢 Variant 团队的讨论,这些讨论促成了这些想法!