我的数据属于谁?数据层有哪些项目值得关注?
原文标题: My Data is Not Mine: The Emergence of Data Layers
原文作者: 0xJeff ( @Defi0xJeff )
编译:Asher( @Asher_ 0210 )
由于当下人们的注意力大多集中在线上,数据是这个时代的数字黄金。2024 年全球平均屏幕使用时间为每天 6 小时 40 分钟,比往年有所增加。在美国,这一数字甚至更高,达到了每天 7 小时 3 分钟。
在如此高的参与度下,生成的数据量令人震惊, 2024 年每天产生 3.2877 TB 的数据。换算下来,考虑到所有新生成、捕获、复制或消费的数据,每天大约是 0.4 ZB 的数据(1 ZB = 1,000,000,000 TB)。
然而,尽管每天产生和消费大量数据,但用户拥有的却很少:
-
社交媒体:像 X、Instagram 等平台上的数据由公司控制,尽管这些数据是由用户生成的;
-
物联网 (IoT):智能设备的数据通常属于设备制造商或服务提供商,除非有具体协议另行说明;
-
健康数据:虽然个人对自己的医疗记录拥有权利,但来自健康应用程序或可穿戴设备的大部分数据由提供这些服务的公司控制。
加密和社交数据
在加密领域,我们看到了 Kaito AI 的崛起,它索引了 X 平台上的社交数据,并将其转化为可操作的情感数据,供项目、KOL 和思想领袖使用。“yap”和“mindshare”这两个词是由 Kaito 团队推广的,因为他们在增长黑客方面的专业知识(通过他们受欢迎的 mindshare 和 yapper 仪表板)以及在 Crypto Twitter 上吸引有机兴趣的能力。
“Yap”旨在激励在 X 平台上创作优质内容,但许多问题仍未得到解答:
-
“yaps”是如何“准确地”被评分的?
-
提到 Kaito 会获得额外的‘yaps’吗?
-
Kaito 是真正奖励优质内容,还是更偏爱有争议的热门观点?
除了社交数据,关于数据所有权、隐私和透明度的讨论越来越激烈。随着人工智能的迅速发展,新的问题浮出水面:谁拥有用于训练人工智能模型的数据?谁能从人工智能生成的结果中获益?这些问题为 Web3 数据层的兴起铺平了道路——这是朝着去中心化、用户主导的数据生态系统转型的一步。
数据层的出现
在 Web3 领域,一个日益壮大的数据层、协议和基础设施生态系统正在形成,旨在实现个人数据主权,让个人能够更好地掌控自己的数据,并提供货币化的机会。
Vana
Vana 的核心使命是让用户掌控他们的数据,特别是在人工智能的背景下,数据对于训练模型是无价的。 Vana 推出了 DataDAOs,这是由社区驱动的实体,用户在这里汇集他们的数据以实现共同利益。每个 DataDAO 专注于特定的数据集:
-
r/datadao:专注于 Reddit 用户数据,使用户能够控制和货币化他们的贡献;
-
Volara:处理 X 平台数据,让用户能够从他们的社交媒体活动中受益;
-
DNA DAO:旨在以隐私和所有权为重心管理遗传数据。
Vana 将数据分割成一种可交易的资产,称为“DLP”。每个 DLP 聚合特定领域的数据,用户可以将代币质押到这些池中以获得奖励,顶级池根据社区支持和数据质量获得奖励。 Vana 的突出之处在于其数据贡献的简便性。用户只需先 选择一个 DataDAO,然后 通过 API 集成直接汇总他们的数据或手动上传数据,最后 赚取 DataDAO 代币和 VANA 代币作为奖励。
Ocean Protocol
Ocean Protocol 是一个去中心化的数据市场,允许数据提供者分享、出售或许可他们的数据,同时消费者可以访问这些数据用于人工智能和研究。Ocean Protocol 使用“datatokens”(ERC 20 代币)来表示对数据集的访问权,允许数据提供者在保持对访问条件的控制的同时实现数据的货币化。
在 Ocean Protocol 上交易的数据类型具体有:
-
公共数据指的是开放数据集,如天气信息、公共人口统计或历史股票数据,这些对 AI 训练和研究非常有价值;
-
私人数据则包括医疗记录、财务交易、物联网传感器数据或个性化用户数据,这些需要严格的隐私控制。
Compute-to-Data 是 Ocean Protocol 的另一个关键特性,允许在数据上进行计算而无需移动数据,从而确保敏感数据集的隐私和安全。
Masa
Masa 专注于为 AI 训练数据创建一个开放层,为 AI 代理和开发者提供实时、高质量和低成本的数据。
Masa 在 Bittensor 网络上启动了两个子网:
-
子网 42 ( SN42 ):每天聚合和处理数百万条数据记录,为人工智能代理和应用程序开发提供基础;
-
子网 59 ( SN59 )– "AI Agent Arena":一个竞争环境,在这里,AI 代理利用来自 SN42 的实时数据,根据心智份额、用户参与度和自我提升等绩效指标竞争 TAO 释放量。
此外,Masa 与 Virtuals Protocol 合作,为 Virtuals Protocol 代理提供实时数据能力。它还推出了 TAOCAT 代币,展示了其能力(目前在 Binance Alpha 上)。
Open Ledger
Open Ledger 正在构建一个专门为数据量身定制的区块链,特别是针对人工智能和机器学习应用,确保安全、去中心化和可验证的数据管理,其亮点有:
-
Datanets:OpenLedger 内部的专业数据源网络,策划和丰富用于 AI 应用的真实世界数据;
-
SLMs:针对特定行业或应用定制的人工智能模型。其理念是提供不仅在小众用例中更准确,而且符合隐私要求且不易受到通用模型中存在的偏见影响的模型;
-
数据验证:确保用于训练特定语言模型(SLMs)的数据的准确性和可信度,这些模型在特定用例中是准确和可靠的。
人工智能训练对数据的需求
对高质量数据的需求正在激增,以推动人工智能和自主代理的发展。除了初始训练,人工智能代理还需要实时数据以进行持续学习和适应,其中关键挑战与机遇为:
-
数据质量胜于数量:AI 模型需要高质量、多样化和相关的数据,以避免偏见或性能不佳;
-
数据主权与隐私:正如 Vana 所示,用户拥有的数据货币化正在受到推动,这可能会重塑 AI 训练数据的获取方式;
-
合成数据:随着隐私问题的关注,合成数据作为一种在减轻伦理问题的同时训练人工智能模型的方法,正越来越受到重视;
-
数据市场:数据市场(中心化和去中心化)的兴起正在创造一个数据作为可交易资产的经济;
-
数据管理中的人工智能:人工智能现在被用于管理、清理和增强数据集,提高人工智能训练的数据质量。
随着人工智能代理变得更加自主,它们对实时高质量数据的访问和处理能力将直接影响其效果。这种需求的增加催生了专门为人工智能代理打造的数据市场,在这个市场中,人工智能代理和人类都可以获取优质的数据。
Web3 代理数据市场
Cookie DAO 汇总了 AI 代理的社交情感数据以及与代币相关的信息,将其转化为人类和 AI 代理可以操作的洞察。Cookie DataSwarm API 使 AI 代理能够访问实时高质量数据,以获取与交易相关的见解,这也是加密领域中最常见的应用之一。此外,Cookie 拥有 20 万月活跃用户和 2 万日活跃用户,是最大的 AI 代理数据市场之一,COOKIE 代币则是其核心。
最后,该领域其他值得关注的项目为:
-
GoatIndex.ai 专注于 Solana 生态系统数据分析;
-
Decentralised.Co 专注于小众数据仪表板,如 GitHub 和项目特定分析。
Whale Amasses 500K $AUCTION Tokens: $3.76M in Floating Profit
As per the data from Onchain Lens, the crypto whale accumulated up to 500,000 $AUCTION tokens, leadi...
$1.88M Raised – Arctic Pablo Hits Unprecedented Heights! Top New Meme Coin to Invest in Now Amid AI Companions and Ponke Buzz!
Discover Arctic Pablo Coin’s presale, AI Companions, and Ponke updates. Learn about the Top New Meme...
Bitcoin Spot ETF Exodus Continues: $900 Million Outflows Extend Losing Streak
Following the last trading window, the US Bitcoin Spot ETFs have recorded another week of overwhelmi...