从芯片到数据:AI 的下一场战役
作者:OORT创始人、哥伦比亚大学教授李崇博士(Max Li)
当全球依旧聚焦于围绕 AI 芯片的战争——关税、知识产权限制、供应链制裁以及地缘政治纷争时,直接左右AI 未来发展的数据荒问题,显然被忽略了。
今年年初,埃隆·马斯克便敏锐地指出,AI 公司已经耗尽了训练模型的数据,甚至“用尽”了人类知识的总和。
本文将探讨数据池的萎缩,及去中心化 AI (DeAI)如何在解决这一挑战中扮演关键角色。
首先要明确一点:数据并非取之不尽用之不竭。
数据之战早有先兆:2023 年,一群视觉艺术家对 Stability AI、MidJourney 和 DeviantArt 提起了一场具有里程碑意义的诉讼,指控这些公司在未获得许可的情况下使用他们的作品来训练生成式 AI 模型(如 Stable Diffusion)。与此同时,马斯克指责 OpenAI 等公司未经授权“抓取”推特(现为 X 平台)的数据,促使 X 平台收紧 API 定价和访问限制。
无独有偶,Reddit 大幅提高 API 定价,扰乱了依赖 Reddit 用户生成内容进行 AI 模型训练的 OpenAI 和 Anthropic 等公司。Reddit 将这一决定视为其数据货币化的方式,但也引发了关于用户数据平台和寻求使用这些数据的 AI 公司之间紧张关系的辩论。
这些事件凸显了一个日益明显的现实:我们正在耗尽合法和伦理上可用的数据。
芯片战聚焦于生产最强大的硬件,而数据战在于获取合适的数据集以训练 AI。伦理、高质量数据的日益稀缺,已成为一众企业发展AI的瓶颈。
对于大公司而言,最可行的方式是从中心化巨头那里获取数据,虽然代价高昂。然而,小型企业却面临有限且通常难以承受的选择。没有适当的收集数据的方法或渠道,这些公司将在未来AI发展和创新赛道大幅落后。
那么我们到底如何以伦理且有效的方式收集推进 AI 开发所需的数据?
数据战争将在多个前沿展开,每个方面都带来独特的挑战与机遇。
谁掌控数据收集的管道?如何做到伦理与合法?
随着针对科技巨头的诉讼因非法抓取或使用数据而堆积如山,新兴的举措也开始出现。例如,哈佛大学率先推动获得用户同意的数据贡献,为公众提供开放访问数据集。尽管此类项目有其价值,但远不足以满足商业 AI 应用的需求。
合成数据也逐渐成为一种潜在解决方案。Meta 和微软等公司已开始利用 AI 生成数据来微调模型,如 Llama 和 Phi-4。Google 和 OpenAI 也在工作中采用了合成数据。然而,合成数据也面临自身的挑战,例如模型“幻觉”问题,这可能会影响其准确性和可靠性。
去中心化的数据收集提供了另一种有前景的选择。通过利用区块链技术并使用加密货币激励个体安全共享数据,去中心化模式可以解决隐私、所有权和质量问题。这些解决方案还民主化了数据访问,使小型企业能够在 AI 生态系统中竞争。
低质量的数据会导致模型偏差、不准确的预测,并最终引发对 AI 系统的不信任。我们如何确保用于 AI 训练的数据是准确且具有代表性的?
行业常见做法包括:
此外,各国监管机构还面临着建立全面数据隐私和安全规则的迫切挑战,这些规则需要平衡个人权利与技术创新,同时应对诸如保护敏感数据免受网络威胁、外国利用以及敌对实体滥用等关键国家安全问题。
数据战争的影响深远。例如,在医疗行业,高质量患者数据的获取可以彻底改变诊断和治疗计划,但严格的隐私法规构成了障碍。同样,在音乐行业,使用伦理数据集训练的 AI 模型可以改变从作曲到版权执行的一切,前提是它们尊重知识产权。
这些挑战突显了去中心化解决方案的重要性,这些方案优先考虑数据透明度、质量和可访问性。通过利用去中心化系统,我们可以创造一个更加公平的数据生态系统,使个人保留对其数据的控制权,企业能够访问伦理且高质量的数据集,并在不损害隐私或安全的情况下推动创新。
从芯片战到数据战的转变将重塑 AI 生态系统及其演变过程,为去中心化数据解决方案提供领先的机会。通过优先考虑伦理数据收集和可访问性,去中心化 AI 有潜力弥合差距,引领更公平、更具创新性的 AI 未来。
争夺最佳数据的战斗已经开始。我们是否准备好应对?
Kalp and MIRO Partner to Revolutionize Bitcoin Payments RWA Adoption
Kalp and MIRO Pay working together to enhance Bitcoin ($BTC) payments, enabling faster, cost-efficie...
NEOPIN Plans Migration to Solana Blockchain
NEOPIN was initially launched on the Klatyn Blockchain. Now it has proposed to shift to the Solana b...

Trump’s crypto czar David Sacks says US government missed out on $17 billion by selling Bitcoin too early
Trump’s crypto czar David Sacks says US government missed out on $17 billion by selling Bitcoin too early