随着全世界继续关注人工智能芯片组的激烈战争——包括关税、知识产权限制、供应链制裁和地缘政治斗争——人工智能未来的一个关键方面正在悄然消失:这些强大的芯片组可供处理的数据越来越稀缺。
就在 2025 年初,埃隆·马斯克指出,人工智能公司已经耗尽了用于训练模型的数据,并“耗尽”了人类的全部知识。在本文中,我们将探索日益减少的可用数据池,并研究去中心化的人工智能解决方案如何从根本上应对这一挑战。
数据战争的曙光
首先要说的是:无限数据是不存在的。
这场危机的迹象比比皆是。2023 年,一群视觉艺术家对 Stability AI、MidJourney 和 DeviantArt 提起了具有里程碑意义的诉讼,指控他们未经同意使用他们的作品来训练 Stable Diffusion 等生成式 AI 模型。大约在同一时间,马斯克指责 OpenAI 等公司未经许可“抓取”Twitter(现为 X)的数据,促使 X 收紧 API 定价和访问限制。
另一方面,Reddit 大幅提高 API 价格,给 OpenAI 和 Anthropic 等公司带来了冲击,这些公司严重依赖 Reddit 庞大的用户生成内容库来训练他们的 AI 模型。Reddit 认为此举是将其宝贵数据货币化的一种方式,但这一决定引发了关于托管用户数据的平台与寻求使用这些数据的 AI 公司之间紧张关系的争论。
这些事件凸显了一个日益严重的现实:我们正在耗尽合法且合乎道德的可用数据。
数据战的利害关系
芯片之战的焦点是生产最强大的硬件,而数据之战则取决于获取训练 AI 所需的正确数据集。合乎道德的高质量数据日益稀缺,给各种规模的企业带来了困境,无论是谷歌和微软这样的巨头,还是难以获取训练数据集的小型企业。
对于大公司来说,从中心化巨头那里获取数据可能仍然是可行的,尽管成本较高。然而,小型企业面临的选择有限,而且往往负担不起。如果没有适当的数据收集方法或渠道,这些公司就有可能在创新竞赛中落后。
问题依然存在:我们如何才能合乎道德且有效地收集推动人工智能发展所需的数据?数据战将发生在多个战线上,每个战线都带来独特的挑战和机遇。
数据收集
谁控制着数据收集的管道,以及如何才能合乎道德和法律地做到这一点?
随着针对科技巨头的诉讼越来越多,这些公司被指控非法抓取或使用数据,一些新举措开始出现。例如,哈佛大学率先努力获得用户同意提供数据,为公众提供开放数据集。虽然这些项目很有价值,但它们不足以满足商业人工智能应用的需求。
合成数据也作为一种潜在解决方案而受到关注。Meta 和微软等公司已转向使用人工智能生成的数据来微调 Llama 和 Phi-4 等模型。谷歌和 OpenAI 也同样在工作中利用了合成数据。然而,合成数据也存在自身的挑战,包括模型“幻觉”等问题,这可能会影响准确性和可靠性。
去中心化数据收集提供了另一种有前途的替代方案。具体来说,数据贡献者提供他们的数据,数据收集过程记录在区块链上,以确保完整性和可追溯性。此外,来自世界各地的数据贡献者会因他们的贡献而获得加密货币奖励。值得注意的是,加密货币在这种情况下是必不可少的,因为法定货币不适合跨境小额交易。总之,这种去中心化的数据收集模型可以解决对数据完整性、多样性和质量的担忧。这些解决方案还使数据访问民主化,使小型企业能够在人工智能生态系统中竞争。
数据质量
数据质量低下会导致模型出现偏差、预测不准确,并最终导致人们对人工智能系统失去信任。我们如何确保用于人工智能训练的数据准确且具有代表性?
常见的行业惯例包括:
严格的数据验证:公司采用先进的验证技术来过滤数据集中的错误、不一致和噪音。这通常涉及人工监督、自动化流程或两者结合来验证数据的完整性。
偏见缓解策略:为了确保数据具有代表性,企业实施了偏见检测工具和多样化的采样技术。例如,在医疗保健领域,数据集必须包括不同人口统计数据中的个人,以避免可能扭曲诊断模型的偏见。
遵守标准:数据安全 ISO/IEC 27001 等行业框架以及其他新兴的人工智能道德准则对于确保数据质量和符合全球标准至关重要。
众包质量检查:利用 Amazon Mechanical Turk 等平台进行标记和验证数据等任务。虽然这些方法具有成本效益,但需要监督以确保一致性和准确性。
分散验证:区块链和分散系统作为验证数据来源、确保其真实性和防篡改性的工具正获得越来越大的关注。
国家监管机构还面临着紧迫的挑战,需要建立全面的数据隐私和安全规则,以平衡个人权利与技术创新,同时还要解决关键的国家安全问题,例如保护敏感数据免受网络威胁、外国开发和敌对实体的滥用。
边境在等待
数据战争的影响是深远的。例如,获取高质量的患者数据可能会彻底改变医疗行业的诊断和治疗计划,但严格的隐私法规会造成障碍。同样,在音乐行业中,以合乎道德的数据集训练的人工智能模型可以改变从作曲到版权执行的一切,前提是它们尊重知识产权。
这些挑战凸显了优先考虑数据透明度、质量和可访问性的去中心化解决方案的重要性。通过利用去中心化系统,我们可以创建一个更加公平的数据生态系统,个人可以控制自己的数据,企业可以访问合乎道德的高质量数据集,创新可以蓬勃发展,而不会损害隐私或安全。
从芯片之争转向数据集之争将重塑人工智能生态系统及其发展,为去中心化数据解决方案创造领先机会。通过优先考虑合乎道德的数据收集和可访问性,去中心化人工智能有可能弥合差距,并迎来更加公平和创新的人工智能未来。
争夺最佳数据的战斗已经打响。我们准备好了吗?
免责声明:
本文所发布的内容和图片旨在传播行业信息,版权归原作者所有,非商业用途。如有侵权,请与我们联系。所有信息仅供参考和分享,不构成任何投资建议。投资者应基于自身判断和谨慎评估做出决策。投资有风险,入市需谨慎。
关注我们,一起探索AWM!
2024-12-18
2025-01-15
2024-12-14
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.