随着 AI 正帮助各行各业推动创新和提高效率,基于海量的高质量数据来训练各种模型是充分发挥 AI 应用潜力的必经之路,正因如此,数据科学家们面临着日益增长的工作负载需求,迫切需求寻找高效趁手的工具以应对挑战。
Pandas 是一个灵活而强大的 Python 数据分析和处理库,由于其是一款非常易于使用的 API,成为了数据科学家的首选。然而,随着数据集大小的增长,Pandas 在纯 CPU 系统中的处理速度和效率方面就会遇到困难。
对于面向数据分析工作的 DataFrame 软件库,除了 Pandas,目前还有一颗冉冉上升的开源新星——Polars。相比于主要依赖单线程执行的 Pandas,Polars 在处理大数据集时的速度通常比其快 5 到 10 倍。
尽管 Pandas 和 Polars 在数据处理领域各有所长,但是处理超大数据集不仅需要极致发挥 CPU 的能力,也需要 GPU 发挥作用。在这一背景下,NVIDIA 发布了 RAPIDS cuDF 库,用于加载、连接、聚合、过滤和以其他方式操作数据,充分利用了 GPU 大规模并行处理能力的优势。
RAPIDS 是一套开源的 GPU 加速 Python 程序库,旨在改进数据科学和分析工作流。RAPIDS cuDF 是一个 GPU DataFrame 程序库,其提供了一个类似 Pandas 的 API,用于加载、过滤和操作数据。cuDF 的早期版本只适用于 GPU 开发工作流程。而 NVIDIA 也在持续对这一应用进行更新。
现在 RAPIDS cuDF 可以为 950 万 Pandas 用户带来 GPU 加速,而无需他们更改代码,根据数据集大小为 5 GB 的分析基准测试结果,处理时间缩短到原来的 1/150。而由 RAPIDS cuDF 驱动的全新 GPU 引擎已经可将 NVIDIA GPU 上的 Polars 工作流速度最高提速 13 倍,这意味着仅在一台机器上数据科学家就能实现在数秒内处理数亿行数据。
借助 RAPIDS cuDF,数据科学家现在可以在他们首选的代码库上全速运行数据处理。此外,随着数据集规模不断增长,处理工作占用更多内存,在 NVIDIA RTX 加持的 AI 工作站和 PC 上的运行也实现了显著的速度提升。相比于基于传统 CPU 的解决方案,在工作站中配合使用 cuDF 和 NVIDIA RTX 5880 Ada 架构 GPU,可以将性能提升多达 100 倍。
通过以下博客了解更多关于 RAPIDS cuDF 的最新信息,解锁在 AI 应用与解决方案中加速数据分析探索的创新灵感。
无需更改代码即可将 Pandas 提速近 150 倍
Pandas 是 Python 生态系统中最流行的 DataFrame 程序库,但它的速度会随着 CPU 上数据量的增加而变慢。现在只需一条命令,用户就可以在无需更改代码的情况下,使用 cuDF 将加速计算引入到其 Pandas 工作流中。根据数据集大小为 5 GB 的分析基准测试结果,处理时间缩短到原来的 150 分之一。
点击阅读《无需更改代码,RAPIDS cuDF 将 pandas 提速近 150 倍》了解更多 cuDF 将统一的 CPU/GPU 体验引入 Pandas 工作流并为其带来顶尖性能的详细信息。
RAPIDS cuDF 驱动的 Polars GPU 引擎最高提速 13 倍
RAPIDS cuDF 驱动的 Polars GPU 引擎现已发布公测版,为各行各业的数据科学家和工程师提供了一种适用于中等规模数据处理的强大工具。该引擎最高能够将 NVIDIA GPU 上的 Polars 工作流速度提速 13 倍,可以在不产生分布式系统开销的情况下,高效处理数亿行规模的数据集。Polars GPU 引擎直接内置在 Polars API 中,使所有用户都能轻松访问。
点击阅读《RAPIDS cuDF 驱动的 Polars GPU 引擎发布公测版》了解更多将 NVIDIA 加速计算引入 Polars 显著提升加速性能的详细介绍。
使用 RAPIDS cuDF 加速预处理工作流突破数据科学的瓶颈
随着 AI 和数据科学的不断发展,快速处理和分析大量数据集的能力将成为各行业实现突破的关键差异化因素。无论是开发复杂的机器学习模型、执行复杂的统计分析还是探索生成式 AI,RAPIDS cuDF 都可为新一代数据处理奠定基础。
点击阅读《解密 AI 如何加速数据科学工作流》了解更多相关信息,预见 RTX AI 将如何为未来的工程师创造无限可能。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.