![]()
Deeplake 近日发布了v4.3.0版本,这是一次重要的功能更新,为 Deeplake 生态系统带来了多项新特性和性能优化。下面我们将从数据类型、索引支持、导入导出能力、Python 类型支持、性能与稳定性优化等多个方面,详细介绍此次更新内容。
一、新增数据类型与索引类型
1.序列类型全面升级
对 Sequence 序列类型进行了重新设计,支持可视化数据和结构化数据,使得处理多模态数据(如图片序列、时序数据)更加灵活高效。2.视频数据类型支持
• 新增对视频类型的支持
• 支持MP4与MKV格式的视频文件
• 支持H264 编码
• 可对视频帧进行快速随机访问,这意味着可以直接从长视频中快速提取某一帧,而无需完全解码整个视频。
3.数值类型索引支持
在 Deeplake 4.3.0 中,数值列现在可以建立索引,大幅提升数值比较类查询的速度,并且在 TQL(查询语言)中支持IN和BETWEEN操作。
4.文本索引优化
文本类型索引在性能方面显著提升,搜索速度更快,不需要在每次更新数据后重新生成索引,从而提升了大规模数据集的检索效率。
二、数据导入与导出功能
1.from_csv 全面重写
支持读取更大型的 CSV 文件,导入过程更加稳定高效。2.新增 to_csv API
允许将 Deeplake 数据集或视图导出为 CSV 文件,这一功能方便与其他数据处理工具进行无缝对接。
1.Python 内置类型定义支持
在定义数据集模式(schema)时,可以直接使用 Python 内置类型进行指定,更加直观。2.支持 Pydantic 模型作为数据集模式
借助 Pydantic,可以轻松定义带有数据验证规则的 Schema,提升数据一致性与安全性。3.异步操作类型标注优化
提升了异步 API 的类型标注准确性,更好地支持类型检查工具和 IDE 提示,方便开发时的自动补全与错误检测。
•TQL 数据获取与线性扫描性能优化
对于非索引列的数据获取速度显著提升,减少了查询延迟。•内存使用优化
通过更好的内存追踪机制,降低了内存溢出(Out-of-Memory)错误的发生概率。•稳定性提升与错误修复
多项底层优化与 Bug 修复,使系统的可靠性进一步增强。
•向后兼容:
Deeplake 4.3.0 与v4.2.x创建的数据集完全兼容,可以直接打开并使用。•注意事项:
使用v4.3.0创建或修改的数据集,由于底层格式的增强,无法在v4.2.x或更早版本中打开,因此建议在所有涉及共享数据集的环境中统一升级到v4.3.0。
此次 Deeplake v4.3.0 带来了显著的功能拓展,尤其是在视频数据、数值索引、数据导出以及 Python 类型支持等方面的升级,将极大提升在多模态数据处理、查询、导入导出等场景下的效率与易用性。对于涉及大规模数据存储与分析的开发者来说,建议尽快升级至最新版本,以充分利用这些新特性。
我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。 欢迎关注“福大大架构师每日一题”,发消息可获得面试资料,让AI助力您的未来发展。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.