lakeFS 是一个开源工具,它将用户的对象存储转换为类似Git的存储库。使用户可以像管理代码一样管理数据湖。借助 lakeFS,可以构建可重复、原子化和版本化的数据湖操作--从复杂的ETL作业到数据科学和分析。
![]() | 11090 |
![]() | 3157 |
主要特点
-
强大的数据预处理:数据清理、异常值处理、填充缺失值等。确保用于预处理的数据管道稳健并提供高质量。
-
重复数据删除实验:使用 LakeFS 分支与完全重复数据删除的数据湖中的零拷贝克隆并行运行实验,使您能够有效地比较它们以选择最佳的一个。
-
可重复的特征工程和模型训练:提交实验结果,并使用 LakeFS Git 集成以正确版本的数据、代码和模型权重重现任何实验。
GitHub:https://github.com/treeverse/lakeFS