GitHub优秀项目:数据湖的管理系统LakeFS

lakeFS 是一个开源工具,它将用户的对象存储转换为类似Git的存储库。使用户可以像管理代码一样管理数据湖。借助 lakeFS,可以构建可重复、原子化和版本化的数据湖操作--从复杂的ETL作业到数据科学和分析。



Stars 数11090
Forks 数3157

主要特点

  • 强大的数据预处理:数据清理、异常值处理、填充缺失值等。确保用于预处理的数据管道稳健并提供高质量。

  • 重复数据删除实验:使用 LakeFS 分支与完全重复数据删除的数据湖中的零拷贝克隆并行运行实验,使您能够有效地比较它们以选择最佳的一个。

  • 可重复的特征工程和模型训练:提交实验结果,并使用 LakeFS Git 集成以正确版本的数据、代码和模型权重重现任何实验。

官网:Git for Data - lakeFS 

 GitHub:https://github.com/treeverse/lakeFS

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值