关于Hadoop以及S3的几个坑

最新推荐文章于 2023-08-27 12:20:05 发布

UNOboros

最新推荐文章于 2023-08-27 12:20:05 发布

阅读量6k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/UNOboros/article/details/50173669

版权

机器学习专栏收录该内容

11 篇文章

订阅专栏

本文分享了在AWS上使用Hadoop时遇到的一些问题，包括S3文件系统URI转换导致的访问问题，分布式缓存文件在不同MR迭代间的重用限制，以及在S3上操作文件系统和本地文件时遇到的检查和访问问题，并提供了相应的解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

首先是关于AWS上用distributive cache files的问题，由于AWS用的是S3文件系统，而文件cache以后是HDFS文件系统，那么当我们直接去取URI的时候就会发生一件诡异的事情：原来的s3://被转换成了s3:/，而且这种转换是不可避免的，不论你手工加slash什么的都没用…… 这个问题卡了我一晚上，搜了好多资料，最后才发现最完美的解决方案：

在cache的时候用别名来标记文件，比如

job.addCacheFile(new URI(path[1] + "/data.txt"+"#data.txt"));

这个＃就是别名，然后在读取的时候可以用别名读取：

new File("./data.txt")

然后就是关于cache file重用的问题，比如在不同的MR迭代之间传递数据……据我研究又一个晚上的结果，这是不可能的！因为每次去cache同一个file的时候，上一个file也在cache中（而且没法删除掉），这样就会有两个不同的时间戳，系统就会报错。我试着hack时间戳，但是依然没用……所以估计Hadoop的设计就是cache以后就不能更改了。

还有就是访问文件系统的问题，这个问题花费了我好几个小时。本地用：

FileSystem.get(conf)

似乎没什么问题，但是一旦上了S3就要专门指定Schema了：

FileSystem.get(new URI("s3://finalapp"),conf)

最后就是本地访问文件系统的时候出现checksum错误，一般是第一轮可以跑，然后后面再跑就是这个问题……这个问题困扰了一天！最后，无意中发现Hadoop在数据文件旁边造了几个隐藏的CRC文件！这些CRC文件就是罪魁祸首，删除掉一切恢复正常……

以上就是我遇到的几个坑，虽然解决方案很简单，但是如果事先不知道的话，会陷在里面很久很久…… TAT

博客等级

码龄11年

39
原创

84
点赞

108
收藏

49
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: Description of graph6 and sparse6 encodings

下一篇：: 一种可能的新的人脑信息网络模型

最新评论

火车上的醉汉问题（一个非常深奥的问题）
zrsix360: Solution应该是错的，或者表述令人误解。正解是：设人在第n节车厢时，期望用E(n)步掉下火车（等价于走到不存在的n=0和n=N+1车厢）。很明显，在第n节车厢，下一步有一半的概率走到n-1或n+1车厢。而接下来在n-1或n+1车厢，掉下火车的期望步数分别为E(n-1)或E(n+1)。由此可得： E(n) = 1 + 0.5 E(n-1)+ 0.5 E(n+1)，E(N+1) = E(0) = 0。整理一下（配一次等差数列求得E(n+1)-E(n)通项，再求E(n)通项），可得通项公式: E(n+1) = n [E(1) -E(0)] - (n+1)n +E(1) 将E(N+1) =E(0) =0带入上式，可得 E(1) = N 因此起始于第一节车厢，跌落火车的步长期望为N。
note:SMO算法存在致命缺陷
星独: 不明白博主说的C偏移是什么意思？但是我用Libsvm发现简单的一维问题，C特别大时，预测得到的结果支持向量可能在带内，就是有误差产生。最后定位应该是SMO的问题，初步估计是不收敛或者找不到最优解，反正就是最后的结果不完全满足KKT条件。我不确定这种情况产生的具体原因，但是感觉和你这个所得很像，如果博主有空可以详细写一篇
找到唯一的那个数——对于异或运算的研究
天高任毛飞: 上面的代码，在下面这个数组上，遭遇了滑铁卢，输出结果 4 int a [] = {1,2,3,1,2,3,8,6,4,9,8,6,4};
火车上的醉汉问题（一个非常深奥的问题）
逗泥丸的平方: 一个收敛的级数就搞定了吧.好像很复杂?
方向盘应该转多少度？
祝久文: 。简单的观察后发现，一辆汽车的运动无非是两种运动的组合——圆周运动和直线运动（轮子不打滑）。一条连续的行车轨迹可以被分解为若干个圆周运动和直线运动的片段，注意到直线可以看作是一个半径无穷大的圆周，所以所有的运动都可以被拆借为不同半径的圆周运动

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。