rdd不能嵌套rdd

最新推荐文章于 2023-03-14 22:28:36 发布

金帛文武在南京

最新推荐文章于 2023-03-14 22:28:36 发布

阅读量4.6k

点赞数

CC 4.0 BY-SA版权

分类专栏： Spark 文章标签： spark rdd py4j.Py4JException Py4JError

本文链接：https://blog.csdn.net/BinChasing/article/details/72841066

Spark 专栏收录该内容

3 篇文章

订阅专栏

本文探讨了在Spark中，RDD（弹性分布式数据集）不允许嵌套的问题。出现`py4j.Py4JException`或`Py4JError`通常是由于尝试在RDD操作内部使用另一个RDD导致的。这种做法违反了RDD的设计原则，应当避免。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

df_all.show()
a = [(1,df_all)]
rdd = sc.parallelize(a)

报错

Py4JError: An error occurred while calling o131.__getnewargs__. Trace:
py4j.Py4JException: Method __getnewargs__([]) does not exist
at py4j.reflection.ReflectionEngine.getMethod(ReflectionEngine.java:335)
at py4j.reflection.ReflectionEngine.getMethod(ReflectionEngine.java:344)
at py4j.Gateway.invoke(Gateway.java:252)
at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:133)
at py4j.commands.CallCommand.execute(CallCommand.java:79)
at py4j.GatewayConnection.run(GatewayConnection.java:209)
at java.lang.Thread.run(Thread.java:745)