复制
收藏
提问
全网
1、Python批处理文件的扩展名是(.py)。 2、Spark基于()进行计算,因此运行速度比MapReduce要快。 3、启动Pyspark交互界面的命令是(),退出的命令是()。 4、在Spark中要使用分布式文件作为数据源,首先要(),假如在分布文件系统下文件t1.txt的路径为’/user/data/t1.txt’,那么创建一个RDD的语句是()。 5、将RDD中的元素转换为新的元素应使用方法(),如果将RDD中字符串切分为单词,应使用方法()。 6、Spark流对象的数据来源主要有文件流和(),其中对可以处理的文件的主要要求是()。 以下实践题均要求截图:
2个月前
理解问题1、Python批处理文件的扩展名是(.py)。 2、Spark基于()进行计算,因此运行速度比MapReduce要快。 3、启动Pyspark交互界面的命令是(),退出的命令是()。 4、在Spark中要使用分布式文件作为数据源,首先要(),假如在分布文件系统下文件t1.txt的路径为’/user/data/t1.txt’,那么创建一个RDD的语句是()。 5、将RDD中的元素转换为新的元素应使用方法(),如果将RDD中字符串切分为单词,应使用方法()。 6、Spark流对象的数据来源主要有文件流和(),其中对可以处理的文件的主要要求是()。 以下实践题均要求截图:
已完成理解「1、Python批处理文件的扩展名是(.py)。 2、Spark基于()进行计算,因此运行速度比MapReduce要快。 3、启动Pyspark交互界面的命令是(),退出的命令是()。 4、在Spark中要使用分布式文件作为数据源,首先要(),假如在分布文件系统下文件t1.txt的路径为’/user/data/t1.txt’,那么创建一个RDD的语句是()。 5、将RDD中的元素转换为新的元素应使用方法(),如果将RDD中字符串切分为单词,应使用方法()。 6、Spark流对象的数据来源主要有文件流和(),其中对可以处理的文件的主要要求是()。 以下实践题均要求截图:」
展开阅读网页
更专业一些
转笔记
专业
1、Python批处理文件的扩展名是(.py)。
2、Spark基于()进行计算,因此运行速度比MapReduce要快。
3、启动Pyspark交互界面的命令是(),退出的命令是()。
4、在Spark中要使用分布式文件作为数据源,首先要(),假如在分布文件系统下文件t1.txt的路径为’/user/data/t1.txt’,那么创建一个RDD的语句是()。
5、将RDD中的元素转换为新的元素应使用方法(),如果将RDD中字符串切分为单词,应使用方法()。
6、Spark流对象的数据来源主要有文件流和(),其中对可以处理的文件的主要要求是()。
以下实践题均要求截图:不在提醒
- 错误。Python批处理文件的扩展名是(.bat)或(.cmd),而不是(.py)。
- 正确。Spark基于(内存)进行计算,因此运行速度比MapReduce要快。
- 错误。启动Pyspark交互界面的命令是(pyspark),退出的命令是(exit())或(quit())。
- 错误。在Spark中要使用分布式文件作为数据源,首先要(初始化SparkContext),假如在分布式文件系统下文件t1.txt的路径为’/user/data/t1.txt’,那么创建一个RDD的语句是(sc.textFile('/user/data/t1.txt'))。
- 错误。将RDD中的元素转换为新的元素应使用方法(map),如果将RDD中字符串切分为单词,应使用方法(flatMap)。
- 错误。Spark流对象的数据来源主要有文件流和(套接字流),其中对可以处理的文件的主要要求是(文件格式支持和可追加性)。