A.Scala是一种多范式编程语言
B.Scala运行于Java平台,兼容现有的Java程序
C.Scala具备强大的并发性,支持函数式编程
D.Scala是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言
A.Spark是一个基于内存迭代的框架
B.Spark是一个数据分析技术栈,包含了大数据的多种计算模式
C.Spark可以采用多种编程语言进行开发,比如Scal
D.Java
E.Spark计算过程中,数据不会落地到磁盘
A.一个Application由若干个Job组成
B.一个Job由若干个Stage组成
C.一个Stage由若干个Task组成
D.RDD中的数据可修改
A.在Spark任务提交端,即应用服务器安装Spark即可
B.需要在集群各节点安装Spark才可以运行
C.不需在任何机器安装Spark
D.在NameNode上安装Spark
B.Carbon使用轻量级压缩和重量级压缩的组合压缩算法压缩数据,可以减少60%-80%数据存储空间,大大节省硬件存储成本
C.Carbon是一种新型的ApacheHadoop本地文件格式,使用先进的列式存储.索引.压缩和编码技术,以提高计算效率,有助于加速超过PB数量级的数据查询,可用于更换的交互查询
D.Carbon也是一种将数据源与Spark集成的高性能分析引擎
A.只提供+=操作的变量
B.累加函数必须服从交换律
C.Action中的累加操作会重复执行
D.Transformation中的累加操作可能被多次执行
A.对各种数据计算模型的统一抽象
B.RDD是一个读、写、分区记录的集合
C.Spark的计算过程主要是RDD的迭代计算过程
D.一个存储数据的数据结构