Apache Spark 2.0 最快今年4月亮相

1月才刚释出1.6版的大数据技术Spark，下一个2.0版本预计4、5月释出，将提供可运行在SQL/Dataframe上的结构化串流即时引擎，并统一化Dataset及DataFrame

大数据技术Spark今年1月才刚释出1.6版，下一个2.0版本就已经蓄势待发，预计今年4、5月释出，近日Spark创办人、同时也是 Databricks技术长的Matei Zaharia，更在2016 Spark Summit上，抢先揭露了Spark 2.0即将带来的3大主要特色：包括能大幅提升Spark平台效能的Project Tungsten即将进入第二阶段，提供涵盖完整阶段的程式码产生器，Spark 2.0也将提供可运行在SQL/Dataframe上的结构化串流即时引擎，并统一化Dataset及DataFrame。

其中，持续改善Spark应用程式的记忆体及CPU效能的Project Tungsten，是一项帮助Spark大幅提升核心引擎效能的长期专案，目的是要让Spark执行效能达到硬体设备的极限，藉由内建原生记忆体管理机制以及Runtime层级的程式码产生器，来达到接近裸机的效能。

Spark从1.4到1.6版本时，便开始靠 Tungsten来优化Spark的资料处理效能，除了加入二进位的储存方式，以及基础的程式码产生器，也增加了用来描述RDD结构的DataFrame 格式，以及新的资料集API（Dataset API），让Tungsten可被运行在使用者专案中来提升效能表现，也可用于Spark SQL及部分的MLlib上。Spark 1.6新增了基于DataFrame的扩充元件Dataset API，相较于过去的RDD API，Dataset提供更好的记忆体管理效能，及较佳的长时间执行效能。

而Spark2.0版本则将进一步提供涵盖完整阶段的程式码产生器，不仅能移除递迴式呼叫，减少效能损耗，还能进行跨运算子之间的整合，并藉由Parquet及内建快取（Built-in Cache）来优化I/O效能。

预计Spark2.0的效能将翻9倍，从1.6版时每秒可处理的1,400万个栏位，暴增到1亿2,500万，其中的Parquet效能，也将从每秒1,100万提升到每秒9,000万笔。Databricks表示，Spark技术在2015年有非常显著的成长，其贡献者在2015年已经超过 1000人，是2014年的2倍，参与各地区定期聚会的会员数量也从1万多人暴增至6万多人。而Spark 2.0将是下一个重大更新版本，预计今年4、5月释出。

(责任编辑：IT)

搜索

热门标签:

Apache Spark 2.0 最快今年4月亮相