> Linux新闻 >

Apache Flink 1.11.0 发布

Apache Flink 社区宣布了 Flink 1.11.0 的发布,该版本的一些重点内容如下:

  • core engine 引入了 unaligned checkpoints,这是对 Flink 的容错机制的重大更改,该机制可改善在高背压下的检查点性能。
  • 一个新的 Source API 通过统一批处理和 streaming 执行以及将内部组件(例如事件时间处理、水印生成或空闲检测)卸载到 Flink 来简化(自定义)sources 的实现。
  • Flink SQL 引入了对变更数据捕获(CDC)的支持,以轻松使用和解释来自 Debezium 之类的工具的数据库变更日志。更新的 FileSystem 连接器还扩展了 Table API/SQL 支持的用例和格式集,从而实现了直接启用从 Kafka 到 Hive 的 streaming 数据传输等方案。
  • PyFlink 的多项性能优化,包括对矢量化用户定义函数(Pandas UDF)的支持。这改善了与 Pandas 和 NumPy 之类库的互操作性,使 Flink 在数据科学和 ML 工作负载方面更强大。

重要变化

  • [FLINK-17339] 从 Flink 1.11 开始,Blink planner 是 Table API/SQL中的默认设置。自 Flink 1.10 起,SQL 客户端已经存在这种情况。仍支持旧的 Flink 规划器,但未积极开发。
  • [FLINK-5763] Savepoints 现在将其所有状态包含在一个目录中(元数据和程序状态)。这样可以很容易地找出组成 savepoint 状态的文件,并允许用户通过简单地移动目录来重新定位 savepoint。
  • [FLINK-16408] 为了减轻对 JVM metaspace 的压力,只要任务分配了至少一个插槽,TaskExecutor就会重用用户代码类加载器。这会稍微改变 Flink 的恢复行为,从而不会重新加载静态字段。
  • [FLINK-11086] Flink 现在支持 Hadoop 3.0.0 以上的 Hadoop 版本。请注意,Flink 项目不提供任何更新的“flink-shaded-hadoop-*” jars。 用户需要通过HADOOP_CLASSPATH环境变量(推荐)或 lib/ folder 提供 Hadoop 依赖项。
  • [FLINK-16963] Flink 随附的所有MetricReporters均已转换为插件。 这些不再应该放在/lib中(可能导致依赖冲突),而应该放在/plugins/<some_directory>中。
  • [FLINK-12639] Flink 文档正在做一些返工,因此从 Flink 1.11 开始,内容的导航和组织会有所变化。

详情查看:https://flink.apache.org/news/2020/07/06/release-1.11.0.html

下载地址:https://flink.apache.org/downloads.html



(责任编辑:IT)