这几年大数据的飞速发展，出现了很多热门的开源社区，其中著名的有 Hadoop、Storm，以及后来的 Spark，他们都有着各自专注的应用场景。

Spark 掀开了内存计算的先河，也以内存为赌注，赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。

就像 Flink，也就在这个时候默默的发展着。

在国外一些社区，有很多人将大数据的计算引擎分成了 4 代，当然，也有很多人不会认同。我们先姑且这么认为和讨论。

首先第一代的计算引擎，无疑就是 Hadoop 承载的 MapReduce。这里大家应该都不会对 MapReduce 陌生，它将计算分为两个阶段，分别为 Map 和 Reduce。对于上层应用来说，就不得不想方设法去拆分算法，甚至于不得不在上层应用实现多个 Job 的串联，以完成一个完整的算法，例如迭代计算。

老马啸西风2018年11月29日大约 13 分钟

Apache Flink-03-chat flink

Flink（全称为Apache Flink）是一个开源的流处理和批处理框架，旨在处理大规模数据的实时和批处理任务。

它是一个分布式计算引擎，可以用于构建高效、可靠且可伸缩的数据处理应用程序。

Flink 提供了丰富的功能，使得开发人员能够在实时数据流和批处理作业之间无缝切换，从而更好地满足各种数据处理需求。

以下是一些关键特点和概念，用于更深入地理解 Apache Flink：

流处理和批处理： Flink 是一个“流式优先”框架，这意味着它能够处理实时数据流。但同时，Flink 也支持批处理任务，使得你可以在同一平台上执行实时和离线任务。
状态管理： Flink 提供了强大的分布式状态管理功能，这对于处理有状态的应用程序非常重要。状态可以是流处理应用程序中的中间结果或需要跨事件保持的信息。
事件时间处理： Flink 支持基于事件时间的处理，这对于处理乱序事件和处理基于时间窗口的操作非常有用。它可以确保应用程序在处理事件时能够模拟事件发生的真实时间顺序。
容错性： Flink 具有高度的容错性，它能够在节点故障时自动恢复任务的执行。这得益于其状态后端和检查点机制，可以确保应用程序状态的持久性和一致性。
数据源和数据接收器： Flink 支持从各种数据源（例如 Kafka、HDFS、文件等）读取数据，并且可以将处理结果发送到不同的数据接收器（例如文件系统、数据库等）。
时间窗口和处理窗口： Flink 支持基于时间和大小的窗口操作，这使得你可以对数据流进行分组和聚合操作。窗口操作对于统计和实时分析非常有用。
丰富的库和API： Flink 提供了 Java 和 Scala 编程接口，以及许多内置的操作符和库，用于在数据流上执行各种转换和计算。
集群部署： Flink 可以在各种集群上运行，包括 Apache Hadoop YARN、Apache Mesos 和 Kubernetes，以及本地模式供开发和测试使用。
可伸缩性： Flink 的分布式架构使其能够水平扩展，以处理大量的数据和高并发的工作负载。

老马啸西风2018年11月29日大约 27 分钟

Apache Flink-01-入门介绍

Apache Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。

Flink设计为在所有常见的集群环境中运行，以内存速度和任何规模执行计算。

计算引擎的 4 代发展

MapReduce

老马啸西风2018年11月29日大约 2 分钟