Apache Flink-01-入门介绍
Apache Flink
Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。
Flink设计为在所有常见的集群环境中运行,以内存速度和任何规模执行计算。
计算引擎的 4 代发展
MapReduce
首先第一代的计算引擎,无疑就是 Hadoop 承载的 MapReduce。这里大家应该都不会对 MapReduce 陌生,它将计算分为两个阶段,...
2018-11-28 23:32:26 |
Big Data
Apache Flink-03-chat flink
Q1: 介绍一下 flink
Flink(全称为Apache Flink)是一个开源的流处理和批处理框架,旨在处理大规模数据的实时和批处理任务。
它是一个分布式计算引擎,可以用于构建高效、可靠且可伸缩的数据处理应用程序。
Flink 提供了丰富的功能,使得开发人员能够在实时数据流和批处理作业之间无缝切换,从而更好地满足各种数据处理需求。
以下是一些关键特点和概念,用于更深入地理解 A...
2018-11-28 23:32:26 |
Big Data
Apache Flink-02-核心特性简介 为什么选择 flink?
1. Flink的引入
这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。
Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。
就像 Flink,也就在这个时候默默的发展着。
在国外一些社区,有很多人将大数...
2018-11-28 23:32:26 |
Big Data
阿里如何做到百万量级硬件故障自愈
1.背景
1.1.面临挑战
对于承载阿里巴巴集团95%数据存储及计算的离线计算平台MaxCompute,随着业务增长,服务器规模已达到数十万台,而离线作业的特性导致硬件故障不容易在软件层面被发现,同时集团统一的硬件报障阈值常常会遗漏一些对应用有影响的硬件故障,对于每一起漏报,都对集群的稳定性构成极大的挑战。
针对挑战,我们面对两个问题:硬件故障的及时发现与故障机的业务迁移。下面我们会围...
2018-11-28 23:32:26 |
Distributed
Web API CI PostMan+Newman+Jenkins
wen-pai 测试工具选择
对于大型的 web 服务,写 unit 单元测试的效率是非常低的。
直接写 http 请求,又无法保存和管理。
postman 可以帮我们解决这个问题。
我原来一直不太喜欢 postman 有一个原因,因为 postman 无法持续集成。
今天这篇文章告诉我不是这样的,方法总比苦难多。
目前市场有很多的用于API 测试的工具,如Postman, So...
2018-11-28 11:30:44 |
CI
当我们输入一条SQL查询语句时,发生了什么?
基本架构示意图
我们看到的只是输入一条语句,返回一个结果,却不知道这条语句在 MySQL 内部的执行过程。
所以今天我想和你一起把 MySQL 拆解一下,看看里面都有哪些“零件”,希望借由这个拆解过程,让你对 MySQL 有更深入的理解。这样当我们碰到 MySQL 的一些异常或者问题时,就能够直戳本质,更为快速地定位并解决问题。
下面我给出的是 MySQL 的基本架构示意图,从中你可以...
2018-11-28 11:30:44 |
CI
关于 mysql 数据存储,你了解多少?
前言
大家都知道 MySQL 的数据都是保存在磁盘的,那具体是保存在哪个文件呢?
MySQL 存储的行为是由存储引擎实现的,MySQL 支持多种存储引擎,不同的存储引擎保存的文件自然也不同。
InnoDB 是我们常用的存储引擎,也是 MySQL 默认的存储引擎。本文主要以 InnoDB 存储引擎展开讨论。
InnoDB简介
InnoDB是一个将表中的数据存储到磁盘上的存储引擎。而真...
2018-11-28 11:30:44 |
Database
MySQL Log 关于 MySQL 通用查询日志和慢查询日志分析
关于 MySQL 通用查询日志和慢查询日志分析
MySQL中的日志包括:错误日志、二进制日志、通用查询日志、慢查询日志等等。
这里主要介绍下比较常用的两个功能:通用查询日志和慢查询日志。
1、通用查询日志:记录建立的客户端连接和执行的语句。
2、慢查询日志:记录所有执行时间超过longquerytime秒的所有查询或者不使用索引的查询
通用查询日志
在学习通用日志查询时,需要知道...
2018-11-28 11:30:44 |
SQL