Flink 介绍（特性、概念、故障容错、运维部署、应用场景）

正确性保证：通过Exactly-once状态一致性、事件时间处理和成熟的迟到数据处理机制保证结果的正确性。
分层API：SQL分别处理流和批、DataStream API & DataSetAPI 和 ProcessFunction(time & state)
聚焦运维：灵活部署、高可用、保存点
大规模计算：水平扩展架构、支持超大状态、增量检查点机制
性能卓越：低延迟、高吞吐、内存计算

概念

数据流

流是流处理的基础，其特征影响处理方式。Flink是强大的数据流处理框架。

有界和无界的数据流：数据流分为有界和无界。Flink擅长处理两者，对无界流有强大特性，对有界流有高效算子。
实时和 历史记录 的数据流：数据流分实时和历史记录两种。实时处理即在数据生成时立即进行；历史记录处理则是先将数据流存储后再批处理。Flink能同时支持这两种数据流的处理。

状态

简单来说，复杂流处理应用通常需要状态管理。这意味着它们需要在某个时间点存储接收的事件或中间结果，以便后续处理时使用。即使是最基本的业务逻辑，也可能需要在特定时间内保留这些信息。

Flink提供了许多状态管理相关的状态支持，其中包括：

多种状态基础类型：Flink为不同数据结构提供状态基础类型，如原子值（value）、列表（list）和映射（map），开发者可根据访问方式选择最适合的类型。
插件化的State Backend：State Backend管理应用状态，支持checkpoint。Flink有多种存储方式，如内存和RocksDB，也支持自定义存储。
精确一次语义：Flink 的 checkpoint 和故障恢复算法保证了故障发生后应用状态的一致性。因此，Flink 能够在应用程序发生故障时，对应用程序透明，不造成正确性的影响。
超大数据量状态：Flink 能够利用其异步以及增量式的 checkpoint 算法，存储数 TB 级别的应用状态。
可弹性伸缩的应用：Flink 能够通过在更多或更少的工作节点上对状态进行重新分布，支持有状态应用的分布式的横向伸缩。

时间

时间是流处理应用另一个重要的组成部分。因为事件总是在特定时间点发生，所以大多数的事件流都拥有事件本身所固有的时间语义。进一步而言，许多常见的流计算都基于时间语义，例如窗口聚合、会话计算、模式检测和基于时间的 join。流处理的一个重要方面是应用程序如何衡量时间，即区分事件时间（event-time）和处理时间（processing-time）。

Flink提供了丰富的时间语义支持。

事件时间模式：使用事件时间语义的流处理应用根据事件本身自带的时间戳进行结果的计算。因此，无论处理的是历史记录的事件还是实时的事件，事件时间模式的处理总能保证结果的准确性和一致性。
Watermark支持：

原文地址：https://blog.csdn.net/MCC_MCC_MCC/article/details/142835375

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【软件测试】基础知识1
下一篇：datax编译报错解决方案

Kafka-参数详解
我们从producer、consumer、broker三方面对Kafka的参数分别做下整理。
阅读更多2024-10-12
c++实战项目：日期计算器的实现
日期计算器的实现
阅读更多2024-10-12
关于不建议使用北京新网数码信息技术公司的服务器和虚拟机的说明（重要说明）
鉴于这些反馈，我们建议用户在选择服务器和虚拟机服务时，要慎重考虑服务提供商的性能和安全性承诺。例如，百度云、腾讯云、阿里云和华为云等，这些都是在业界具有较高评价和较大市场份额的云服务提供商。我们注意到
阅读更多2024-10-12
内部yum源服务器同步阿里yum源
一篇关于如何同步外部YUM源的文章，看完赶紧用起来
阅读更多2024-10-12
利用香港多IP服务器建站蜘蛛池执行SEO策略的实践
丰富的IPv4资源有利于SEO优化，机房基础设施遍布全球主要国家和地区，全球数据中心；独享IP地址，多个IP段自选，弹性拓展，能随时应对高峰负载或突发流量。支持BGP、CN2、电信、联通、移动等多种网
阅读更多2024-10-12
ubuntu24 finalshell 无法连接ubuntu服务器，客户端无法连接ubuntu, 无法远程连接ubuntu。
场景：虚拟机新创建一个最小化的ubuntu服务器，使用finalshell连接服务，发现连接不上。我的问题是安装了openssh server 但是没有配置root可以远程登录，修改即可。2. 查看
阅读更多2024-10-12
预防服务器遭受DDoS攻击
分布式拒绝服务（Distributed Denial of Service，简称DDoS）是指将多台计算机联合起来作为攻击平台，通过远程连接，利用恶意程序对一个或多个目标发起DDoS攻击，消耗目标服务
阅读更多2024-10-12
进程的优先级详解（1）（在Linux中观察进程优先级，优先级的概念，优先级范围，进程的切换和切换的过程和理解）
优先级就是获得某种资源的先后顺序，就比方说每次中午下课之后为什么同学们都争先恐的向食堂冲去，目的就是为了排队早点买饭，那么排队的本质就是确定优先级，谁先到谁的优先级高早买饭，谁晚到那么谁的优先级就是低
阅读更多2024-10-12
LiveGBS流媒体平台GB/T28181常见问题-视频服务器有多个IP多个网段的时候如何配置摄像头下级平台接入多网段收流？
服务器部署的时候，可能有多个网卡多个网段。LiveGBS接入国标摄像头设备，或是下级平台的时候，可能来自于不同的网段。这时候，怎么把不同网络段的设备或是平台都集中收取过来？根据GB28181规范，接入
阅读更多2024-10-12
Java之API
下一节我们继续讲Java的相关知识，从lambda开始讲。
阅读更多2024-10-12

Flink 介绍（特性、概念、故障容错、运维部署、应用场景）

概述

特性

概念

数据流

状态

时间

相关文章