实时计算 Flink性能调优

自动配置调优

实时计算 Flink新增自动调优功能autoconf。能够在流作业以及上下游性能达到稳定的前提下，根据您作业的历史运行状况，重新分配各算子资源和并发数，达到优化作业的目的。更多详细说明请您参阅自动配置调优。

首次智能调优

创建一个作业。如何创建作业请参看快速入门。
上线作业。选择智能推荐配置，指定使用CU数为系统默认，不填即可。点击下一步。
数据检查，预估消耗CU数。
在运维界面启动作业，根据实际业务需要指定读取数据时间。

说明:实时计算作业启动时候需要您指定启动时间。实际上就是从源头数据存储的指定时间点开始读取数据。指定读取数据时间需要在作业启动之前。例如，设置启动时间为1小时之前。
待作业稳定运行10分钟后，且以下状态符合要求，即可开始下一次性能调优。
- 运行信息拓扑图中IN_Q不为100%。
- 数据输入RPS符合预期。

非首次性能调优

停止>下线作业。
重新上线作业。选择智能推荐配置，指定使用CU数为系统默认，不填即可。点击下一步。
数据检查，再次预估消耗CU数。
在运维界面启动作业，待作业稳定运行十分钟后，即可再一次性能调优。

说明：

自动配置调优一般需要3到5次才能达到理想的调优效果。请完成首次性能调优后，重复非首次性能调优过程多次。

每次调优前，请确保足够的作业运行时长，建议10分钟以上。

指定CU数（参考值） = 实际消耗CU数*目标RPS/当前RPS。
实际消耗CU数：上一次作业运行时实际消耗CU

目标RPS：输入流数据的实际RPS（或QPS）

当前RPS：上一次作业运行时实际的输入RPS

手动配置调优

手动配置调优可以分以下三个类型。

资源调优
作业参数调优
上下游参数调优

资源调优

资源调优即是对作业中的Operator的并发数（parallelism）、CPU（core）、堆内存（heap_memory）等参数进行调优。

分析定位资源调优节点

定位性能瓶颈节点

性能瓶颈节点为Vertex拓扑图最下游中参数IN_Q值为100%的一个或者多个节点。如下图，7号节点为性能瓶颈节点。

分析性能瓶颈因素

性能瓶颈的可分为三类。

并发（parallelism）不足
CPU（core）不足
MEM（heap_memory）不足

如下图，7号节点的性能瓶颈是资源（CPU和/或MEM）配置不足所导致。

说明：判断性能瓶颈因素方法

瓶颈节点的资源健康分为100，则认为资源已经合理分配，性能瓶颈是并发数不足所导致。

瓶颈节点的资源健康分低于100，则认为性能瓶颈是单个并发的资源（CPU和/或MEM）配置不足所导致。

无持续反压，但资源健康分低于100，仅表明单个并发的资源使用率较高，但暂不影响作业性能，可暂不做调优。

通过作业运维页面中Metrics Graph功能，进一步判断性能瓶颈是CPU不足还是MEM不足。步骤如下。

运维界面中，点击TaskExecutor，找到性能瓶颈节点ID，点击查看详情。
选择Metrics Graph，根据曲线图判断CPU或者MEM是否配置不足（很多情况下两者同时不足）。

调整资源配置

完成了性能瓶颈因素判断后，点击开发>基本属性>跳转到新窗口配置，开始调整资源配置。

批量修改Operator

点击GROUP框，进入批量修改Operator数据窗口。
说明：
1. GROUP内所有的operator具有相同的并发数。
2. GROUP的core为所有operator的最大值。
3. GROUP的_memory为所有operator之和。
4. 建议单个Job维度的CPU:MEM=1:4，即1个核对应4G内存。
配置修改完成后点击应用当前配置并关闭窗口。

单个修改Operator

点击Operator框，进入修改Operator数据窗口。
配置修改完成后点击应用当前配置并关闭窗口。

参数调整说明

您只需调整parallelism、core和heap_memory三个参数，即能满足大部分的资源调优需求。

Parallelism
- source节点
  资源根据上游Partition数来。例如source的个数是16，那么source的并发可以配置为16、8、4等。不能超过16。
- 中间节点
  根据预估的QPS计算。对于数据量较小的任务，设置和source相同的并发度。QPS高的任务，可以配置更大的并发数，例如64、128、或者256。
- sink节点
  并发度和下游存储的Partition数相关，一般是下游Partition个数的2~3倍。如果配置太大会导致数据写入超时或失败。例如，下游sink的个数是16，那么sink的并发最大可以配置48。
Core
即CPU，根据实际CPU使用比例配置，建议配置值为0.25，可大于1。
Heap_memory
堆内存。根据实际内存使用状况进行配置。
其他参数
- state_size：默认为0，group by、join、over、window等operator需设置为1。
- direct_memory：JVM堆外内存，默认值为0, 建议不要修改。
- native_memory：JVM堆外内存，默认值为0，建议修改为10MB。
- chainingStrategy：chain策略，根据实际需要修改。

作业参数调优

在开发页面的右侧选择作业参数。
输入调优语句。

优化	解决问题	调优语句
MiniBatch	提升吞吐，降低对下游压力仅对Group by有效。	`blink.miniBatch.allowLatencyMs=5000` `blink.miniBatch.size=1000`
LocalGlobal	优化数据倾斜问题	`blink.localAgg.enable=true`
TTL	设置State状态时间	`1.x：state.backend.rocksdb.ttl.ms=129600000` `2.x：state.backend.niagara.ttl.ms=129600000` 其中，1.x 表示需显式开启，2.x 表示默认开启。

注意：添加或删除MiniBatch或LocalGlobal参数，job状态会丢失，修改值大小状态不会丢失。

上下游参数调优

实时计算 Flink可以在with参数内设置相应的参数，达到调优上下游存储性能的目的。

调优步骤：

进入作业的开发界面。

确定需要调优的上下游引用表的语句。

在with参数中配置相应的调优参数。如下图。

batchsize参数调优

实时计算 Flink的每条数据均会触发上下游存储的读写，会对上下游存储形成性能压力。可以通过设置batchsize，批量的读写上下游存储数据来降低对上下游存储的压力。

名字	参数	详情	设置参数值
Datahub源表	batchReadSize	单次读取条数	可选，默认为10
Datahub结果表	batchSize	单次写入条数	可选，默认为300
日志服务源表	batchGetSize	单次读取logGroup条数	可选，默认为10
ADB结果表	batchSize	每次写入的批次大小	可选，默认为1000
RDS结果表	batchSize	每次写入的批次大小	可选，默认为50

注意：添加、修改或者删除以上参数后，作业必须停止-启动后，调优才能生效。

cache参数调优

名字	参数	详情	设置参数值
RDS维表	Cache	缓存策略	默认值为`None`,可选`LRU`、`ALL`。
RDS维表	cacheSize	缓存大小	默认值为`None`,可选`LRU`、`ALL`。
RDS维表	cacheTTLMs	缓存超时时间	默认值为`None`,可选`LRU`、`ALL`。
OTS维表	Cache	缓存策略	默认值为`None`, 可选`LRU`,不支持`ALL`。
OTS维表	cacheSize	缓存大小	默认值为`None`, 可选`LRU`,不支持`ALL`。
OTS维表	cacheTTLMs	缓存超时时间	默认值为`None`, 可选`LRU`,不支持`ALL`。