-
Notifications
You must be signed in to change notification settings - Fork 336
Description
背景:
集群健康度设置为 75%,四台qrs,1(分区)* 4 (副本) 4台searcher
我们在QRS 启动的时候注册到zk,停止的时候会从zk 反注册,业务通过zk 做服务发现把流量打到 QRS 节点上
问题:
在集群有流量的时候切换时常会卡住,查看QRS 日志发现4台QRS只有一台能切换成功,显示navi update success,其他三台是recive final target 之后卡住(gig 里面有still has query,对应的searcher 也会有这样的日志卡住),查看QRS gig heatbeat_server snapshot 发现有三台QRS权重都被设置为0,只有一台是100,是否意味这个时候只有一台QRS能够接受业务流量?其他的如果接受流量集群切换就会卡住?如果我们跟随gig QRS的权重设置在业务zk的权重,是否会一下子把好几台qrs的权重都设置为0导致集群不稳定,因为看日志现在几乎四台qrs 是同时接收到目标。
切换成功的qrs日志:
切换成功qrs 节点的 heatbeat_server_snapshot:
platform:
hippo_cluster:
hippo_app:
c2_role:
c2_group:
ip: xx.xx.xx.xx
tcp_port: -1
arpc_port: 15798
http_port: 15800
grpc_port: 15801
grpc_stream_port: 15801
rdma_arpc_port: -1
server_signature: 16232145877262310906
biz_list:
qrs.default_sql_1_0_0_0, topo_sig: 10027220224235791423, meta_sig: 9274792188327784284, tag_sig: 9218164670327521261
target_weight: 100
publish_id: 11540502180505854941
publish_group: 0
metas: navi.buildin.static_graph.meta:{};
tags:
卡住的qrs日志:
卡住的qrs heatbeat_server_snapshot:
platform:
hippo_cluster:
hippo_app:
c2_role:
c2_group:
ip:xx.xx.xx.xx
tcp_port: -1
arpc_port: 15798
http_port: 15800
grpc_port: 15801
grpc_stream_port: 15801
rdma_arpc_port: -1
server_signature: 16232145877262310906
biz_list:
qrs.default_sql_1_0_0_0, topo_sig: 10027220224235791423, meta_sig: 9274792188327784284, tag_sig: 9218164670327521261
target_weight: 0
publish_id: 2695057467900771190
publish_group: 0
metas: navi.buildin.static_graph.meta:{};
tags: