Skip to content

集群切换在qrs 有流量的情况下会卡住 #284

@wdywjm

Description

@wdywjm

背景:

集群健康度设置为 75%,四台qrs,1(分区)* 4 (副本) 4台searcher

我们在QRS 启动的时候注册到zk,停止的时候会从zk 反注册,业务通过zk 做服务发现把流量打到 QRS 节点上

问题:

在集群有流量的时候切换时常会卡住,查看QRS 日志发现4台QRS只有一台能切换成功,显示navi update success,其他三台是recive final target 之后卡住(gig 里面有still has query,对应的searcher 也会有这样的日志卡住),查看QRS gig heatbeat_server snapshot 发现有三台QRS权重都被设置为0,只有一台是100,是否意味这个时候只有一台QRS能够接受业务流量?其他的如果接受流量集群切换就会卡住?如果我们跟随gig QRS的权重设置在业务zk的权重,是否会一下子把好几台qrs的权重都设置为0导致集群不稳定,因为看日志现在几乎四台qrs 是同时接收到目标。

切换成功的qrs日志:

Image

切换成功qrs 节点的 heatbeat_server_snapshot:

platform:
hippo_cluster:
hippo_app:
c2_role:
c2_group:
ip: xx.xx.xx.xx
tcp_port: -1
arpc_port: 15798
http_port: 15800
grpc_port: 15801
grpc_stream_port: 15801
rdma_arpc_port: -1
server_signature: 16232145877262310906

biz_list:
qrs.default_sql_1_0_0_0, topo_sig: 10027220224235791423, meta_sig: 9274792188327784284, tag_sig: 9218164670327521261
target_weight: 100
publish_id: 11540502180505854941
publish_group: 0
metas: navi.buildin.static_graph.meta:{};
tags:

卡住的qrs日志:

Image Image

卡住的qrs heatbeat_server_snapshot:

platform:
hippo_cluster:
hippo_app:
c2_role:
c2_group:
ip:xx.xx.xx.xx
tcp_port: -1
arpc_port: 15798
http_port: 15800
grpc_port: 15801
grpc_stream_port: 15801
rdma_arpc_port: -1
server_signature: 16232145877262310906

biz_list:
qrs.default_sql_1_0_0_0, topo_sig: 10027220224235791423, meta_sig: 9274792188327784284, tag_sig: 9218164670327521261
target_weight: 0
publish_id: 2695057467900771190
publish_group: 0
metas: navi.buildin.static_graph.meta:{};
tags:

suez_admin carbon current:

carbon_current_issue.json

suez_admin carbon target:

carbon_target_issue.json

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions