volcano-sh · WHOIM1205 · Mar 20, 2026 · Mar 31, 2026 · gemini-code-assist · Mar 20, 2026
diff --git a/examples/keda-autoscaling/keda-scaledobject.yaml b/examples/keda-autoscaling/keda-scaledobject.yaml
@@ -0,0 +1,26 @@
+apiVersion: keda.sh/v1alpha1
+kind: ScaledObject
+metadata:
+  name: modelserving-scaler
+spec:
+  scaleTargetRef:
+    apiVersion: workload.serving.volcano.sh/v1alpha1
+    kind: ModelServing
+    name: my-modelserving
+  minReplicaCount: 1
+  maxReplicaCount: 10
+  cooldownPeriod: 120
+  pollingInterval: 15
+  triggers:
+    - type: prometheus
+      metadata:
+        serverAddress: http://prometheus.monitoring.svc.cluster.local:9090
+        query: avg(vllm:num_requests_waiting)
+        threshold: "5"
+        metricName: vllm_requests_waiting_avg
+    - type: prometheus
+      metadata:
+        serverAddress: http://prometheus.monitoring.svc.cluster.local:9090
+        query: sum(kthena_router_active_downstream_requests)
-        query: avg(vllm:num_requests_waiting)
-        threshold: "5"
-        metricName: vllm_requests_waiting_avg
-    - type: prometheus
-      metadata:
-        serverAddress: http://prometheus.monitoring.svc.cluster.local:9090
-        query: sum(kthena_router_active_downstream_requests)
+        query: avg(vllm:num_requests_waiting{namespace="default",service="my-modelserving"})
+        threshold: "5"
+        metricName: vllm_requests_waiting_avg
+    - type: prometheus
+      metadata:
+        serverAddress: http://prometheus.monitoring.svc.cluster.local:9090
+        query: sum(kthena_router_active_downstream_requests{namespace="default",service="my-modelserving"})
-        query: avg(vllm:num_requests_waiting)
-        threshold: "5"
-        metricName: vllm_requests_waiting_avg
-    - type: prometheus
-      metadata:
-        serverAddress: http://prometheus.monitoring.svc.cluster.local:9090
-        query: sum(kthena_router_active_downstream_requests)
+        query: avg(vllm:num_requests_waiting{namespace="default",service="my-modelserving"})
+        threshold: "5"
+        metricName: vllm_requests_waiting_avg
+    - type: prometheus
+      metadata:
+        serverAddress: http://prometheus.monitoring.svc.cluster.local:9090
+        query: sum(kthena_router_active_downstream_requests{namespace="default",service="my-modelserving"})
+        threshold: "20"
+        metricName: router_active_downstream_requests
diff --git a/examples/keda-autoscaling/podmonitor-inference.yaml b/examples/keda-autoscaling/podmonitor-inference.yaml
@@ -0,0 +1,15 @@
+apiVersion: monitoring.coreos.com/v1
+kind: PodMonitor
+metadata:
+  name: inference-pods
+  labels:
+    app.kubernetes.io/component: inference
+spec:
+  selector:
+    matchLabels:
+      modelserving.volcano.sh/entry: "true"
+  podMetricsEndpoints:
+    - port: http
+      targetPort: 8000
-    - port: http
-      targetPort: 8000
+    - targetPort: 8000
-    - port: http
-      targetPort: 8000
+    - targetPort: 8000
+      path: /metrics
+      interval: 15s
diff --git a/examples/keda-autoscaling/servicemonitor-router.yaml b/examples/keda-autoscaling/servicemonitor-router.yaml
@@ -0,0 +1,14 @@
+apiVersion: monitoring.coreos.com/v1
+kind: ServiceMonitor
+metadata:
-metadata:
+metadata:
+  namespace: kthena-system
-metadata:
+metadata:
+  namespace: kthena-system
+  name: kthena-router
+  labels:
+    app.kubernetes.io/component: kthena-router
+spec:
+  selector:
+    matchLabels:
+      app.kubernetes.io/component: kthena-router
-      app.kubernetes.io/component: kthena-router
+      app.kubernetes.io/name: kthena-router
-      app.kubernetes.io/component: kthena-router
+      app.kubernetes.io/name: kthena-router
+  endpoints:
+    - port: http
+      path: /metrics
+      interval: 15s