Refactor test_llm_perf_metrics to use context manager for LLM instance

Funatiq · Funatiq · commit 83c425f500af · 2025-11-04T15:54:45.000+01:00
- Updated the test to utilize a context manager for the LLM instance, improving resource management.
- Maintained existing assertions to validate performance metrics.

Signed-off-by: Robin Kobus &lt;19427718+Funatiq@users.noreply.github.com&gt;
diff --git a/tests/unittest/llmapi/test_llm_pytorch.py b/tests/unittest/llmapi/test_llm_pytorch.py
@@ -180,28 +180,30 @@ def test_llm_reward_model():
 
 @skip_ray
 def test_llm_perf_metrics():
-    llm = LLM(model=llama_model_path, kv_cache_config=global_kvcache_config)
-    sampling_params = SamplingParams(max_tokens=10, return_perf_metrics=True)
-    outputs = llm.generate(prompts, sampling_params)
-    assert outputs[0].outputs[0].request_perf_metrics is not None
-
-    perf_metrics = outputs[0].outputs[0].request_perf_metrics
-
-    timing_metrics = perf_metrics.timing_metrics
-    assert timing_metrics.arrival_time < timing_metrics.first_scheduled_time
-    assert timing_metrics.first_scheduled_time < timing_metrics.first_token_time
-    assert timing_metrics.first_token_time < timing_metrics.last_token_time
-
-    kv_cache_metrics = perf_metrics.kv_cache_metrics
-    assert kv_cache_metrics.num_total_allocated_blocks == 1
-    assert kv_cache_metrics.num_new_allocated_blocks == 1
-    assert kv_cache_metrics.num_reused_blocks == 0
-    assert kv_cache_metrics.num_missed_blocks == 1
-    assert kv_cache_metrics.kv_cache_hit_rate == 0
-
-    assert perf_metrics.first_iter is not None
-    assert perf_metrics.iter - perf_metrics.first_iter == sampling_params.max_tokens - 1
-    assert perf_metrics.last_iter == perf_metrics.iter
+    with LLM(model=llama_model_path,
+             kv_cache_config=global_kvcache_config) as llm:
+        sampling_params = SamplingParams(max_tokens=10,
+                                         return_perf_metrics=True)
+        outputs = llm.generate(prompts, sampling_params)
+        assert outputs[0].outputs[0].request_perf_metrics is not None
+
+        perf_metrics = outputs[0].outputs[0].request_perf_metrics
+
+        timing_metrics = perf_metrics.timing_metrics
+        assert timing_metrics.arrival_time < timing_metrics.first_scheduled_time
+        assert timing_metrics.first_scheduled_time < timing_metrics.first_token_time
+        assert timing_metrics.first_token_time < timing_metrics.last_token_time
+
+        kv_cache_metrics = perf_metrics.kv_cache_metrics
+        assert kv_cache_metrics.num_total_allocated_blocks == 1
+        assert kv_cache_metrics.num_new_allocated_blocks == 1
+        assert kv_cache_metrics.num_reused_blocks == 0
+        assert kv_cache_metrics.num_missed_blocks == 1
+        assert kv_cache_metrics.kv_cache_hit_rate == 0
+
+        assert perf_metrics.first_iter is not None
+        assert perf_metrics.iter - perf_metrics.first_iter == sampling_params.max_tokens - 1
+        assert perf_metrics.last_iter == perf_metrics.iter
 
 
 @skip_ray