fuzzylabs · HamzaSardar · Mar 18, 2026 · Mar 19, 2026 · osw282 · Mar 19, 2026
diff --git a/README.md b/README.md
@@ -117,15 +117,23 @@ When running with the current stack, the flow is:
 
 We built an evaluation suite to test both tool-use behaviour and diagnosis quality. You can find details here:
 
-- [Evaluation overview](src/sre_agent/eval/README.md)
-- [Tool call evaluation](src/sre_agent/eval/tool_call/README.md)
-- [Diagnosis quality evaluation](src/sre_agent/eval/diagnosis_quality/README.md)
+- [Evaluation overview](evals/README.md)
+- [Tool call evaluation](evals/tool_call/README.md)
+- [Diagnosis quality evaluation](evals/diagnosis_quality/README.md)
 
 Run the suites with:
 
 ```bash
-uv run sre-agent-run-tool-call-eval
-uv run sre-agent-run-diagnosis-quality-eval
+uv run python -m evals.tool_call.run
+uv run python -m evals.diagnosis_quality.run
+```
+
+Assuming you already have Opik up and running. If not, please refer to the README in either of the eval suites for setup instructions. Once ready, run the following to install prerequisites:
+
+```bash
+export GITHUB_PERSONAL_ACCESS_TOKEN="..."
+export ANTHROPIC_API_KEY="..."
+uv sync --group eval
 ```
 
 # 🤔 Why We Built This

diff --git a/src/sre_agent/eval/README.md → evals/README.md b/src/sre_agent/eval/README.md → evals/README.md
@@ -70,5 +70,5 @@ When the server is running, open [http://localhost:5173/](http://localhost:5173/
 
 For suite-specific details, see:
 
-- `src/sre_agent/eval/tool_call/README.md`
-- `src/sre_agent/eval/diagnosis_quality/README.md`
+- `evals/tool_call/README.md`
+- `evals/diagnosis_quality/README.md`
diff --git a/src/sre_agent/eval/__init__.py → evals/__init__.py b/src/sre_agent/eval/__init__.py → evals/__init__.py
diff --git a/src/sre_agent/eval/common/__init__.py → evals/common/__init__.py b/src/sre_agent/eval/common/__init__.py → evals/common/__init__.py
@@ -1,5 +1,5 @@
 """Common helpers for evaluation suites."""
 
-from sre_agent.eval.common.case_loader import load_json_case_models
+from evals.common.case_loader import load_json_case_models
 
 __all__ = ["load_json_case_models"]
diff --git a/src/sre_agent/eval/common/case_loader.py → evals/common/case_loader.py b/src/sre_agent/eval/common/case_loader.py → evals/common/case_loader.py
diff --git a/...re_agent/eval/diagnosis_quality/README.md → evals/diagnosis_quality/README.md b/...re_agent/eval/diagnosis_quality/README.md → evals/diagnosis_quality/README.md
@@ -22,11 +22,11 @@ The run is hybrid:
 
 Test cases are loaded from:
 
-- `src/sre_agent/eval/diagnosis_quality/dataset/test_cases`
+- `evals/diagnosis_quality/dataset/test_cases`
 
 Each case follows `DiagnosisQualityEvalCase` in:
 
-- `src/sre_agent/eval/diagnosis_quality/dataset/schema.py`
+- `evals/diagnosis_quality/dataset/schema.py`
 
 Key fields:
 
@@ -66,5 +66,5 @@ Run command:
 
 ```bash
 uv sync --group eval
-uv run sre-agent-run-diagnosis-quality-eval
+uv run python -m evals.diagnosis_quality.run
 ```
diff --git a/..._agent/eval/diagnosis_quality/__init__.py → evals/diagnosis_quality/__init__.py b/..._agent/eval/diagnosis_quality/__init__.py → evals/diagnosis_quality/__init__.py
diff --git a/...re_agent/eval/diagnosis_quality/config.py → evals/diagnosis_quality/config.py b/...re_agent/eval/diagnosis_quality/config.py → evals/diagnosis_quality/config.py
diff --git a/...val/diagnosis_quality/dataset/__init__.py → evals/diagnosis_quality/dataset/__init__.py b/...val/diagnosis_quality/dataset/__init__.py → evals/diagnosis_quality/dataset/__init__.py
diff --git a/...is_quality/dataset/create_and_populate.py → ...is_quality/dataset/create_and_populate.py b/...is_quality/dataset/create_and_populate.py → ...is_quality/dataset/create_and_populate.py
@@ -5,8 +5,8 @@
 
 from opik import Opik
 
-from sre_agent.eval.common.case_loader import load_json_case_models
-from sre_agent.eval.diagnosis_quality.dataset.schema import DiagnosisQualityEvalCase
+from evals.common.case_loader import load_json_case_models
+from evals.diagnosis_quality.dataset.schema import DiagnosisQualityEvalCase
 
 DEFAULT_DATASET_NAME = "sre-agent-diagnosis-quality"
 

diff --git a/.../eval/diagnosis_quality/dataset/schema.py → evals/diagnosis_quality/dataset/schema.py b/.../eval/diagnosis_quality/dataset/schema.py → evals/diagnosis_quality/dataset/schema.py
diff --git a/.../test_cases/cartservice_test_case_01.json → .../test_cases/cartservice_test_case_01.json b/.../test_cases/cartservice_test_case_01.json → .../test_cases/cartservice_test_case_01.json
diff --git a/.../test_cases/cartservice_test_case_02.json → .../test_cases/cartservice_test_case_02.json b/.../test_cases/cartservice_test_case_02.json → .../test_cases/cartservice_test_case_02.json
diff --git a/...t_cases/currencyservice_test_case_01.json → ...t_cases/currencyservice_test_case_01.json b/...t_cases/currencyservice_test_case_01.json → ...t_cases/currencyservice_test_case_01.json
diff --git a/...gent/eval/diagnosis_quality/experiment.py → evals/diagnosis_quality/experiment.py b/...gent/eval/diagnosis_quality/experiment.py → evals/diagnosis_quality/experiment.py
@@ -9,27 +9,27 @@
 from opik.evaluation.evaluation_result import EvaluationResult
 from pydantic_ai import Agent
 
-from sre_agent.core.models import ErrorDiagnosis
-from sre_agent.core.prompts import SYSTEM_PROMPT
-from sre_agent.eval.diagnosis_quality.config import (
+from evals.diagnosis_quality.config import (
     DEFAULT_EXPERIMENT_NAME,
     DEFAULT_JUDGE_MODEL,
     DEFAULT_MODEL,
     DEFAULT_OPIK_PROJECT_NAME,
 )
-from sre_agent.eval.diagnosis_quality.dataset.create_and_populate import (
+from evals.diagnosis_quality.dataset.create_and_populate import (
     DEFAULT_DATASET_NAME,
     create_and_populate_dataset,
 )
-from sre_agent.eval.diagnosis_quality.dataset.schema import DiagnosisQualityEvalCase
-from sre_agent.eval.diagnosis_quality.github_toolset import build_github_toolset
-from sre_agent.eval.diagnosis_quality.metrics import (
+from evals.diagnosis_quality.dataset.schema import DiagnosisQualityEvalCase
+from evals.diagnosis_quality.github_toolset import build_github_toolset
+from evals.diagnosis_quality.metrics import (
     AffectedServicesMatch,
     RootCauseCorrectness,
     SuggestedFixesQuality,
 )
-from sre_agent.eval.diagnosis_quality.mocks import MockToolRuntime, build_mock_toolset
-from sre_agent.eval.diagnosis_quality.prompts import render_agent_prompt
+from evals.diagnosis_quality.mocks import MockToolRuntime, build_mock_toolset
+from evals.diagnosis_quality.prompts import render_agent_prompt
+from sre_agent.core.models import ErrorDiagnosis
+from sre_agent.core.prompts import SYSTEM_PROMPT
 
 
 def evaluation_task(dataset_item: dict[str, Any]) -> dict[str, Any]:

diff --git a/.../eval/diagnosis_quality/github_toolset.py → evals/diagnosis_quality/github_toolset.py b/.../eval/diagnosis_quality/github_toolset.py → evals/diagnosis_quality/github_toolset.py
diff --git a/...val/diagnosis_quality/metrics/__init__.py → evals/diagnosis_quality/metrics/__init__.py b/...val/diagnosis_quality/metrics/__init__.py → evals/diagnosis_quality/metrics/__init__.py
@@ -1,12 +1,12 @@
 """Metrics for diagnosis quality evaluation."""
 
-from sre_agent.eval.diagnosis_quality.metrics.affected_services_match import (
+from evals.diagnosis_quality.metrics.affected_services_match import (
     AffectedServicesMatch,
 )
-from sre_agent.eval.diagnosis_quality.metrics.root_cause_correctness import (
+from evals.diagnosis_quality.metrics.root_cause_correctness import (
     RootCauseCorrectness,
 )
-from sre_agent.eval.diagnosis_quality.metrics.suggested_fixes_quality import (
+from evals.diagnosis_quality.metrics.suggested_fixes_quality import (
     SuggestedFixesQuality,
 )
 

diff --git a/...uality/metrics/affected_services_match.py → ...uality/metrics/affected_services_match.py b/...uality/metrics/affected_services_match.py → ...uality/metrics/affected_services_match.py
diff --git a/...quality/metrics/root_cause_correctness.py → ...quality/metrics/root_cause_correctness.py b/...quality/metrics/root_cause_correctness.py → ...quality/metrics/root_cause_correctness.py
diff --git a/...uality/metrics/suggested_fixes_quality.py → ...uality/metrics/suggested_fixes_quality.py b/...uality/metrics/suggested_fixes_quality.py → ...uality/metrics/suggested_fixes_quality.py
diff --git a/evals/diagnosis_quality/mocks/__init__.py b/evals/diagnosis_quality/mocks/__init__.py
@@ -0,0 +1,9 @@
+"""Mock tools for diagnosis quality evaluation."""
+
+from evals.diagnosis_quality.mocks.runtime import MockToolRuntime
+from evals.diagnosis_quality.mocks.toolset import build_mock_toolset
+
+__all__ = [
+    "MockToolRuntime",
+    "build_mock_toolset",
+]
diff --git a/...val/diagnosis_quality/mocks/cloudwatch.py → evals/diagnosis_quality/mocks/cloudwatch.py b/...val/diagnosis_quality/mocks/cloudwatch.py → evals/diagnosis_quality/mocks/cloudwatch.py
@@ -2,8 +2,8 @@
 
 import opik
 
+from evals.diagnosis_quality.mocks.runtime import MockToolRuntime
 from sre_agent.core.models import LogEntry, LogQueryResult
-from sre_agent.eval.diagnosis_quality.mocks.runtime import MockToolRuntime
 
 MOCK_TIMESTAMP = "2026-01-01T00:00:00+00:00"
 

diff --git a/...t/eval/diagnosis_quality/mocks/runtime.py → evals/diagnosis_quality/mocks/runtime.py b/...t/eval/diagnosis_quality/mocks/runtime.py → evals/diagnosis_quality/mocks/runtime.py
@@ -2,7 +2,7 @@
 
 from dataclasses import dataclass
 
-from sre_agent.eval.diagnosis_quality.dataset.schema import DiagnosisQualityEvalCase
+from evals.diagnosis_quality.dataset.schema import DiagnosisQualityEvalCase
 
 
 @dataclass

diff --git a/...ent/eval/diagnosis_quality/mocks/slack.py → evals/diagnosis_quality/mocks/slack.py b/...ent/eval/diagnosis_quality/mocks/slack.py → evals/diagnosis_quality/mocks/slack.py
diff --git a/...t/eval/diagnosis_quality/mocks/toolset.py → evals/diagnosis_quality/mocks/toolset.py b/...t/eval/diagnosis_quality/mocks/toolset.py → evals/diagnosis_quality/mocks/toolset.py
@@ -4,10 +4,10 @@
 
 from pydantic_ai import FunctionToolset
 
+from evals.diagnosis_quality.mocks import cloudwatch as cloudwatch_mocks
+from evals.diagnosis_quality.mocks import slack as slack_mocks
+from evals.diagnosis_quality.mocks.runtime import MockToolRuntime
 from sre_agent.core.models import LogQueryResult
-from sre_agent.eval.diagnosis_quality.mocks import cloudwatch as cloudwatch_mocks
-from sre_agent.eval.diagnosis_quality.mocks import slack as slack_mocks
-from sre_agent.eval.diagnosis_quality.mocks.runtime import MockToolRuntime
 
 
 def build_mock_toolset(runtime: MockToolRuntime) -> FunctionToolset:

diff --git a/...e_agent/eval/diagnosis_quality/prompts.py → evals/diagnosis_quality/prompts.py b/...e_agent/eval/diagnosis_quality/prompts.py → evals/diagnosis_quality/prompts.py
@@ -1,11 +1,11 @@
 """Prompt rendering for diagnosis quality evaluation."""
 
-from sre_agent.core.prompts import DIAGNOSIS_PROMPT_TEMPLATE
-from sre_agent.eval.diagnosis_quality.config import (
+from evals.diagnosis_quality.config import (
     DEFAULT_SLACK_CHANNEL_ID,
     DEFAULT_TIME_RANGE_MINUTES,
 )
-from sre_agent.eval.diagnosis_quality.dataset.schema import DiagnosisQualityEvalCase
+from evals.diagnosis_quality.dataset.schema import DiagnosisQualityEvalCase
+from sre_agent.core.prompts import DIAGNOSIS_PROMPT_TEMPLATE
 
 
 def render_agent_prompt(case: DiagnosisQualityEvalCase) -> str:

diff --git a/src/sre_agent/eval/diagnosis_quality/run.py → evals/diagnosis_quality/run.py b/src/sre_agent/eval/diagnosis_quality/run.py → evals/diagnosis_quality/run.py
@@ -2,9 +2,9 @@
 
 from pydantic_ai.exceptions import UserError
 
-from sre_agent.eval.diagnosis_quality.config import DEFAULT_EXPERIMENT_NAME
-from sre_agent.eval.diagnosis_quality.dataset.create_and_populate import DEFAULT_DATASET_NAME
-from sre_agent.eval.diagnosis_quality.experiment import run_experiment
+from evals.diagnosis_quality.config import DEFAULT_EXPERIMENT_NAME
+from evals.diagnosis_quality.dataset.create_and_populate import DEFAULT_DATASET_NAME
+from evals.diagnosis_quality.experiment import run_experiment
 
 
 def main() -> None:

diff --git a/src/sre_agent/eval/imgs/opik_dataset.png → evals/imgs/opik_dataset.png b/src/sre_agent/eval/imgs/opik_dataset.png → evals/imgs/opik_dataset.png
diff --git a/src/sre_agent/eval/imgs/opik_experiment.png → evals/imgs/opik_experiment.png b/src/sre_agent/eval/imgs/opik_experiment.png → evals/imgs/opik_experiment.png
diff --git a/src/sre_agent/eval/tool_call/README.md → evals/tool_call/README.md b/src/sre_agent/eval/tool_call/README.md → evals/tool_call/README.md
@@ -25,11 +25,11 @@ The run is hybrid:
 
 Test cases are loaded from:
 
-- `src/sre_agent/eval/tool_call/dataset/test_cases`
+- `evals/tool_call/dataset/test_cases`
 
 Each case follows `ToolCallEvalCase` in:
 
-- `src/sre_agent/eval/tool_call/dataset/schema.py`
+- `evals/tool_call/dataset/schema.py`
 
 Key fields:
 
@@ -73,7 +73,7 @@ Run command:
 
 ```bash
 uv sync --group eval
-uv run sre-agent-run-tool-call-eval
+uv run python -m evals.tool_call.run
 ```
 
 ## View Results in Opik

diff --git a/src/sre_agent/eval/tool_call/__init__.py → evals/tool_call/__init__.py b/src/sre_agent/eval/tool_call/__init__.py → evals/tool_call/__init__.py
diff --git a/src/sre_agent/eval/tool_call/config.py → evals/tool_call/config.py b/src/sre_agent/eval/tool_call/config.py → evals/tool_call/config.py
diff --git a/..._agent/eval/tool_call/dataset/__init__.py → evals/tool_call/dataset/__init__.py b/..._agent/eval/tool_call/dataset/__init__.py → evals/tool_call/dataset/__init__.py
@@ -1,9 +1,9 @@
 """Dataset for tool call evaluation."""
 
-from sre_agent.eval.tool_call.dataset.create_and_populate import (
+from evals.tool_call.dataset.create_and_populate import (
     DEFAULT_DATASET_NAME,
     create_and_populate_dataset,
 )
-from sre_agent.eval.tool_call.dataset.schema import ToolCallEvalCase
+from evals.tool_call.dataset.schema import ToolCallEvalCase
 
 __all__ = ["create_and_populate_dataset", "ToolCallEvalCase", "DEFAULT_DATASET_NAME"]
diff --git a/.../tool_call/dataset/create_and_populate.py → .../tool_call/dataset/create_and_populate.py b/.../tool_call/dataset/create_and_populate.py → .../tool_call/dataset/create_and_populate.py
@@ -5,8 +5,8 @@
 
 from opik import Opik
 
-from sre_agent.eval.common.case_loader import load_json_case_models
-from sre_agent.eval.tool_call.dataset.schema import ToolCallEvalCase
+from evals.common.case_loader import load_json_case_models
+from evals.tool_call.dataset.schema import ToolCallEvalCase
 
 DEFAULT_DATASET_NAME = "sre-agent-tool-call"
 

diff --git a/...re_agent/eval/tool_call/dataset/schema.py → evals/tool_call/dataset/schema.py b/...re_agent/eval/tool_call/dataset/schema.py → evals/tool_call/dataset/schema.py
diff --git a/.../test_cases/cartservice_test_case_01.json → .../test_cases/cartservice_test_case_01.json b/.../test_cases/cartservice_test_case_01.json → .../test_cases/cartservice_test_case_01.json
diff --git a/.../test_cases/cartservice_test_case_02.json → .../test_cases/cartservice_test_case_02.json b/.../test_cases/cartservice_test_case_02.json → .../test_cases/cartservice_test_case_02.json
diff --git a/...t_cases/currencyservice_test_case_01.json → ...t_cases/currencyservice_test_case_01.json b/...t_cases/currencyservice_test_case_01.json → ...t_cases/currencyservice_test_case_01.json
diff --git a/...ases/no_error_log_found_test_case_01.json → ...ases/no_error_log_found_test_case_01.json b/...ases/no_error_log_found_test_case_01.json → ...ases/no_error_log_found_test_case_01.json
diff --git a/src/sre_agent/eval/tool_call/experiment.py → evals/tool_call/experiment.py b/src/sre_agent/eval/tool_call/experiment.py → evals/tool_call/experiment.py
@@ -9,25 +9,25 @@
 from opik.evaluation.evaluation_result import EvaluationResult
 from pydantic_ai import Agent
 
-from sre_agent.core.models import ErrorDiagnosis
-from sre_agent.core.prompts import SYSTEM_PROMPT
-from sre_agent.eval.tool_call.config import (
+from evals.tool_call.config import (
     DEFAULT_EXPERIMENT_NAME,
     DEFAULT_MODEL,
     DEFAULT_OPIK_PROJECT_NAME,
 )
-from sre_agent.eval.tool_call.dataset.create_and_populate import (
+from evals.tool_call.dataset.create_and_populate import (
     DEFAULT_DATASET_NAME,
     create_and_populate_dataset,
 )
-from sre_agent.eval.tool_call.dataset.schema import ToolCallEvalCase
-from sre_agent.eval.tool_call.github_toolset import build_github_toolset
-from sre_agent.eval.tool_call.metrics.expected_tool_select_order import (
+from evals.tool_call.dataset.schema import ToolCallEvalCase
+from evals.tool_call.github_toolset import build_github_toolset
+from evals.tool_call.metrics.expected_tool_select_order import (
     ExpectedToolSelectOrder,
 )
-from sre_agent.eval.tool_call.metrics.expected_tool_selection import ExpectedToolSelection
-from sre_agent.eval.tool_call.mocks import MockToolRuntime, build_mock_toolset
-from sre_agent.eval.tool_call.prompts import render_agent_prompt
+from evals.tool_call.metrics.expected_tool_selection import ExpectedToolSelection
+from evals.tool_call.mocks import MockToolRuntime, build_mock_toolset
+from evals.tool_call.prompts import render_agent_prompt
+from sre_agent.core.models import ErrorDiagnosis
+from sre_agent.core.prompts import SYSTEM_PROMPT
 
 
 def evaluation_task(dataset_item: dict[str, Any]) -> dict[str, Any]:

diff --git a/...re_agent/eval/tool_call/github_toolset.py → evals/tool_call/github_toolset.py b/...re_agent/eval/tool_call/github_toolset.py → evals/tool_call/github_toolset.py
diff --git a/evals/tool_call/metrics/__init__.py b/evals/tool_call/metrics/__init__.py
@@ -0,0 +1,6 @@
+"""Metrics for tool call evaluation."""
+
+from evals.tool_call.metrics.expected_tool_select_order import ExpectedToolSelectOrder
+from evals.tool_call.metrics.expected_tool_selection import ExpectedToolSelection
+
+__all__ = ["ExpectedToolSelection", "ExpectedToolSelectOrder"]
diff --git a/...all/metrics/expected_tool_select_order.py → ...all/metrics/expected_tool_select_order.py b/...all/metrics/expected_tool_select_order.py → ...all/metrics/expected_tool_select_order.py
@@ -5,7 +5,7 @@
 from opik.evaluation.metrics import base_metric, score_result
 from opik.message_processing.emulation.models import SpanModel
 
-from sre_agent.eval.tool_call.metrics.span_tools import extract_tool_names
+from evals.tool_call.metrics.span_tools import extract_tool_names
 
 
 class ExpectedToolSelectOrder(base_metric.BaseMetric):  # type: ignore[misc]

diff --git a/...l_call/metrics/expected_tool_selection.py → ...l_call/metrics/expected_tool_selection.py b/...l_call/metrics/expected_tool_selection.py → ...l_call/metrics/expected_tool_selection.py
@@ -5,7 +5,7 @@
 from opik.evaluation.metrics import base_metric, score_result
 from opik.message_processing.emulation.models import SpanModel
 
-from sre_agent.eval.tool_call.metrics.span_tools import extract_tool_names
+from evals.tool_call.metrics.span_tools import extract_tool_names
 
 
 class ExpectedToolSelection(base_metric.BaseMetric):  # type: ignore[misc]

diff --git a/...gent/eval/tool_call/metrics/span_tools.py → evals/tool_call/metrics/span_tools.py b/...gent/eval/tool_call/metrics/span_tools.py → evals/tool_call/metrics/span_tools.py
diff --git a/evals/tool_call/mocks/__init__.py b/evals/tool_call/mocks/__init__.py
@@ -0,0 +1,6 @@
+"""Mock tools for tool call evaluation."""
+
+from evals.tool_call.mocks.runtime import MockToolRuntime
+from evals.tool_call.mocks.toolset import build_mock_toolset
+
+__all__ = ["MockToolRuntime", "build_mock_toolset"]
diff --git a/..._agent/eval/tool_call/mocks/cloudwatch.py → evals/tool_call/mocks/cloudwatch.py b/..._agent/eval/tool_call/mocks/cloudwatch.py → evals/tool_call/mocks/cloudwatch.py
@@ -2,8 +2,8 @@
 
 import opik
 
+from evals.tool_call.mocks.runtime import MockToolRuntime
 from sre_agent.core.models import LogEntry, LogQueryResult
-from sre_agent.eval.tool_call.mocks.runtime import MockToolRuntime
 
 MOCK_TIMESTAMP = "2026-01-01T00:00:00+00:00"
 

diff --git a/...sre_agent/eval/tool_call/mocks/runtime.py → evals/tool_call/mocks/runtime.py b/...sre_agent/eval/tool_call/mocks/runtime.py → evals/tool_call/mocks/runtime.py
@@ -2,7 +2,7 @@
 
 from dataclasses import dataclass
 
-from sre_agent.eval.tool_call.dataset.schema import ToolCallEvalCase
+from evals.tool_call.dataset.schema import ToolCallEvalCase
 
 
 @dataclass

diff --git a/src/sre_agent/eval/tool_call/mocks/slack.py → evals/tool_call/mocks/slack.py b/src/sre_agent/eval/tool_call/mocks/slack.py → evals/tool_call/mocks/slack.py
diff --git a/...sre_agent/eval/tool_call/mocks/toolset.py → evals/tool_call/mocks/toolset.py b/...sre_agent/eval/tool_call/mocks/toolset.py → evals/tool_call/mocks/toolset.py
@@ -4,10 +4,10 @@
 
 from pydantic_ai import FunctionToolset
 
+from evals.tool_call.mocks import cloudwatch as cloudwatch_mocks
+from evals.tool_call.mocks import slack as slack_mocks
+from evals.tool_call.mocks.runtime import MockToolRuntime
 from sre_agent.core.models import LogQueryResult
-from sre_agent.eval.tool_call.mocks import cloudwatch as cloudwatch_mocks
-from sre_agent.eval.tool_call.mocks import slack as slack_mocks
-from sre_agent.eval.tool_call.mocks.runtime import MockToolRuntime
 
 
 def build_mock_toolset(runtime: MockToolRuntime) -> FunctionToolset:

diff --git a/src/sre_agent/eval/tool_call/prompts.py → evals/tool_call/prompts.py b/src/sre_agent/eval/tool_call/prompts.py → evals/tool_call/prompts.py
@@ -1,11 +1,11 @@
 """Prompt rendering for tool call evaluation."""
 
-from sre_agent.core.prompts import DIAGNOSIS_PROMPT_TEMPLATE
-from sre_agent.eval.tool_call.config import (
+from evals.tool_call.config import (
     DEFAULT_SLACK_CHANNEL_ID,
     DEFAULT_TIME_RANGE_MINUTES,
 )
-from sre_agent.eval.tool_call.dataset.schema import ToolCallEvalCase
+from evals.tool_call.dataset.schema import ToolCallEvalCase
+from sre_agent.core.prompts import DIAGNOSIS_PROMPT_TEMPLATE
 
 
 def render_agent_prompt(case: ToolCallEvalCase) -> str:

diff --git a/src/sre_agent/eval/tool_call/run.py → evals/tool_call/run.py b/src/sre_agent/eval/tool_call/run.py → evals/tool_call/run.py
@@ -2,9 +2,9 @@
 
 from pydantic_ai.exceptions import UserError
 
-from sre_agent.eval.tool_call.config import DEFAULT_EXPERIMENT_NAME
-from sre_agent.eval.tool_call.dataset.create_and_populate import DEFAULT_DATASET_NAME
-from sre_agent.eval.tool_call.experiment import run_experiment
+from evals.tool_call.config import DEFAULT_EXPERIMENT_NAME
+from evals.tool_call.dataset.create_and_populate import DEFAULT_DATASET_NAME
+from evals.tool_call.experiment import run_experiment
 
 
 def main() -> None:

diff --git a/pyproject.toml b/pyproject.toml
@@ -19,8 +19,6 @@ dependencies = [
 
 [project.scripts]
 sre-agent = "sre_agent.cli.main:main"
-sre-agent-run-tool-call-eval = "sre_agent.eval.tool_call.run:main"
-sre-agent-run-diagnosis-quality-eval = "sre_agent.eval.diagnosis_quality.run:main"
 
 [dependency-groups]
 dev = [

diff --git a/src/sre_agent/eval/diagnosis_quality/mocks/__init__.py b/src/sre_agent/eval/diagnosis_quality/mocks/__init__.py