Moved sharktank runner to ossci cluster (#990)

Eliasj42 · Elias Joseph · saienduri · web-flow · commit 868afc37f451 · 2025-03-03T08:40:27.000-08:00
Progress on #793 Moved sharktank runner to ossci cluster --------- Signed-off-by: Elias Joseph <eljoseph@amd.com> Co-authored-by: Elias Joseph <eljoseph@amd.com> Co-authored-by: saienduri <saimanas.enduri@amd.com>
diff --git a/.github/workflows/ci-sharktank.yml b/.github/workflows/ci-sharktank.yml
@@ -93,15 +93,16 @@ jobs:
     strategy:
       matrix:
         python-version: [3.11]
-        runs-on: [llama-mi300x-3]
+        runs-on: [linux-mi300-1gpu-ossci]
       fail-fast: false
     runs-on: ${{matrix.runs-on}}
     defaults:
       run:
         shell: bash
     env:
       VENV_DIR: ${{ github.workspace }}/.venv
-      HF_HOME: "/data/huggingface"
+      HF_HOME: "/shark-cache/data/huggingface"
+      HF_TOKEN: ${{ secrets.HF_FLUX_TOKEN }}
     steps:
       - uses: actions/checkout@11bd71901bbe5b1630ceea73d27597364c9af683 # v4.2.2
 
@@ -193,7 +194,7 @@ jobs:
         run: |
           pytest -v sharktank/ -m punet_quick \
             --durations=0 \
-            --timeout=600
+            --timeout=900
 
   # Depends on other jobs to provide an aggregate job status.
   # TODO(#584): move test_with_data and test_integration to a pkgci integration test workflow?
diff --git a/sharktank/tests/models/llama/quark_parity_test.py b/sharktank/tests/models/llama/quark_parity_test.py
@@ -19,7 +19,7 @@
 class QuarkParityTest(TempDirTestBase):
     def setUp(self):
         super().setUp()
-        self.path_prefix = Path("/shark-dev/quark_test")
+        self.path_prefix = Path("/shark-cache/quark_test")
 
     @with_quark_data
     def test_compare_against_quark(self):
@@ -55,7 +55,7 @@ def test_compare_against_quark(self):
             "sharktank.examples.paged_llm_v1",
             "The capitol of Texas is",
             f"--irpa-file={self.path_prefix}/fp8_bf16_weight.irpa",
-            f"--tokenizer-config-json=/data/llama3.1/8b/tokenizer.json",
+            f"--tokenizer-config-json=/shark-dev/data/llama3.1/8b/tokenizer.json",
             "--fake-quant",
             "--attention-kernel=torch",
             "--activation-dtype=bfloat16",