cluster-controller

SLO-aware GPU resource controller. Adaptive isolation via PCIe placement, dynamic MIG profiles, and cgroup-based guardrails.

Built for multi-tenant HPC workloads on A100/H100 clusters where noisy neighbors violate latency SLOs.

Features

MIG reconfiguration: Runtime profile changes (1g.10gb→7g.80gb) via nvidia-smi
Topology-aware placement: PCIe/NUMA hot-spot avoidance using lspci + hwloc
SLO monitoring: Per-tenant p99 tail latency tracking
Cgroup guardrails: I/O throttling, MPS quotas for containment
Anti-thrashing: Configurable dwell/cooldown periods

Prerequisites

# Linux kernel 5.4+ with cgroup v2
mount | grep cgroup2
uname -r

# NVIDIA datacenter driver + MIG support
nvidia-smi -q | grep "MIG Mode"
modinfo nvidia | grep version

# Root access or CAP_SYS_ADMIN + CAP_SYS_RESOURCE
getcap /usr/bin/python3

Build

# Install build deps
sudo apt install build-essential python3-dev libnuma-dev

# Compile native extensions (optional)
python setup.py build_ext --inplace

# System daemon install
sudo pip install -e .
sudo systemctl enable gpu-controller.service

Configuration

Controller reads /etc/gpu-controller.conf:

[controller]
tail_threshold_ms=15.0
persistence_windows=3  
dwell_time_observations=256
cooldown_observations=128

[placement]
numa_weight=0.7
pcie_weight=0.3

Logs to journald. Metrics exported to /var/run/gpu-controller/.

Name		Name	Last commit message	Last commit date
Latest commit History 30 Commits
Implementation		Implementation
docs		docs
examples		examples
scripts		scripts
src/gpu_multi_tenancy		src/gpu_multi_tenancy
tests		tests
.gitignore		.gitignore
README.md		README.md
VERSION		VERSION
requirements.txt		requirements.txt
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

cluster-controller

Features

Prerequisites

Build

Configuration

About

Uh oh!

Releases

Packages

Languages

Erfandarzi/cluster-controller

Folders and files

Latest commit

History

Repository files navigation

cluster-controller

Features

Prerequisites

Build

Configuration

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages