-
vmesna programska oprema https://slurm.schedmd.com
-
glavne lastnosti
- odprtokodni projekt
- odporen na napake
- kompleksen razvrščevalnik
- visoko raztegljiv
- mnogo različnih vtičnikov
- vozlišča (nodes): računski viri
- particije (partitions): logične skupine vozlišč, vsaka ima svojo vrsto poslov
- posli (jobs): vključuje viri, začasno dodeljene uporabniku, podatke in programsko opremo
- koraki (job steps): manjše izvajalna enota v poslu
-
slurmctrld
- na glavnem vozlišču
- nadzira in dodeljuje vire
- upravlja s čakalnimi vrstami
- redundanca ob namestitvi na več vozlišč
-
slurmd
- teče na vsakem vozlišču
- čaka na posel, poskrbi za izvedbo, sporoča statuse
- hierarhična zasnova
- komunikacija odporna na napake
- zažene
slurmstepd
, ki izvaja posel
-
slurmstepd
- dejansko izvede posel
-
slurmdbd
- povezan s podatkovno bazo
- shranjuje zgodovino, obračunavanje
- uporabnik z ukazom
srun
pošlje zahtevo za dodelitev virov za posel,slurmctrld
jo mora odobriti srun
po odobritvi pošlje zahtevo za vzpostavitev posla,slurmctrld
izda poverilnice (gesla, dodeljene vire)srun
odpre komunikacijske kanalesrun
pošlje poverilnice in podrobnosti o poslu naslurmd
slurmd
podatke posreduje dodeljenim vozliščemslurmd
zaženeslurmstepd
slurmstepd
vzpostavi kanal zsrun
(na prijavnem vozlišču) in zažene posel (naloge v njem)slurmstepd
obvestisrun
o zaključku poslasrun
o zaključku posla obvestislurmctrld
slurmctrld
prekoslurmd
preveri, da je posel zaključen, in sprosti vire
- PD: pending, čaka v vrsti
- R: running, se izvaja
- S: suspended, zaustavljen
- CA: canceled, preklican
- TO: timeout, časovna omejitev
- CG: completing, se zaključuje
- CD: completed, zaključen
- F: failed, v napaki
- CF: configuring, NF: node failure, RV: revoked, SE: special exit state, , …
- delavnica Osnove superračunalnišva
- rezervacija
--reservation=fri