Skip to main content

🖥️ Documentació de Virtualització: ymir.uab.cat

Aquest document detalla la infraestructura de l'hipervisor KVM/Libvirt al servidor ymir, que gestiona un entorn de nodes segmentats per a serveis de front-end i càrrega de dades (back-end).


1. Estat General de l'Hipervisor

  • Software: Libvirt gestionat des de Cockpit / AlmaLinux 8.
  • Estat global: ✅ Tots els dominis estan en execució (running).
  • Autostart: Configurat en totes les instàncies per garantir la continuïtat del servei després d'un reinici del host.

2. Inventari de Màquines Virtuals

El sistema està dividit en un node d'accés i quatre nodes de processament, tots ells executant Rocky Linux 8.

Nom VMIDvCPUsRAM ActualRAM MàximaOS (Variant)
sr-fe11816 GiB32 GiBRocky Linux 8
sr-be12832 GiB48 GiBRocky Linux 8
sr-be23832 GiB48 GiBRocky Linux 8
sr-be34832 GiB48 GiBRocky Linux 8
sr-be45832 GiB48 GiBRocky Linux 8

Resum de Recursos Compromesos

  • vCPUs Totals: 40
  • RAM Assignada (Actual): 144 GiB
  • RAM Màxima Possible: 224 GiB (via Memory Ballooning)

3. Configuració de Xarxa Virtual

El servidor utilitza una configuració de xarxa per defecte que permet la comunicació entre nodes i la sortida a internet.

  • Xarxa default:
    • Estat: Activa / Autostart.
    • Mode: NAT (Forwarding).
    • Bridge: virbr0.
    • DHCP: Range dinàmic gestionat internament per libvirt.

4. Detalls Tècnics de la Configuració (XML Deep Dive)

Totes les màquines virtuals segueixen un estàndard d'alt rendiment optimitzat per a la controladora del Dell PowerEdge R7615:

Perfil de Hardware Virtual (Tipus Q35)

  • Machine Type: pc-q35-rhel8.6.0 (Arquitectura moderna per a PCI Express i gestió d'energia).
  • CPU: Mode host-passthrough (permet que la VM vegi les instruccions directes del processador Dell R7615, ideal per a càlculs en Python).
  • Video: Model vga amb 16MB de VRAM.

Emmagatzematge Virtualitzat

  • Controladora de Disc: virtio-scsi (millor rendiment que IDE o SATA).
  • Format de Disc: qcow2 amb suport per a snapshots i estalvi d'espai.
  • Cache de Disc: Configurada en mode none amb io='native' per a una escriptura directa sobre el RAID5 de /dades.

5. Serveis de Gestió i Optimització

Per facilitar l'administració, s'han inclòs els següents canals de comunicació host-guest:

  1. QEMU Guest Agent: Actiu i connectat en tots els nodes. Permet la gestió neta d'usuaris, xarxes i snapshots des del host AlmaLinux.
  2. Virtio-Serial: Canal de comunicació dedicat per a la gestió de la VM.
  3. Memory Ballooning: Dispositiu virtio-balloon actiu per retornar RAM no utilitzada al host si és necessari.

Configuració del Node Frontend (sr-fe1)

  • OS: Rocky Linux 8.10.
  • RAM: 16GB (Assignada per garantir una planificació de consultes fluida).
  • Accessibilitat: Únic punt d'entrada via Port 9030 (SQL) i 8030 (Web).

⚙️ Infraestructura de Computació: StarRocks Backends

Aquest document descriu la configuració dels nodes de computació (sr-be1 a sr-be4) que sustenten les consultes analítiques de PATSTAT.

1. Especificacions dels Nodes

Cada node Back-end ha estat configurat de forma idèntica per garantir un rendiment homogeni del clúster:

  • CPU: 8 vCPUs (Optimitzat per a paral·lelisme de consultes SQL).
  • RAM: 32GB (Dedicada principalment al motor d'execució i memòria cau).
  • Xarxa: Interconnexió privada via 192.168.122.x (Trànsit aïllat).

2. Configuració del Motor (be.conf)

Paràmetres clau aplicats:

  • Port Heartbeat: 9050 (Sincronització amb el FE).
  • Port BRPC: 8060 (Intercanvi ràpid de dades entre nodes).
  • Storage Path: Localitzat en el volum de dades virtualitzat, configurat per a la persistència de segments columnars.

3. Topologia de Xarxa Virtual

L'arquitectura utilitza una separació de funcions:

  1. Frontend (sr-fe1): Rep les peticions externs (ports 8004/8002) i actua com a proxy.
  2. Backends (sr-be1-4): Executen la càrrega de treball pesada. No tenen exposició externa, actuant com una "caixa negra" de computació d'alt rendiment accessible només per l'hipervisor i el frontend.

4. Manteniment de Dades

Gràcies al Factor de Replicació 3, el sistema permet:

  • Reiniciar un node BE per a manteniment de l'SO (Rocky Linux) sense aturar el servei.
  • Recuperació automàtica de dades si un fitxer .qcow2 es corromp, ja que les dades es tornaran a copiar des dels altres 3 nodes.

Darrera actualització: 3 de Març de 2026
Eina de generació: Extracció de metadades via virsh dumpxml.