Operations
IT-Service-Übersicht
Service-Health · Incidents · Wartungen · Resource-Monitoring · Hetzner Falkenstein/Nürnberg
99.94%
Uptime 30T
99.94%
alle
Services
14/14
Ø 142ms
API-Latenz
142ms
geplant
Wartung 30.04.
2h
Service-Status
14 Services · live · letzte Aktualisierung vor 14 Sekunden
🌐 darion.ai (Frontend)
99.96% · 89ms
🔌 api.darion.ai
99.94% · 142ms
🐘 PostgreSQL
99.99% · 12ms
🔄 Redis Cache
99.98% · 0.8ms
🤖 LLM-Pool 1 (Llama)
99.92% · 1.4s avg
🌐 LLM-Pool 2 (BYOK)
via Anthropic API
📦 S3 / MinIO Storage
99.97% · 12.4 GB
📧 SMTP / Mailpit
99.91% · 142 mails/d
🔍 BGE-M3 Embeddings
99.95% · 89ms
⏰ Cron-Worker
100% · 24h Heartbeat
☁ Cloudflare CDN
99.99%
🔧 Backup-System
Wartung 30.04.
⚠ Aktuelle Incidents
letzte 30 Tage · 1 minor
✓ Keine offenen Incidents
grünLetztes Incident: vor 14 Tagen · resolved
DB Connection-Pool Exhaustion
resolved12.04. · 14:32 — 14:48 · 16 min · Pool von 50 → 100 erhöht
Post-Mortem: docs/incidents/2026-04-12.md
LLM-Pool 1 OOM
resolved28.03. · 3 min · GPU Memory-Limit erhöht
🔧 Geplante Wartungen
nächste 30 Tage
Backup-System Update
in 4T30.04.2026 · 02:00 — 04:00 (CET)
Restic 0.16 → 0.17 · keine User-Auswirkung
PostgreSQL Major-Update 16 → 17
in 18T14.05.2026 · 22:00 — 02:00 (CET)
Read-Only-Mode für ~30 Min · pg_upgrade
Hetzner Server-Reboot
in 25T21.05.2026 · 03:00 — 03:15
📊 Resource-Monitoring
Hetzner AX102 · CPU AMD Ryzen · 64 GB RAM · 2× 1.92 TB NVMe
CPU42%
Ø last 24h
RAM28 / 64 GB
43% genutzt
Disk487 / 1920 GB
25% genutzt
Network142 Mbps
von 1 Gbps
Backup-Status
Restic · 3-2-1-Strategie · GoBD-konform
Letztes Backupvor 2h 14min
12.4 GB · inkrementell · 142 MB delta · ✓ verifiziert
Lokal (NAS)
14 Tage
Hetzner Storage
90 Tage
Off-Site (B2)
7 Jahre
📅 Vollbackup täglich 03:00 · Inkrementell stündlich · Restore-Test wöchentlich Mo
Letzte Deployments
CI/CD via GitHub Actions
v2.4.1 → prod✓ 14:08
a3f9c2e · "Fix KI-Pool BYOK auth"
Frank · 2.4 min Deploy-Time
v2.4.0 → prod✓ gestern 11:42
b8e4f7a · "Add Audit-Log drill-down"
v2.3.9-rc → staging⚠ Test pending
c1d2e4b · "Refactor RAG indexing"
v2.3.8 → prod22.04. · 3T
d4e5a9c · "Bento-Grid für Dashboard"
Server-Logs · Live Tail
api.darion.ai · letzte 8 Events
14:32:14 [INFO] POST /api/contracts/ACM-001 → 200 (142ms)
14:32:08 [INFO] GET /api/dashboard → 200 (89ms)
14:31:42 [KI] Pool-1 inference start · 1.2K tokens
14:31:44 [KI] Pool-1 inference done · 1.4s · 894 tokens out
14:30:15 [INFO] GET /api/auth/session → 200 (12ms)
14:29:48 [WARN] Rate-limit warning · sess_8K4 · 89/100 req/min
14:28:22 [INFO] WS /ki-helfer · client connected
14:27:55 [INFO] Cron job 'invoice-import' completed · 3 items
Security-Status
letzte 24h · automatisch
✓SSL-Zertifikate
87 Tage gültig
✓Firewall (UFW)
aktiv
✓Fail2Ban
14 Bans heute
⚠npm audit
3 moderate
✓OS-Updates (apt)
aktuell
✓Pen-Test
Q1 ✓ 0 critical