Add new vars

2026-06-29 11:38:09 +02:00
@@ -18,7 +18,7 @@ Environment=LLAMA_ARG_PORT=8091

 # Modello di embedding leggero (~274MB Q8), multilingua (funziona bene anche in italiano)
 # Alternativa: BAAI/bge-m3-GGUF per contesti multilingua più pesanti
-Environment=LLAMA_ARG_HF_REPO=nomic-ai/nomic-embed-text-v1.5-GGUF:nomic-embed-text-v1.5.Q8_0.gguf
+Environment=LLAMA_ARG_HF_REPO=nomic-ai/nomic-embed-text-v1.5-GGUF:Q6_K

 # Flag fondamentale: avvia llama-server in modalità embedding-only
 Environment=LLAMA_ARG_EMBEDDING=true
@@ -31,6 +31,15 @@ Environment=LLAMA_ARG_CTX_SIZE=8192
 Environment=HF_HOME=/root/.cache/huggingface
 Environment=HF_TOKEN=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

+# API Key — protezione accesso al server (da impostare anche in Odoo > AI > Embedding API Key)
+# Può essere diversa da quella del container chat
+# Decommentare per abilitare l'autenticazione
+#Environment=LLAMA_API_KEY=la-tua-chiave-segreta
+
+# Model alias — nome con cui il server risponde alle richieste (campo "model" nell'API)
+# Deve corrispondere al valore impostato in Odoo > AI > Embedding Model Name
+#Environment=LLAMA_ARG_ALIAS=nomic-embed-text-v1.5
+
 [Service]
 Restart=on-failure
 # Avvio veloce: il modello è piccolo
@@ -25,7 +25,15 @@ Environment=LLAMA_ARG_HF_REPO=unsloth/Qwen3-Coder-30B-A3B-Instruct-GGUF:Q2_K
 Environment=HF_HOME=/root/.cache/huggingface
 Environment=HF_TOKEN=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

-# Overide Boot
+# API Key — protezione accesso al server (da impostare anche in Odoo > AI > API Key)
+# Decommentare per abilitare l'autenticazione
+#Environment=LLAMA_API_KEY=la-tua-chiave-segreta
+
+# Model alias — nome con cui il server risponde alle richieste (campo "model" nell'API)
+# Se non impostato, llama-server usa il nome del file .gguf come alias
+#Environment=LLAMA_ARG_ALIAS=chat
+
+# Override Boot
 #Entrypoint=/usr/bin/sleep
 #Exec=infinity