diff --git a/Services/llamacpp/llamacpp-embedding.container b/Services/llamacpp/llamacpp-embedding.container index e1207f5..a23e6ac 100644 --- a/Services/llamacpp/llamacpp-embedding.container +++ b/Services/llamacpp/llamacpp-embedding.container @@ -18,7 +18,7 @@ Environment=LLAMA_ARG_PORT=8091 # Modello di embedding leggero (~274MB Q8), multilingua (funziona bene anche in italiano) # Alternativa: BAAI/bge-m3-GGUF per contesti multilingua più pesanti -Environment=LLAMA_ARG_HF_REPO=nomic-ai/nomic-embed-text-v1.5-GGUF:nomic-embed-text-v1.5.Q8_0.gguf +Environment=LLAMA_ARG_HF_REPO=nomic-ai/nomic-embed-text-v1.5-GGUF:Q6_K # Flag fondamentale: avvia llama-server in modalità embedding-only Environment=LLAMA_ARG_EMBEDDING=true @@ -31,6 +31,15 @@ Environment=LLAMA_ARG_CTX_SIZE=8192 Environment=HF_HOME=/root/.cache/huggingface Environment=HF_TOKEN=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 +# API Key — protezione accesso al server (da impostare anche in Odoo > AI > Embedding API Key) +# Può essere diversa da quella del container chat +# Decommentare per abilitare l'autenticazione +#Environment=LLAMA_API_KEY=la-tua-chiave-segreta + +# Model alias — nome con cui il server risponde alle richieste (campo "model" nell'API) +# Deve corrispondere al valore impostato in Odoo > AI > Embedding Model Name +#Environment=LLAMA_ARG_ALIAS=nomic-embed-text-v1.5 + [Service] Restart=on-failure # Avvio veloce: il modello è piccolo diff --git a/Services/llamacpp/llamacpp.container b/Services/llamacpp/llamacpp.container index ae0a81a..7502b8a 100644 --- a/Services/llamacpp/llamacpp.container +++ b/Services/llamacpp/llamacpp.container @@ -25,7 +25,15 @@ Environment=LLAMA_ARG_HF_REPO=unsloth/Qwen3-Coder-30B-A3B-Instruct-GGUF:Q2_K Environment=HF_HOME=/root/.cache/huggingface Environment=HF_TOKEN=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 -# Overide Boot +# API Key — protezione accesso al server (da impostare anche in Odoo > AI > API Key) +# Decommentare per abilitare l'autenticazione +#Environment=LLAMA_API_KEY=la-tua-chiave-segreta + +# Model alias — nome con cui il server risponde alle richieste (campo "model" nell'API) +# Se non impostato, llama-server usa il nome del file .gguf come alias +#Environment=LLAMA_ARG_ALIAS=chat + +# Override Boot #Entrypoint=/usr/bin/sleep #Exec=infinity