La intel·ligència artificial al vostre ordinador personal

Compartiu

Models d’intel·ligència artificial en català per a usar en local

Consell ràpid

Us indiquem els models de pesos lliures que funcionen millor en català.

A l’hora de triar un model, la memòria de què disposeu és el factor limitant més important. Més memòria, models més capaços.

 Ara mateix, la nostra recomanació és:

  • Els models Gemma 3 com a models de llenguatge
  • El model Whisper medium per a fer transcripcions

A continuació us expliquem les raons per les quals triem aquests models, per si hi teniu interès.

Models de llenguatge grans

La nostra recomanació són els models Gemma 3.

Per a determinar quin model és millor, avaluem les tasques més comunes que fan els usuaris: reformulació, traducció, resums,  etc.

Avaluacions dels models que hem provat

Model Mida Reformulació (sts_ca) Gramàtica
(catcola_mcc)
Preguntes i respostes (club_qa_em) Resums
(casum_rougeL)
Traducció
anglès- català
(flores_en2ca)
Traducció
català – anglès
(flores_ca2en)
Índex agregat
gemini-3.1-pro-preview 0.821 0.520 0.865 0.488 0.477 0.499 61.2
gemini-3-flash-preview 0.804 0.530 0.845 0.460 0.469 0.498 60.1
gpt-5.4 0.800 0.457 0.850 0.459 0.410 0.457 57.2
Qwen_Qwen3.5-9B 9B (9.6GB) 0.710 0.338 0.850 0.425 0.391 0.431 52.4
google_gemma-3-12b-it 12B (12.8GB) 0.682 0.332 0.815 0.371 0.424 0.470 51.6
mistralai_Mistral-Small-3.1-24B 24B (13.5GB) 0.755 0.183 0.815 0.433 0.419 0.465 51.2
google_gemma-4-26B-A4B-it Q8 26B (27.6GB) 0.723 0.200 0.838 0.427 0.404 0.444 50.6
EuroLLM-9B 9B (9.6GB) 0.771 0.154 0.830 0.413 0.430 0.433 50.5
google_gemma-4-26B-A4B-it Q4 26B (14.6GB) 0.704 0.183 0.840 0.427 0.398 0.440 49.9
Qwen_Qwen3-14B 14B (14.9GB) 0.750 0.381 0.807 0.260 0.347 0.446 49.9
google_gemma-4-E4B-it Q8 4B (4.2GB) 0.704 0.125 0.830 0.238 0.370 0.425 44.9
BSC-LT_-_salamandra-7b-instruct-gguf 7B (7.4GB) 0.510 0.090 0.807 0.423 0.401 0.450 44.7
Meta-Llama-3.1-8B 8B (8.5GB) 0.458 0.172 0.820 0.291 0.371 0.433 42.4
aya-expanse-8b 8B (8.5GB) 0.596 0.116 0.840 0.342 0.203 0.280 39.6

Tingueu en compte

  • Els models amb el nom en negreta no els podeu executar a l’ordinador i els incloem només com a referència. Aquests models requereixen entre 80 i 150 vegades més memòria i computació que els models que usem a l’ordinador.
  • Cal tenir en compte la mida del model. Un model 24B consumeix el doble que un 12B; llavors, més gran equival a més memòria.

Què mesurem?

  • sts_ca: mesura la capacitat de reformular frases.
  • catcola_mcc: mesura la capacitat del model de detectar si una frase en català és gramaticalment acceptable o no (classificació binària).
  • club_qa_em: mesura si el model extreu correctament la resposta d’un text de la Viquipèdia en català feta una pregunta.
  • casum_rougeL: mesura la capacitat de fer resums d’un text.
  • flores_en2ca / flores_ca2en : mesura la qualitat de la traducció automàtica en les direccions anglès → català i català → anglès.
  • índex agregat: és la mitjana de les puntuacions normalitzades de cada tasca d’avaluació. Cada puntuació es normalitza amb la fórmula (valor – baseline) / (1 – baseline), eliminant la variació aleatòria, i el resultat final s’expressa en percentatge (0–100).

En totes les mètriques, com més alt és el nombre, millor. Gràcies a Meta, i els projectes Aina i IberBench per proporcionar els conjunts de dades d’avaluació.

Models de transcripció

Actualment, hi ha models com ara Omnilingual ASR de Meta o Whisper d’OpenAI.
Nosaltres recomanem Whisper medium perquè té una bona qualitat, és ràpid i està molt ben suportat a un gran conjunt d’eines.

Si heu de transcriure programes de televisió o ràdio en català, el model whisper-large-v3-ca-3catparla del projecte Aina, entrenat amb 710 hores de TV catalana, pot donar millors resultats que el Whisper estàndard en aquest domini específic.

A sota teniu una avaluació feta amb 200 àudios d’exemple del corpus FLEURS. El WER indica el percentatge de paraules mal transcrites i el CER el de caràcters (com més baixos, millor). L’RTF indica el temps de processament (com més alt, més lent).

Avaluacions dels models que hem provat

Model WER CER RTF
omniASR_LLM_3B 7.29% 2.68% 4.030
aina-whisper-large-v3a 6.33% 3.40% 2.589
gemma-4-E4B 23.41% 19.61% 5.054
omniASR_LLM_7B 5.62% 1.93% 6.131
Microsoft VibeVoice-ASR 9.84% 4.69% 4.515
whisper-tiny 38.33% 13.27% 0.085
whisper-base 24.33% 7.91% 0.155
whisper-small 13.06% 4.23% 0.454
whisper-medium 7.11% 2.45% 1.309
whisper-large-v3 4.41% 1.46% 2.389

En aquesta pàgina teniu les eines que hem utilitzat per a fer l’avaluació: https://github.com/Softcatala/ai-eval-catalan


⬅ Torneu a la pàgina la intel·ligència artificial al teu ordinador personal