La intel·ligència artificial al vostre ordinador personal

Compartiu

🠄 Torna

Models d’intel·ligència artificial en català per a usar en local

Consell ràpid

Us indiquem els models de pesos lliures que funcionen millor en català.

A l’hora de triar un model, la memòria de què disposeu és el factor limitant més important. Més memòria, models més capaços.

Ara mateix, la nostra recomanació és:

Els models Gemma 3 com a models de llenguatge
El model Whisper medium per a fer transcripcions

A continuació us expliquem les raons per les quals triem aquests models, per si hi teniu interès.

Models de llenguatge grans

La nostra recomanació són els models Gemma 3.

Per a determinar quin model és millor, avaluem les tasques més comunes que fan els usuaris: reformulació, traducció, resums, etc.

Avaluacions dels models que hem provat

Model	Mida	Reformulació (sts_ca)	Gramàtica (catcola_mcc)	Preguntes i respostes (club_qa_em)	Resums (casum_rougeL)	Traducció anglès- català (flores_en2ca)	Traducció català – anglès (flores_ca2en)	Índex agregat
gemini-3.1-pro-preview	—	0.821	0.520	0.865	0.488	0.477	0.499	61.2
gemini-3-flash-preview	—	0.804	0.530	0.845	0.460	0.469	0.498	60.1
gpt-5.4	—	0.800	0.457	0.850	0.459	0.410	0.457	57.2
Qwen_Qwen3.5-9B	9B (9.6GB)	0.710	0.338	0.850	0.425	0.391	0.431	52.4
google_gemma-3-12b-it	12B (12.8GB)	0.682	0.332	0.815	0.371	0.424	0.470	51.6
mistralai_Mistral-Small-3.1-24B	24B (13.5GB)	0.755	0.183	0.815	0.433	0.419	0.465	51.2
google_gemma-4-26B-A4B-it Q8	26B (27.6GB)	0.723	0.200	0.838	0.427	0.404	0.444	50.6
EuroLLM-9B	9B (9.6GB)	0.771	0.154	0.830	0.413	0.430	0.433	50.5
google_gemma-4-26B-A4B-it Q4	26B (14.6GB)	0.704	0.183	0.840	0.427	0.398	0.440	49.9
Qwen_Qwen3-14B	14B (14.9GB)	0.750	0.381	0.807	0.260	0.347	0.446	49.9
google_gemma-4-E4B-it Q8	4B (4.2GB)	0.704	0.125	0.830	0.238	0.370	0.425	44.9
BSC-LT_-_salamandra-7b-instruct-gguf	7B (7.4GB)	0.510	0.090	0.807	0.423	0.401	0.450	44.7
Meta-Llama-3.1-8B	8B (8.5GB)	0.458	0.172	0.820	0.291	0.371	0.433	42.4
aya-expanse-8b	8B (8.5GB)	0.596	0.116	0.840	0.342	0.203	0.280	39.6

Tingueu en compte

Els models amb el nom en negreta no els podeu executar a l’ordinador i els incloem només com a referència. Aquests models requereixen entre 80 i 150 vegades més memòria i computació que els models que usem a l’ordinador.
Cal tenir en compte la mida del model. Un model 24B consumeix el doble que un 12B; llavors, més gran equival a més memòria.

Què mesurem?

sts_ca: mesura la capacitat de reformular frases.
catcola_mcc: mesura la capacitat del model de detectar si una frase en català és gramaticalment acceptable o no (classificació binària).
club_qa_em: mesura si el model extreu correctament la resposta d’un text de la Viquipèdia en català feta una pregunta.
casum_rougeL: mesura la capacitat de fer resums d’un text.
flores_en2ca / flores_ca2en : mesura la qualitat de la traducció automàtica en les direccions anglès → català i català → anglès.
índex agregat: és la mitjana de les puntuacions normalitzades de cada tasca d’avaluació. Cada puntuació es normalitza amb la fórmula (valor – baseline) / (1 – baseline), eliminant la variació aleatòria, i el resultat final s’expressa en percentatge (0–100).

En totes les mètriques, com més alt és el nombre, millor. Gràcies a Meta, i els projectes Aina i IberBench per proporcionar els conjunts de dades d’avaluació.

Models de transcripció

Actualment, hi ha models com ara Omnilingual ASR de Meta o Whisper d’OpenAI.
Nosaltres recomanem Whisper medium perquè té una bona qualitat, és ràpid i està molt ben suportat a un gran conjunt d’eines.

Si heu de transcriure programes de televisió o ràdio en català, el model whisper-large-v3-ca-3catparla del projecte Aina, entrenat amb 710 hores de TV catalana, pot donar millors resultats que el Whisper estàndard en aquest domini específic.

A sota teniu una avaluació feta amb 200 àudios d’exemple del corpus FLEURS. El WER indica el percentatge de paraules mal transcrites i el CER el de caràcters (com més baixos, millor). L’RTF indica el temps de processament (com més alt, més lent).

Avaluacions dels models que hem provat

Model	WER	CER	RTF
omniASR_LLM_3B	7.29%	2.68%	4.030
aina-whisper-large-v3a	6.33%	3.40%	2.589
gemma-4-E4B	23.41%	19.61%	5.054
omniASR_LLM_7B	5.62%	1.93%	6.131
Microsoft VibeVoice-ASR	9.84%	4.69%	4.515
whisper-tiny	38.33%	13.27%	0.085
whisper-base	24.33%	7.91%	0.155
whisper-small	13.06%	4.23%	0.454
whisper-medium	7.11%	2.45%	1.309
whisper-large-v3	4.41%	1.46%	2.389

En aquesta pàgina teniu les eines que hem utilitzat per a fer l’avaluació: https://github.com/Softcatala/ai-eval-catalan

⬅ Torneu a la pàgina la intel·ligència artificial al teu ordinador personal