Pourquoi et comment désactiver Adblocks uniquement pour cowcotland.com ?

R�alisation d'un serveur IA avec RTX 5090 & AMD Epyc , page 5

Aller � la page : pr�c. 1 2 3 456 7 8 suiv.

Poster un nouveau sujet R�pondre au sujet

mini-pouce @
Eleveur bovin

30230pts

Inscrit le: 15 mai 2011
Messages: 11430

Navigateur :

Hors ligne

Post� le: 07 mars 2026 � 20:24

Message en retard d'une soeaine (tromp� se topic XD).

J'ai essay� ce week-end, faut penser � beaucoup de choses pour faire un truc assez complet.

Mais je me suis �gar� et j'ai vol� trop pr�t du soleil : j'ai tent� un pod d'un compose improvis� pour avoir l'IA et les bdd dans un stack.
Bizarrement �a n'a pas fonctionn�. 😆
Je d�couvre podman et apparemment le r�seau est g�r� diff�remment, faudra que je regarde �a de plus pr�t pour les faire communiquer .

Je retenterai un peu plus tard.

Si j'avance, suivez-moiSi je meurs, vengez-moiSi je recule, tuez-moi

0 pour,
0

OMGimag33k @
M�tayer

3560pts

Inscrit le: 25 septembre 2018
Messages: 1615

Navigateur : n.c.
Hors ligne

Post� le: 20 mars 2026 � 16:32

Hello,

J'avance tranquillement sur mes tests, la partie benchmarks est boucl�e.

Au del� des benchmarks, en travaillant sur de la r�daction de contenus techniques assez pointus j'ai pu me rendre compte qu'en fait il y a 3 mod�les qui sortent du lot et c'est un peu une comp�tition entre les grandes puissances de l'IA:

- Magistral small-2509 en Q8_0, le LLM fran�ais est � la fois l�ger et polyvalent. Il est id�al pour des contenus pas trop longs sans �xigences techniques trop pouss�es.
- gpt-oss 120b, le mod�le d'OpenAI date de l'�t� 2025, une �ternit� dans le monde des LLMs mais il donne encore d'excellents r�sultats m�me s'il n'est pas � jour puisque son entra�nement initial s'arr�te en 2024.
- Qwen3.5 122B A10B en Q6_K_XL ou en Q8_0, la derni�re version du mod�le d�velopp� par Alibaba est un monstre d'efficacit�. Il g�re parfaitement les prompts les plus complexes, les analyses techniques pouss�es et il est rarement mis en d�faut. Le seul probl�me est que sa grande taille n�cessite un offloading assez lourd faisant perdre de la vitesse d'inf�rence, en optimisant les r�glages j'ai pu le faire tourner autour de 10 TPS

Donc en gros, Magistral pour un usage l�ger ou de la production de contenu rapide en grande quantit�, gpt-oss pour des prompts un peu plus complexes mais il faut l'alimenter en informations r�centes sur certains sujets, et Qwen3.5 pour du travail de fond et des prompts tr�s techniques.

J'ai �galement test� le dernier Nemotron-3-super de nvidia, pas extraordinaire, Minimax-m2.5 mais il sort du chinois au milieu du texte un peu comme quand deepseek hallucine (plus adapt� pour du code apparemment) et Kimi K2.5 de Moonshotai. Ce dernier est bien mais trop lourd, �a tourne � 4 TPS pour un r�sultat moins bon qu'avec Qwen.

Sinon les prix de la RAM serveur semblent se tasser un peu, et amorcer une l�g�re baisse. On �tait sur du X7, l� c'est X4 donc je vais suivre �a pour voir si je peux investir dans un stick de RAM d'ici quelques mois.

Vu mon utilisation id�alement il me faudrait un GPU avec davantage de vRAM. Il y a la RTX Pro 5000 mais 5000� �a fait cher pour gagner juste 16 Go de vRAM en plus et elle est moins puissante que la 5090. Le GPU id�al serait la RTX Pro 6000 Blackwell en Workstation Edition, en gros c'est comme une RTX 5090 mais en l�g�rement plus puissant et avec le triple de vRAM. Bon par contre le tarif est � 10000�, je vais continuer � travailler sur l'optimisation du setup actuel.

0 pour,
0

Oursatomix @
Ouvrier agricole

256pts

Inscrit le: 03 mars 2021
Messages: 118

Navigateur : n.c.
Hors ligne

Post� le: 21 mars 2026 � 12:47

Et pourquoi pas 2 5090 ?

L'offloading c'est le fait de charger / d�charger la Vram au fur et � mesure de l'usage ? Et si c'est cela... c'est du coup plac� temporairement en ram ?

1 pour,
1

OMGimag33k @
M�tayer

3560pts

Inscrit le: 25 septembre 2018
Messages: 1615

Navigateur : n.c.
Hors ligne

Post� le: 21 mars 2026 � 14:13

Salut,

Une seconde 5090 serait tr�s bien, mais:

- �a ne rentre pas physiquement sur la carte m�re actuelle et dans le boitier, il faudrait changer de boitier et mettre en place un syst�me avec des risers
- �a oblige � passer sur une alimentation plus puissante
- actuellement la 5090 FE n'est pas dispo, il faut compter 3000� ou plus pour les cartes AIB
- au final la consommation globale du rack va tellement augmenter que je devrais passer sur un onduleur plus puissant

Mais LM Studio g�re le multi-GPU, donc l'ajout d'un second GPU est une option � �tudier par la suite.

Oui l'offload c'est le fait de charger en partie un gros mod�le en RAM lorsqu'il est trop gros pour la VRAM.

1 pour,
1

Oursatomix @
Ouvrier agricole

256pts

Inscrit le: 03 mars 2021
Messages: 118

Navigateur : n.c.
Hors ligne

Post� le: 21 mars 2026 � 20:48

Oui, pour les boitiers � un moment il faut viser l'armoire (normande) !

Pour la conso il me semble qu'elle n'augmente que tres peu car sur les gpu additionnel seul est utilis� leur capacit� en m�moire.

Et pourquoi des 5090 ? question de quantification ? Je d�bute et j'ai opt� pour des 3090 d,occasion car on peut en avoir 4 � 5 pour le prix d'une 5090 !

LM Studio j'avais lu que tu disais...heu.. oui, plus complet. Je vais essayer un jour. Mais je persevere � galerer avec ollama web ui sous linux alors que je suis un noob !!!

Maintenant l 'histoire du off loading m'interesse. J'utilise magistral que je trouve top aussi. Et Qwen tout le monde semble tellement unanime il va falloir que je regarde. Mais j'utilise un plus petit modele ou je tente le 122 aveec mes 48Go de vram et 64 de RAm ? j'ai un kit de ram en rab et en vente mais peut-etre devrais-je alors l'utiliser pour 128GO ? Apres sur du z790 je ne sais pas si c'est pertinent 4 sticks.

0 pour,
0

mini-pouce @
Eleveur bovin

30230pts

Inscrit le: 15 mai 2011
Messages: 11430

Navigateur :

Hors ligne

Post� le: 22 mars 2026 � 10:42

Ca va d�pendre comment est utilis� ton GPU.
De pr�f�rence il faut suffisemment subdiviser les couches pour ne pas utiliser que la RAM mais aussi sa puissance de calcul.
Et dans ce cas la conso sera proporitionnelle � sa contribution.
Maintenant n'ayant jamais utilis� �a, je ne sais pas si dans un sc�nario typique les 2 GPU sont suffisemment utilis�s en m�me temps auquel cas tu pourrais avoir raison.

Tr�s diff�rent mais pas difficile � prendre en main.
A vrai dire, surtout sur win, je trouve �a plus simple de d�buter avec LMstudio.
Il est complet et l'interface est tr�s claire, en 5 min tu peux jouer avec.
OWUi joue sur quelque chose de diff�rent car plus proche des applis de chat, avec toute la complexit� que �a implique.

Commence par des petits mod�les pour comprendre et te faire la main mais aussi voir leur limite.
En plus si tu passes sur la RAM syst�me sur une plateforme grand publique la performance va s'effondr�e !
En gros sur des mod�les types 20-30b tu dois faire du 30 tk/s en int8 mais si tu passes par le CPU tu seras plut�t vers 10.

4 stick c'est pertinent d�s lors que tu as besoin de la m�moire, ce dont je doute un peu.

Si j'avance, suivez-moiSi je meurs, vengez-moiSi je recule, tuez-moi

1 pour,
1

OMGimag33k @
M�tayer

3560pts

Inscrit le: 25 septembre 2018
Messages: 1615

Navigateur : n.c.
Hors ligne

Post� le: 22 mars 2026 � 13:25

Bonjour,

Alors je vais essayer de r�sumer les infos utiles essentielles, j'en avais d�j� mis en page 1 de ce thread mais j'ai compris d'autres choses en avan�ant dans mes tests:

- A partir du moment ou on utilise un mod�le qui ne rentre pas int�gralement en vRAM, on perd �norm�ment en performances et plus on offload plus on perd. Ce tableau est assez repr�sentatif:

L'offloading consiste � avoir certaines couches du LLM en vRAM et d'autres en RAM. En gros, lorsqu'on offload le GPU calcule ses couches tr�s vite, puis il attend que le CPU calcule ses couches, limit� par sa bande passante m�moire et on se retrouve donc avec un GPU load moyen peu �lev� et des performances en retrait par rapport � la puissance de calcul r�elle du GPU qui n'est pas pleinement exploit�e.

- Lorsqu'on offload ou lorsqu'on fait de l'inf�rence via le CPU, la bande passante m�moire est le vrai bottleneck. A ce niveau, il y a 3 types de setup. Le setup reposant sur une carte m�re grand public/gaming, avec une bande passante m�moire limit�e. Le setup typ� workstation avec une bande passante m�moire interm�diaire plus �lev�e. Et pour finir, le setup reposant sur une plateforme serveur avec un nombre �lev� de canaux m�moire, donc la possibilit� d'atteindre une bande passante m�moire �lev�e si tous les slots RAM sont peupl�s.

Par exemple:

Z790 (grand public/gaming)
1 stick Single Channel ~44,8 Go/s
2 sticks Dual Channel ~89,6 Go/s (Maximum du CPU)
4 sticks Dual Channel ~89,6 Go/s (Ajouter plus de 2 sticks n'augmente pas la bande passante, cela augmente seulement la capacit�)
Threadripper 9960X (workstation)
2 sticks Dual Channel ~89,6 Go/s
4 sticks Quad Channel (Optimal) ~179,2 Go/s (Ajouter plus de 4 sticks n'augmente pas la bande passante, cela augmente seulement la capacit�)
8 sticks Quad Channel (2 DPC*) ~179,2 Go/s
H14SSL-N (serveur)
2 sticks Dual Channel ~76,8 Go/s
4 sticks Quad Channel ~153,6 Go/s
6 sticks 6-Channel (Balanced) ~230,4 Go/s
8 sticks 8-Channel ~307,2 Go/s
12 sticks 12-Channel (Optimal) ~460,8 Go/s

En comparaison, la bande passante m�moire des GPUs:

RTX 5090 1792 GB/s
NVIDIA RTX PRO 6000 Blackwell Workstation Edition 1792 GB/s
RTX PRO 5000 Blackwell 1344 GB/s
RTX 4090 1008 GB/s
RTX 3090 936 GB/s
RTX PRO 4500 Blackwell 896 GB/s
RTX PRO 4000 Blackwell 672 GB/s
RTX 2080 TI 616 GB/s

Il est possible de faire tourner de tr�s gros mod�les sur des plateformes serveur avec un CPU ayant un nombre de cores �lev� et beaucoup de RAM, m�me sans GPU. Mais on voit que m�me une RTX PRO 4000 Blackwell � 1800� offre 1.5 fois plus de bande passante m�moire qu'une plateforme serveur EPYC remplie avec 12 barrettes de RAM qui co�te 5 � 10 fois plus cher aux tarifs actuels. Donc actuellement pour faire tourner des LLMs de taille moyenne c'est plus rentable d'investir dans un ou plusieurs GPUs.

- lorsqu'on offload ou lorsqu'on fait de l'inf�rence via le CPU, ce qui compte n'est pas d'avoir un CPU ultra puissant en multithread mais d'avoir un nombre de cores �lev�. Il existe quelques optimisations sp�cifiques multithread comme AMD ZenDNN mais dans la plupart des cas on obtient les meilleurs r�sultats en faisant travailler l'inf�rence sur le nombre de cores physiques du CPU, si on ajoute plus de threads que le nombre de cores on augmente le load CPU mais on perd en performances, les tokens/s baissent.

Voil� donc pour r�sumer, l'id�al est d'avoir un GPU avec beaucoup de vRAM mais �a co�te cher. Utiliser plusieurs GPUs peut �tre int�ressant, je n'ai pas eu l'occasion de tester mais il va y avoir un bridage au niveau du PCIe pour le multi GPU. Il est �galement possible d'obtenir de bons r�sultats en travaillant avec une plateforme serveur purement en CPU, dans ce cas il faut privil�gier un nombre de cores �lev� et remplir un maximum de slots de RAM, pas forc�ment pour faire rentrer un mod�le �norme en RAM mais surtout pour avoir la bande passante la plus �lev�e possible.
Malheureusement, les prix de la RAM serveur sont tellement �lev�s � l'heure actuelle que �a revient moins cher d'acheter une RTX Pro Blackwell par rapport au co�t d'une plateforme orient�e serveur avec tous les slots de RAM peupl�s. Et quand on offload, on fait forc�ment des compromis et on perd en performances mais c'est in�vitable si on veut faire tourner des gros mod�les � moindre co�t. Une plateforme typ�e grand public associ�e � un GPU pro ayant beaucoup de vRAM peut d'ailleurs �tre un compromis int�ressant pour le rapport prix/perfs. Apr�s c'est une question de budget et de besoins, par exemple pour mon utilisation je peux me contenter d'avoir un tr�s bon mod�le qui tourne seulement � 10 TPS, m�me si �a met 10 minutes pour travailler sur un texte ce n'est pas un souci. Par contre si je devais sortir 100 textes par jour l� �a serait int�ressant d'investir dans un GPU avec plus de vRAM.

2 pour,
2

OMGimag33k @
M�tayer

3560pts

Inscrit le: 25 septembre 2018
Messages: 1615

Navigateur : n.c.
Hors ligne

Post� le: 07 avril 2026 � 14:52

Hello,

Quelques news du serveur IA. Je devrais pouvoir ajouter un 6�me stick de RAM histoire de remplir la moiti� des canaux et gagner en bande passante m�moire, �a donnera la possibilit� de charger des plus gros mod�les pour des tests et aussi de gagner en performances d�s qu'il y a de l'offload donc dans quasiment 80% de mes utilisations.

Sinon j'ai test� Gemma 4 vite fait aujourd'hui, en 31B Q8_0 Unsloth. J'ai privil�gi� la qualit� � la vitesse, une version Q6_K aurait pass� dans les 32 Go de vRAM sans offload mais je voulais voir ce que le mod�le peut sortir en qualit� �lev�e. Gemma 4 est vraiment un bon mod�le, performant et polyvalent. Il est meilleur que Magistral, il est largement plus � jour dans ses donn�es par rapport � GPT-OSS donc il a de s�rieux atouts. Mais par contre � l'usage il est quand m�me moins bon que Qwen 3.5 122B-A10B qui reste mon LLM de r�f�rence en ce qui concerne la r�daction technique pure. A voir � l'usage, Gemma 4 en Q6 doit �tre parfait pour d�biter du contenu g�n�raliste de qualit� moyenne en gros volume.

0 pour,
0

mini-pouce @
Eleveur bovin

30230pts

Inscrit le: 15 mai 2011
Messages: 11430

Navigateur :

Hors ligne

Post� le: 07 avril 2026 � 20:46

C'est surtout la capacit� qui fera la diff�rence.
Je n'ai pas prix le temps de r�agir mais m�me si beaucoup en avant la bande passante ne fait pas tout, en particulier sur l'exemple des CG ( avec la gen de coeur, les formats prix en compte, le support logiciel, etc...).

J'ai eu l'occasion de tester pas mal de CG pro ( bon pas extensivement ) et genre Amp�re, volta et m�me Ada �a se comporte pareil alors que pas du tout les m�me specs.m notamment en BP.
Ce qui comptera c'est le FP32 et pour les gen plus r�cente le Int ou moins.

J'avais test� du xeon en 2P2C et je ne me rappelle pas avoir vu de diff notable, de m�me que sur une autre machine en ayant 2/3 des slots.
A l'occasion je pourrais peut �tre tester sur un epyc si vraiment �a vous botte.

J'ai tat� le Qwen et �a m'a vraiment surpris, le model de 30 GB est un des meilleurs mod�les que j'ai test� sur du matos abordable et il est rapide !
Il a l'air de bien support� le Q4 aussi.
GPT OSS en dehors du 120B ne me paraissait pas aussi bon, pareil pour deepseek du pauvre (Q2 ou autre mod�le entr� avec + m�chanisme de pens�e).
�a commence � �tre utilisable. :)

Si j'avance, suivez-moiSi je meurs, vengez-moiSi je recule, tuez-moi

2 pour,
2

OMGimag33k @
M�tayer

3560pts

Inscrit le: 25 septembre 2018
Messages: 1615

Navigateur : n.c.
Hors ligne

Post� le: 07 mai 2026 � 14:18

Bonjour,

Oui les performances d�pendent de tous les composants de la machine, il doit y avoir un bon �quilibre global entre la puissance du CPU, la fr�quence, le nombre de cores, la quantit� de RAM, sa vitesse, la bande passante m�moire, la vitesse de lecture depuis le ou les SSDs pour charger les mod�les, la puissance du GPU, sa capacit� de vRAM, sa bande passante m�moire... Une capacit� de RAM plus importante va permettre de charger de plus gros mod�les, mais n'am�liorera pas les performances. Une bande passante m�moire plus �lev�e fait gagner en performances, mais ne permet pas de charger un plus gros mod�le. Dans les faits, sur une plateforme serveur les 2 sont li�s puisqu'il y a plus de canaux m�moire, chaque ajout d'un stick de RAM permet de gagner � la fois en capacit� et en bande passante m�moire.

Apr�s moult p�rip�ties, j'ai enfin pu upgrade le serveur avec un 6�me stick pour atteindre 384 Go de DDR5. Maintenant �a commence � �tre vraiment une configuration bien polyvalente pour diff�rentes t�ches IA.

Mes tops mod�les actuels:

- Mistral medium 3.5 128B, le dernier Mistral est tr�s bon mais aussi tr�s lourd, je l'utilise ponctuellement en Q6_K Unsloth et il tourne tout juste � 2 TPS donc je le laisse sur une g�n�ration de texte pendant que je vais manger le midi. J'ai test� en Q4_K_XL c'est quasiment pareil niveau vitesse.
- Qwen 3.5 122B A10B en Q8_0 reste la r�f�rence pour mon utilisation, des textes au top � 10 TPS environ
- GPT OSS 120B commence � dater, ses donn�es ne sont plus � jour mais avec un prompt bien carr� et des fichiers en source il s'en sort toujours assez bien autour de 25 TPS
- Magistral Small 2509 tourne tr�s bien, 55 TPS en Q8_0 et il sort des textes de qualit� correcte malgr� quelques petites hallucinations
- Gemma 4 31B en Q8_0, moins rapide que Magistral � 14 TPS mais il sort de meilleurs textes

Voil�, Qwen 3.6 n'est toujours pas sorti en 122B et sinon j'attends les prochaines mises � jour de llama.cpp pour pouvoir tester Deepseek V4 Flash mais je n'attends pas de miracles car non seulement c'est un mod�le �norme en 284B mais en plus il s'agit d'une preview, le LLM n'est pas finalis� donc il doit pas mal halluciner. Deepseek V4 Pro va �tre un vrai monstre: 1600B au lieu de 685B sur le 3.2. Il va falloir le distiller et le compresser � mort pour le faire tourner sur des petits serveurs. La version text generation est en 862B, en Q4 �a pourrait passer tout juste sur mon serveur.

1 pour,
1

Oursatomix @
Ouvrier agricole

256pts

Inscrit le: 03 mars 2021
Messages: 118

Navigateur : n.c.
Hors ligne

Post� le: 07 mai 2026 � 19:30

Suite � tes post j'ai �t� curieux d'essayer Qwen dont j'entends toujours du bien. Ne faisant pas tourner des mod�les si gros j'ai utiliser qwen3.6:35b et je dois avouer que c'est bluffant.

Je me perds un peu dans les ministal, mistral small etc etc. Et je constate surtout qu'il n'ont pas pers�v�r� dans l'optique Mixtral avec cette segmentation en plusieurs pool de donn�es qui permettait de faire tourner un "gros modele" sur une machine modeste.

Je suis toujours avec int�r�t ce fil m�me si ma pratique actuellement ne consiste qu'a �valuer la pertinence des r�ponses aux questions/problemes que je soumets � ces diff�rents modeles. ... Non c'est un peu r�ducteur... Si je ne m'en sers pas encore por des taches d'assistant, ca remplace dej� tous les forums techniques , l�encyclop�die, et permet d'�changer avec un expert dans toute demarche intellectuelle .

Tout cela est passionnant.

1 pour,
1

OMGimag33k @
M�tayer

3560pts

Inscrit le: 25 septembre 2018
Messages: 1615

Navigateur : n.c.
Hors ligne

Post� le: 10 mai 2026 � 14:12

Bonjour,

Oui il faut faire attention quand m�me, sur des demandes techniques pointues l'IA ne remplace pas totalement les forums. Le mod�le n'a pas la compr�hension technique, il agr�ge des informations de diff�rentes sources sans vraiment les comprendre. Dans le cadre de mon utilisation, je suis justement amen� � travailler sur des contenus techniques et l'IA donne des r�ponses correctes 9 fois sur 10 mais il y a toujours des erreurs visibles pour les lecteurs humains qui connaissent les sujets, parfois m�me des choses compl�tement invent�es. Il faut syst�matiquement v�rifier et reprendre les contenus manuellement. Et l'IA ne remplace pas le conseil d'une personne exp�riment�e sur un sujet sp�cifique, le forum conserve cette possibilit� d'�changer avec un vrai sp�cialiste, c'est quand m�me plus sympa qu'un bot 😁

J'avance dans mes tests et j'ai essay� un mod�le assez �norme, comme �a passait en offload je voulais juste voir si c'�tait utilisable et j'ai eu une bonne surprise. Qwen 3.5 397B A17B en Q6_K Unsloth tourne � 5.6 TPS. C'est 2 fois moins vite que Qwen 3.5 122B et plus rapide que Mistral medium 3.5 128B, plus ou moins entre les deux. Je ne suis pas totalement satisfait de la qualit� du texte, mais pour tester en Q8_0 il faudrait rajouter de la RAM 😅 Je surveille la RAM serveur, c'est toujours tr�s tendu.

Dans les prochaines semaines, LM Studio et llama.cpp devraient pouvoir int�grer la possibilit� d'utiliser un mod�le draft / assistant pour Qwen 3.5 et pour booster Gemma 4 avec le speculative decoding (MTP): Pr�diction multi-jetons (MTP) Gemma 4 � l'aide de Hugging Face Transformers. On ajout� � cela le support de Deepseek V4 et une possible int�gration de TurboQuant ou �quivalent PolarQuant pour r�duire la consommation de RAM du contexte, les choses �voluent vraiment tr�s vite dans l'IA ces temps-ci.

Il y avait eu pas mal d'articles l� dessus disant que Google avait invent� une nouvelle technologie qui allait r�duire les besoins en RAM pour l'IA, bon dans les faits c'est une m�thode de compression propri�taire qui permettra, sous r�serve d'impl�mentation, de r�duire la consommation de RAM du contexte avec une compression virtuellement sans perte par rapport au FP16 original. Mais dans tous les cas il faut toujours de la RAM pour charger le mod�le donc sauf utilisation sur des contextes �normes le gain ne sera pas forc�ment ph�nom�nal.

0 pour,
0

OMGimag33k @
M�tayer

3560pts

Inscrit le: 25 septembre 2018
Messages: 1615

Navigateur : n.c.
Hors ligne

Post� le: 11 mai 2026 � 12:35

Bonjour,

Je viens de voir que Mistral fournit un mod�le draft pour medium 3.5: Mistral Medium 3.5 128B EAGLE. Il faudra attendre un peu pour que des contributeurs fassent un GGUF sur Hugging Face. Medium 3.5 est un mod�le dense, contrairement aux mod�les MoE tous les param�tres sont activ�s lors de l'inf�rence, c'est pour �a qu'il est un peu plus lent mais il n'est pas "reasoning" donc sur la dur�e totale pour g�n�rer un texte �a reste correct.

J'ai trouv� un site int�ressant, avec un classement des LLMs d'apr�s les r�sultats de diff�rents benchmarks: Independent analysis of AI

On note des choses int�ressantes:

- Les top LLMs du classement sont des mod�les propri�taires
- Les top LLMs du classement sont des mod�les "reasoning" (thinking)
- Les LLMs ouverts les mieux class�s sont des mod�les tr�s lourds, entre 744B et 1600B
- Les LLMs ouverts les mieux class�s sont des versions r�centes, �a �volue tr�s vite
- Les LLMs ouverts les mieux class�s sont tous des mod�les chinois, on voit bien la diff�rence de strat�gie entre les soci�t�s US qui veulent vendre leurs abonnements et la Chine qui utilise l'open source pour pr�server l'ind�pendance de sa technologie

Parmi les mod�les ouverts, les mieux class�s sont:

- Kimi K2.6 1000B: je ne peux pas le tester, en Q6_K le mod�le fait 842 Go, c'est �norme. Je peux tout juste essayer une IQ2 ou Q2 mais le niveau de compression est �lev�, � voir
- MiMo-V2.5 Pro 1023B: trop gros aussi
- DeepSeek V4 Pro 1600B: pas encore utilisable, il faut attendre une mise � jour de llama.cpp mais de toute mani�re le mod�le est trop �norme, 1.6 To en Q8_0
- GLM 5.1 744B: autour de 800 Go en Q8_0, trop gros m�me en Q4 �a ne passe pas sur mon serveur
- GLM 5 744B: m�me punition, mod�le trop gros
- MiniMax M2.7 230B: tourne � 8.5 TPS en Q8_0, super qualit� mais quelques coquilles
- MiMo-V2.5 310B: pas pu le tester, il faut attendre les mises � jour
- Kimi K2.5 1000B: j'avais test� en IQ2_XXS, bonne qualit�, autour de 4.6 TPS mais � l'usage je ne veux pas travailler sur des mod�les en dessous de Q4, �a perd en coh�rence et en pr�cision
- DeepSeek V4 Flash 284B: j'attends la mise � jour pour le faire tourner
- Qwen3.5 397B A17B: j'ai test� en Q6_K, pas mal du tout

Et ensuite on trouve dans le classement des mod�les non thinking, et des LLMs un peu plus anciens.

En r�sum�, en 2026 si l'on veut pouvoir faire tourner en local une IA avec un niveau de qualit� approchant celui des mod�les payants comme GPT 5.5, Claude Opus 4.7 ou Gemini Pro; il faut utiliser de tr�s gros mod�les et donc avoir une machine avec beaucoup de RAM. A partir de 256 � 512 Go de RAM, on commence � pouvoir rivaliser avec les mod�les commerciaux en terme de qualit� de l'IA.

Les benchmarks c'est une chose, mais apr�s �a va aussi d�pendre des utilisations. Il faut donc tester plusieurs mod�les pour trouver celui qui convient le mieux selon les besoins.

2 pour,
2

funkydata @
M�tayer

4934pts

Inscrit le: 12 septembre 2014
Messages: 3181

Navigateur : n.c.
Hors ligne

Post� le: 11 mai 2026 � 13:07

J'ai l'impression en lisant tes derniers posts que finalement l'IA locale dans un �cosyst�me personnel est une chim�re malgr� le GGUF et la quantisation et malgr� ce que beaucoup veulent faire croire.

M�me sur ton serveur tr�s on�reux et inaccessible � quasi toutes les bourses tu sembles tr�s limit�, surtout sur les mod�les "open".

Finalement l'IA locale sur la machine de monsieur tout le monde c'est, pour sch�matiser, une encyclop�die interactive qui te bouffe toute ta RAM et qui peut se tromper. Bon j'exag�re un peu mais � peine.

Finalement je ne sais pas si la m�thode chinoise est la bonne puisque tu devras payer d'une mani�re ou d'une autre l'acc�s a de couteuses infrastructures pour utiliser leurs mod�les aux besoins gargantuesques. C'est pas avec nos machines qu'on va faire tourner �a, m�me en GGUF Q2.

1 pour,
1

OMGimag33k @
M�tayer

3560pts

Inscrit le: 25 septembre 2018
Messages: 1615

Navigateur : n.c.
Hors ligne

Post� le: 11 mai 2026 � 15:38

Faire tourner de l'IA en local pr�sente de nombreux int�r�ts, entre autres:

- on n'envoie pas ses donn�es et son historique, nos informations ne seront pas utilis�es pour entra�ner les IA, pour du ciblage publicitaire ou autre

- on peut faire tourner des mod�les sp�cifiques, non censur�s ou sp�cialement entra�n�s et optimis�s

- on peut faire tourner des syst�mes IA offline

- on n'est pas soumis aux variations des conditions tarifaires et des TOS des grandes soci�t�s de la tech

- pour certaines utilisations sensibles, il est interdit d'envoyer les donn�es sur les des serveurs aux Etats-unis ou en Chine (RGPD, stockage des donn�es en Europe etc)

Des mod�les 0.5B peuvent tourner sur des smartphones ou des Raspberry Pi.

Sur une plateforme type PC gaming, on peut faire tourner des mod�les entre 30B et 70B avec une quantization correcte. Cela suffit largement pour la plupart des utilisations basiques et m�me pour des agents type classement d'emails, r�sum�s de textes etc...

Sur une plateforme serveur comme celle que j'utilise, je peux faire tourner des mod�les jusqu'� 70B � vitesse �lev�e et 200B � 300B environ � vitesse mod�r�e, tant que je n'ai pas besoin de sortir des millions de tokens par jour �a va. M�me si la vitesse n'est pas �norme, �a convient pour mon utilisation.

Pour faire tourner en local des mod�les de 1000B et plus il faut du mat�riel bien plus cher, surtout quand on voit les prix de la RAM actuellement. Si on part sur un serveur en dual socket Epyc avec 1 To de DDR5 ou plus, beaucoup de stockage NVMe et plusieurs GPUs RTX Pro Blackwell il faut compter 150k� environ. Cela peut sembler beaucoup mais � ce tarif on peut faire tourner les LLMs les plus performants au monde, l'�quivalent d'un Gemini Pro sans envoyer la moindre donn�e � Google, pour beaucoup d'entreprises c'est un investissement qui a du sens.

L'approche de la Chine est dict�e par 2 choses, de ce que j'ai compris. Tout d'abord l'embargo sur les GPUs et puces IA les a oblig�s � optimiser les ressources. Ils ont d�velopp� des technologies tr�s efficaces car ils n'avaient pas le hardware de pointe dont disposaient les USA (enfin officiellement, on a vu qu'en fait ils avaient quand m�me des bons gros serveurs et Supermicro a des soucis en ce moment � cause de �a). Cela les a �galement oblig�s � se passer le plus possible de tout ce qui repose sur du software US, donc ils se sont tourn�s vers l'open source. Et puis leur strat�gie est de fournir de l'IA � des tarifs tr�s comp�titifs, par exemple les tokens Deepseek V4 Pro sont 5 � 10 fois moins cher que sur GPT 5.5. Cela peut s'expliquer par une plus grande efficacit� des mod�les MoE dont les chinois sont experts. Mais le fait de donner les LLMs en acc�s ouvert n'est pas innocent. Ils sont pr�ts � investir � perte pour concurrencer OpenAI, Anthropic, Google etc leur objectif est que les utilisateurs adoptent leur technologie dans un premier temps.

Ce qui est int�ressant, c'est tout ce qui est apport� par la communaut� de l'IA. Des mod�les trop gros sont modifi�s, par exemple on prend un mod�le 700B, on enl�ve le traitement des images, on l'optimise et on divise son poids par 2 pour le faire tourner sur des machines moins puissantes. Ensuite, le mod�le peut encore �tre distill� pour s'approcher du mod�le original en �tant beaucoup plus l�ger.

En fin de compte, faire tourner l'�quivalent du dernier chat GPT sur son PC perso n'est pas possible, il faut du mat�riel professionnel pour cela mais peu de gens ont besoin de faire tourner des mod�les 1000B en local. Entre 0.05B et 30B il existe des dizaines de LLMs qui peuvent fonctionner sur des PCs basiques / gaming. Faire tourner des mod�les 1000B r�pond � un besoin professionnel, dans ce cas il faut des serveurs entreprise. Et entre les 2 il y a les TPE/PME, les dev IA ind�pendants, les AI enthusiasts, avec des workstations et des serveurs IA de niveau interm�diaire.

1 pour,
1

Poster un nouveau sujet R�pondre au sujet

Aller � la page : pr�c. 1 2 3 456 7 8 suiv.

Sauter vers:

Vous ne pouvez pas poster de nouveaux sujets dans ce forum
Vous ne pouvez pas r�pondre aux sujets dans ce forum
Vous ne pouvez pas �diter vos messages dans ce forum
Vous ne pouvez pas supprimer vos messages dans ce forum
Vous ne pouvez pas voter dans les sondages de ce forum

Sujet		Auteur	Forum	R�ponses	Post� le
Sujets similaires
	[EST] RTX 3090 Ventus 3X 24G OC	Ghandy582	Estimations	4	29 mai 2026 � 09:04
	[Probl�me] Serveur Local D�di� - Enshrouded	Dwarfcherry	GameLand	33	27 mai 2026 � 15:07
	Test ASUS ProArt GeForce RTX 5090 OC Edition : sobri�t� U...	jonh	Cartes Graphiques	0	21 mai 2026 � 09:30
	Test MSI GeForce RTX 5090 32G LIGHTNING Z : exceptionnell...	jonh	Cartes Graphiques	0	18 mai 2026 � 13:21
	Forza Horizon 6 : bilan des performances avec 14 cartes	jonh	Cartes Graphiques	0	14 mai 2026 � 12:00

Dernières actualités

voir +

Probl�me de RAM ou pire... [ CPU, Cartes m�res, RAM ]
TWOwowo il y a 4 heures.
Forza Horizon 6 [ GameLand ]
NeoAxle il y a 5 heures.
Besoin d'aide �volution r�seau domestique [ R�seau ]
mini-pouce il y a 6 heures.
Carte m�re ASUS ROG STRIX X870-I Gaming WiFi : l�audio pr... [ CPU, Cartes m�res, RAM ]
vacheatuba il y a 8 heures.
Insatisfaction du jour 2026 [ Le poulailler ]
Gallatin il y a 10 heures.
Satisfaction du jour 2026 [ Le poulailler ]
Evilspirit il y a 13 heures.
Le truc interessant du jour 2026 [ Le poulailler ]
JPC il y a 15 heures.
Noctua NL-LC1-36, le watercooling facile et efficace pour... [ Watercooling ]
Vanseb il y a 15 heures.
NEED: le topic des acheteurs compulsifs 2026 [ Le poulailler ]
Ashuura il y a 18 heures.
Mon test de la souris ugreen m751 [ Claviers et souris ]
Technopatosh il y a 2 jours.
Tous les forums

R�alisation d'un serveur IA avec RTX 5090 & AMD Epyc , page 5

Sujets similaires