R�alisation d'un serveur IA avec RTX 5090 & AMD Epyc, flux du sujet :

Re: R�alisation d'un serveur IA avec RTX 5090 & AMD Epyc

funkydata — Dimanche 31 Mai 2026 � 02:09:34

Auteur: funkydata

Post� le: Dimanche 31 Mai 2026 � 02:09:34

@mini-pouce Apr�s on est en face de type de LLMs vraiment diff�rents. Ceux pour le coding c'est des LLMs entrain�s sp�cifiquement, destin�s � �tre appel�s diff�remment (Tool), � fournir la r�ponse diff�remment. Impossible de dresser un parall�le entre les deux pour l'heure, du coup c'est int�ressant d'avoir aussi un point de vue sur les LLMs "standards".

Re: R�alisation d'un serveur IA avec RTX 5090 & AMD Epyc

mini-pouce — Samedi 30 Mai 2026 � 21:01:06

Auteur: mini-pouce

Post� le: Samedi 30 Mai 2026 � 21:01:06

J'adore le "pareil mais diff�rent", �a r�sume bien en fait.

Je me suis aussi pr�t� au jeu, je suis aller un peu plus loin que d'habitude en essayant de sortir un rapport de qualit�, sans doute la m�me qualit� dont parle OMG ? Je me suis amus� � comparer GPT 5.4 � Qwen 3.5 35BA3B, donc pas les plus r�cents tous les deux mais c'est ce que j'avais sous la main � ce moment.

Comme Funky je ne consid�re pas que ce mod�le soit suffisant, en tout cas avec seulement les 3B actifs, mais �a tourne facile.
En premier lieux le Qwen s'est fourvoy� de domaine, il est partie en m�decine au lieu de physique (je lui accorde la ressemblance s�mantique), apr�s un petit rappel � l'ordre tout c'est bien pass�. Et pour �tre juste l'outil microsoft a aussi n�cessit� un petit r�glage parce que par d�faut il t'envoie un mod�le � la cow.
Premi�re impression, ou deuxi�me du coup, franchement pas si d�gueu, il se d�brouille.

J'ai essayer de filer une recherche sur un sujet en expliquant des choses, en faisant un petit �tat de l'art, puis en allant jusqu'� les faire r�fl�chir et conclure dessus. Je n'ai pas essay� de lui tordre le coup ou de faire le malin, mais de l'utiliser comme quelqu'un de lambda pour voir ce qu'il sort par d�faut.
Sans doute qu'on pourra faire mieux avec quelques astuces pour sortir le meilleur des mod�les.

Les limites des deux outils :
- le langage, avec bien s�r un avantage pour le gros GPT5.4, mais ce n'est jamais assez formel et il y a toujours des petites bizarrerie ou mots mal utilit�s.
- Sur un aussi petit mod�le que le Qwen utilis�, impossible de cr�er de le faire produire de long documents 2 � 4 pages max.
- Qwen peut pas mais les images produites par GPT �taient � chier et s'il peut faire 10 � 20 p c'est r�p�titif. J'ai aussi l'impression qu'il a du mal � ce d�tacher de certaines choses, genre toujours les m�me lien, toujours les m�me sources.
- GPT me semble avoir mieux g�r� les �quations, m�me si j'aurais aim� en voir plus.
- Sur ce qwen j'avais mis le contexte max, et �a parait suffisamment grand pour filer longtemps le sujet, je n'ai utilis� que 20% des 200k je crois sans voir de perte de perf ou de raison.
- Les deux ont pu comparer des documents entre eux, GPT allait plus loin dans ces r�flexions comme � chaque fois et �tait plus incisif/pertinant.

Sorti les premiers promptes ou tu d�couvre et d�grossi le sujet, le rapport ne me parait pas si utile lui. Ce n'est pas un rapport mais une concat�nation de l'ensemble de ces r�ponses, plus ou moins bien formater en fonction des versions.
D'un autre c�t� j'ai des exigences bien au-dessus de la moyenne, comme Funky avec ces jeux, et avec du recul ce sont des informations int�ressantes et digestes qui pourraient vraiment servir � beaucoup. De plus, je n'ai pas vu de choses fausses, tout au plus des passages peu compr�hensibles ou une obsession sur un truc plus qu'un autre.

Et du coup, m�me s'il perd ce match truqu�, le Qwen ne d�m�rite pas.
Il tourne sur 20 GB et avec le A3B je pense qu'une petite CG en 16 GB doit suffire, je me pose la question pour 8 GB ? Dans mon cas je l'ai test� sur un AI Max et �a tournait � 20 tk/s, ce qui est suffisamment rapide, souvent plus que GPT (car il r�fl�chi plus).
Et il est quand m�me suffisant puisque de toute fa�on je n'ai pas pu tirer grand chose de plus des capacit� du GPT. A voir ce que �a donnerait avec un mod�les libre plus gros et en prenant le temps de mieux prompter.

EDIT :

funkydata a �crit:

@mini-pouce Evidemment, je parlais d'une machine �quilibr�e avec un CPU disposant des instructions de calcul vectoriel idoines. C'est sur que si tu colles un CPU dinosaure (point de vu IA) avec de la m�moire trop rapide, tu vas bottleneck sur l'IPC.

Je n'allais pas aussi loin, de mon exp�rience je dis juste qu'� force de parler de BP on lui donne trop d'importance, en tout cas pour inf�rer � notre niveau.
C�t� instruction et type, il n'y a pas eu autant de mouvement que sur le milieu de la CG.
Je pense que ce sont les derniers Xeon qui ont le plus int�gr� de techos d�di�es mais je n'y ai pas touch�.
M�me sur Epyc en Zen4 ou 5 tu as seulement l'int�gration AVX512 (mieux g�rer sur 5) qui �tait d�j� pr�sente chez Intel. A part �a je ne vois pas.

Re: R�alisation d'un serveur IA avec RTX 5090 & AMD Epyc

funkydata — Vendredi 29 Mai 2026 � 18:17:27

Auteur: funkydata

Post� le: Vendredi 29 Mai 2026 � 18:17:27

J'ai fini de tester Gemma 4 26B. Bon, c'est pareil que Qwen 3 Coder en diff�rent. J'ai vraiment eu des r�sultats aux oppos�s avec ce mod�le.
M�me si je suis totalement conscient et que je salue les �normes progr�s fait par ces mod�les je n'ai quand m�me pas �t� convaincu au final, pas plus par Gemma 4 que par Qwen 3 Coder. Je dirais m�me que ce dernier est plus stable.
J'ai fait un retour bien plus complet sur mon Workblog si �a vous int�resse : https://funkydata13.github.io/#test-llm1

Pour moi 30B c'est pas suffisant, j'aimerais bien tester les "lourds" mais j'ai pas mieux que mes "PC normaux". Aucune id�e de ce que �a peut donner sur les mod�les � 3 chiffres.

Re: R�alisation d'un serveur IA avec RTX 5090 & AMD Epyc

funkydata — Jeudi 28 Mai 2026 � 12:49:28

Auteur: funkydata

Post� le: Jeudi 28 Mai 2026 � 12:49:28

@mini-pouce Evidemment, je parlais d'une machine �quilibr�e avec un CPU disposant des instructions de calcul vectoriel idoines. C'est sur que si tu colles un CPU dinosaure (point de vu IA) avec de la m�moire trop rapide, tu vas bottleneck sur l'IPC.

Sur un setup "�quilibr�" le nerf de la guerre reste la vitesse m�moire, aussi vrai que jouer en 4k c'est quasi tout le temps un bottleneck GPU si tu n'as pas fait n'importe quoi niveau choix hardware 😋

Re: R�alisation d'un serveur IA avec RTX 5090 & AMD Epyc

mini-pouce — Mercredi 27 Mai 2026 � 04:41:06

Auteur: mini-pouce

Post� le: Mercredi 27 Mai 2026 � 04:41:06

La bande passante est importante mais il faut pouvoir la soutenir.
Tu prends un xeon v4 et un Xeon plati que tu fous en quad channel m�me fr�quence et tu n'auras pas les m�me perf avec un �cart qui est rapport � l'ipc.

Pareillement sur des plateformes publiques plus modernes ou diff�rentes archi de GPU.

Par contre tu marques un point sur le fait de privil�gier une plateforme DDR4 en 6/8 channel si possible.
Mais d�s qu'on d�passe le quad les prix grimpent au dessus des 400� pour un truc de 8 ans ou plus d�j�.

Sachant que le monsieur est �quip� en 3090 il pourra difficilement investir dans mieux sans vendre un rein.
Je lui conseille de laisser les GPU dans 1 seule config et d'acheter un nvlink il aura ainsi un pool de 48 Gb assez rapide.
�a doit se d�fendre avec la 5090 par certains aspects (hors nouveaux formats).

Re: R�alisation d'un serveur IA avec RTX 5090 & AMD Epyc

funkydata — Mercredi 27 Mai 2026 � 00:34:28

Auteur: funkydata

Post� le: Mercredi 27 Mai 2026 � 00:34:28

La puissance de calcul brute ne sert qu'� traiter le prompt ; c'est la bande passante m�moire qui d�termine � quelle vitesse on la vide (les jetons).
La DDR4 n'est donc pas le choix de la vitesse. C'est tr�s simple de se faire une id�e pr�cise des perfs :
Tu as un mod�le de 115 Go ? Tu es en Quad-Channel DDR4 3600 donc 115 Go/s ? Tu auras environ 1 token/seconde. M�me principe pour le GPU.

Les LLM c'est surtout un �norme bottleneck sur la vitesse m�moire, c'est bien pour �a que les GPU sp�cialis�s ont des bus de malades :
H100 3,3 To/s
H200 4,8 To/s
B200 8 To/s
Le gain entre ma 5070 et ma 5080 c'est exactement la diff�rence de bande passante. Apr�s le fait de faire de l'offloading GPU>CPU complique largement le calcul mais dans le principe c'est �a.

Re: R�alisation d'un serveur IA avec RTX 5090 & AMD Epyc

OMGimag33k — Mardi 26 Mai 2026 � 23:12:35

Auteur: OMGimag33k

Post� le: Mardi 26 Mai 2026 � 23:12:35

Faire tourner des mod�les 70B ou 100B sur une CM en RAM dual channel �a va �tre gal�re, ou alors avec une quantization en q2/q3 et une vitesse assez faible.

Si je devais monter un setup "budget" pour de l'IA, je choisirais du mat�riel de g�n�ration pr�c�dente en DDR4 car les CM et CPU sont plus accessibles. La DDR4 est aussi moins ch�re que la DDR5 m�me en ECC. Et pour �a le meilleur rapport perf / prix est en g�n�ral du recyclage d'anciens serveurs Xeon / Epyc, exemple: https://www.leboncoin.fr/ad/accessoires_informatique/3046080399
Sur Ebay on trouve pas mal de CPUs Xeon ou Epyc en ES/QS � des prix int�ressants. Les Epyc 7002 / 7003 sont plus int�ressants que les �quivalents Threadripper, pour plusieurs raisons:

- Plus de canaux m�moire, donc possibilit� de doubler la bande passante m�moire par rapport aux Threadripper
- Plus de lignes PCIe
- Des CPUs bien moins chers que les �quivalents Threadripper � nombre de core �gal exemple https://www.leboncoin.fr/ad/accessoires_informatique/3169735358

Donc techniquement c'est un bon choix, d'autant que l'ancien mat�riel serveur ne vaut pas cher par rapport � du Threadripper qui est encore cot� mais il faut pouvoir trouver un CPU avec beaucoup de cores et aussi peupler un max de slots RAM, � partir de 4 slots peupl�s on �gale le quad channel du threadripper et au del� c'est de la perf en plus.

L'inconv�nient c'est que les cartes m�res en SP3 sont rarement aux formats desktop classique type ATX, le meilleur rapport prix perf est probablement d'acheter un vieux serveur complet mais encore faut-il pouvoir le loger.

Ensuite, selon les mod�les et le besoin de vitesse de g�n�ration envisag�s, l'�conomie r�alis�e sur l'achat d'une ancienne plateforme aide pour mettre un billet dans le GPU, l'ajout de vRAM peut multiplier la vitesse d'inf�rence par 2 ou 5 voir plus mais �a d�pend du mat�riel, du mod�le et de nombreux param�tres.

Si tu as d�j� des GPUs �a d�pend des mod�les que tu veux faire tourner. Si tu ne sais pas exactement ce que tu vas faire tourner, pr�vois de pouvoir �voluer pour le cas ou tu voudrais utiliser des mod�les 100B et plus, pour �a il faudra de la bande passante m�moire et des cores CPU si tu offload. On peut d�j� faire des choses sympas avec des mod�les 30B type Gemma 4, Qwen 3.5/3.6 ou Magistral small par exemple.

Sans chiffrer pr�cis�ment je pense que jusqu'� 100B environ en q8 donc des mod�les autour de 80 � 100 Go �a peut �tre int�ressant de viser le full vRAM ou presque en investissant dans des GPUs, mais au del� il faut passer sur de l'offload de toute mani�re car le budget GPU explose.

Avant d'investir tu peux louer de la puissance de calcul IA � la demande, il y a pas mal de sites exemple https://www.hyperstack.cloud/ �a peut t'aider � faire des tests et mieux cerner et dimensionner ton besoin.

Re: R�alisation d'un serveur IA avec RTX 5090 & AMD Epyc

mini-pouce — Mardi 26 Mai 2026 � 22:33:48

Auteur: mini-pouce

Post� le: Mardi 26 Mai 2026 � 22:33:48

Pas le temps ce soir mais GPU , GPU, GPU.
Si t'es pas press�s tu peux changer de gros mod�les mais sur de vieilles plateforme la perf sera catastrophique (<1tk/s).
Par contre dans l'absolu avec un mix GPU li�s avec un bridge peu importe la plateforme tant que tu charge en RAM. Privil�gier plus de canaux m�moire (bande passante).

Re: R�alisation d'un serveur IA avec RTX 5090 & AMD Epyc

Oursatomix — Mardi 26 Mai 2026 � 21:37:36

Auteur: Oursatomix

Post� le: Mardi 26 Mai 2026 � 21:37:36

Je profite de ton post que je suis avec assiduit� pour vous poser une question mat�riel.

Alors avant que vous me posiez en r�ponse la question fatidique, "pour quoi faire", je vous r�ponds:

Rien! je l'avais d�j� �voqu� pr�c�dement mais je n'ai aucun usage qui n�cessitte d'h�berger une solution IA.
Mais je veux le faire. Je veux au moment ou j'en aurai la necessit� ou l'id�e pouvoir m'en servir. Je veux pouvoir la proposer par exemple � de la famille. J'ai une soeur et un frere beaucoup plus jeunes que moi, beaucoup plus qualifi�s et diplom�s mais.. qui n'ont pas encore per�u la NECESSITE d'avoir une solution ind�pendante et p�renne.

Mon calcul depuis le d�but de l'eplosion et des premiers essais de ChgatGPT c'est que ca n'est pas possible que tout cela restera accessible � tout le monde et en plus de cela gratuitement.

Bref. Je constate qu'on peut avoir aujourd'hui des solutions d�j� pertinente et pertformante. Que les couts sont encore mod�r�s sur la technologie actuelle. Mod�r�s...

J'ai donc actuellement une plateforme Z790 avec un i7 14700K.
64Gb de ram install�e mais j'ai un autre kit identique en cas de n�cessit�.

Mon Probleme:

Pour acc�der � de plus gros modeles/gagner en performance je peux:
- ajouter ces 64Gb de ram et passer � 128Gb. Mais certes DDR5 mais en dual channel.
-ajouter.. a non je ne peux plus ajouter de gpu 😓

Je pouvais trouver des cpu type threadripper et leur CM en sTr4,Str5 ou sWRX8 � bon prix en neuf mais pas la ram..ou a des prix fous.

Alors l'occasion.

-Est-ce pertient de passer sur du "vieux" x299 et ce vieux i9-10940X pour atteindre 256Go de ram ddr4 quad channel et pouvoir placer une 3eme 3090 voir quatre en x16/x4/x16/x8 ?

-Est-ce mieux de viser des Threadripper 3960x ou 3970x sur du TRX40, pour du x16/x8/x16/x8 mais au d�triment de la ram souvent les annonces sont ch�res avec "que" 64Go.

Re: R�alisation d'un serveur IA avec RTX 5090 & AMD Epyc

OMGimag33k — Mardi 26 Mai 2026 � 10:23:02

Auteur: OMGimag33k

Post� le: Mardi 26 Mai 2026 � 10:23:02

Bonjour,

J'ai pu ajouter un stick de RAM refurb pour passer � 448 Go de RAM, en ajoutant les 32 Go de vRAM je peux maintenant charger des mod�les faisant jusqu'� 420 � 430 Go.

Le point positif, c'est que j'ai maintenant acc�s � certains des mod�les ouverts parmi les meilleurs au monde d'apr�s les benchmarks et leaderboards:

- Mimo 2.5 Q8_K_XL 337 Go, un mod�le polyvalent et tr�s qualitatif
- GLM 5.1 Q4_0 427 Go, un mod�le de qualit� mais � 2.2 tok/sec difficilement utilisable
- Deepseek 3.2 Q4_K_XL 407 Go un mod�le de qualit� mais � 1 tok/sec difficilement utilisable
- Kimi K 2.6 IQ3_S 407 Go pas fini de tester mais 2.4 tok/sec

Le point n�gatif c'est que j'en arrive au point ou le serveur comment � pouvoir faire tourner des gros mod�les, mais le manque de puissance de calcul commence � se faire sentir, les 24 cores ne suivent pas et la RTX 5090 ne booste plus beaucoup l'inf�rence avec ses 32 Go de vRAM quand on travaille sur des mod�les denses de 400 Go.

Clairement, il y a un �quilibre � avoir entre la puissance de calcul et la quantit� de RAM pour pouvoir exploiter les LLMs correctement. Et � moins de pouvoir investir dans une paire de RTX Pro 6000 Blackwell, le plus efficace est de passer sur un CPU 48 cores minimum, � ce stade le 24 cores devient un bottleneck.

Les deux mod�les les plus adapt�s avec le setup actuel sont des MoE: Qwen 3.5 397B A17B Q8_0 et Mimo 2.5 Q8_K_XL qui tournent en 4.5 tok/sec, je poursuis les tests.

J'attends toujours de pouvoir tester Deepseek V4 Flash quand la nouvelle architecture deepseek4 sera int�gr�e � la version stable de llama.cpp.

Re: R�alisation d'un serveur IA avec RTX 5090 & AMD Epyc

funkydata — Mardi 19 Mai 2026 � 16:06:58

Auteur: funkydata

Post� le: Mardi 19 Mai 2026 � 16:06:58

mini-pouce a �crit:

C�t� CG, peut �tre que 16 Gb c'est encore un peu juste, je dirais qu'il faut autour de 20+ si on fixe le niveau minimal requis � un Qwen3.530BA3B.
Tu devais beaucoup d�charg� dans le CPU toi avec ta 5070 ?

A mort ! Le GPU tournait � 10-12% max, 11 Go de VRAM occup� pour la marge de s�curit� ! Surtout avec CUDA qui me les brise menue (il n'y a pas d'autre mot !) avec sa manie de dupliquer la VRAM dans la RAM ! Suivant les versions des outils, le driver, ben sur les 32 Go 100% utilis� aussi !
L� j'ai retrouv� un poil de tranquillit� avec 11 Go VRAM et 70% RAM environ sur 32 juste avec le 35B, jusqu'� la prochaine update sans doute, c'est vraiment p�nible comme comportement surtout quand tu finis par attaquer le fichier d'�change ! Donc ouais 32 Go c'est le strict minimum.

Le soucis c'est que �a pompe toute ta VRAM. Impossible de bosser sur Blender, Unreal ou sur des projets lourds ou m�me surfer sur certains sites avec le mod�le d'IA simplement charg�. Donc machine d�di�e quasi obligatoire. 16 Go pour moi c'est trop peu. Je partitionne � 12 Go pour avoir un poil de marge vu que c'est la machine que j'utilise (celle avec la 5080) et 3 Go de VRAM adressable, �a part vite. Donc tu as 8 Go environ d'overload sur la RAM mais c'est plus en r�alit� avec la cache, le contexte et tout.
Pour moi 24 Go VRAM + 32 Go DDR5 sur une machine d�di� ce serait le minimum sur lequel je partirais aujourd'hui.
Pour un usage plus soft et plus casual, celui de "Mme Michou" : ChatGPT, Mistral, Gemini, peu importe mais le local n'a aucun int�r�t.

Re: R�alisation d'un serveur IA avec RTX 5090 & AMD Epyc

mini-pouce — Mardi 19 Mai 2026 � 15:35:44

Auteur: mini-pouce

Post� le: Mardi 19 Mai 2026 � 15:35:44

J'ai un peu insist� pour venir conclure sur le poste ou tu disais un peu abandonner et nos r�ponses respectives avec OMG.
Pour le moment sur une m�me quantit� de VRAM et de puissance de calcul, les mod�les sont pass� d'inutiles, � bizarres, passables et maintenant utilisables. Et �a va continuer ! Donc patience.

J'ai quand m�me l'impression que tu as un usage un peu plus pouss� que la moyenne, et je pense que c'est plus du ressort de l�argentique et je te rejoints, faut un peu plus qu'une config de base.
M'enfin il y a peu fallait la config d'OMG pour le moindre LLM vraiment quali.

Pour le multiGPU j'entends recycler son matos.
J'ai (avais) souvent eu un CG gamer de gen pr�c�dente (parce que $!) et une carte pro encore plus pr�c�dente.
Et �a colle plut�t bien, ou en tout cas �a commence � coller avec les avanc�es actuelles.

Par contre je ne suis pas d'accord pour la RAM, car avec le crit�res fix�s, inf�rer sur un CPU grand publique c'est vraiment nul.
Du coup 32 GB me paraissent suffisant... A la rigueur 64 dans un contexte multi-usage comme tu y travaille.
C�t� CG, peut �tre que 16 Gb c'est encore un peu juste, je dirais qu'il faut autour de 20+ si on fixe le niveau minimal requis � un Qwen3.530BA3B.
Tu devais beaucoup d�charg� dans le CPU toi avec ta 5070 ?

En tout cas merci pour ton retour d�taill� !

Re: R�alisation d'un serveur IA avec RTX 5090 & AMD Epyc

funkydata — Mardi 19 Mai 2026 � 14:59:02

Auteur: funkydata

Post� le: Mardi 19 Mai 2026 � 14:59:02

mini-pouce a �crit:

Et du coup Funky, m�me si �a ne semble toujours pas suffisant pour toi en l'�tat, tu vois le progr�s ?
�a te convainc ou pas ?

C'est utilisable et appr�ciable, oui. �a me convainc fonctionnellement, mais d'un autre c�t� non, car la demande en ressources est tellement importante et les prix tellement �lev�s que c'est difficilement envisageable. Il faudrait un 16 c�urs / 32 threads avec 128 Go de RAM et une RTX 5090 (ou 4090, ou 3090) juste pour �a. J'ai beau �tre un geek enthousiaste et int�ress� par tout, c'est un peu exag�r� quand m�me et, en �a, eh bien, �a me convainc vachement moins du coup

mini-pouce a �crit:

Je pense que �a c'est BEAUCOUP am�lior�, non ?, mais l� encore qu'un rem�de : augmenter le nombre de param�tres. C'est probablement ce pourquoi OMG s'est orient� vers des mod�les >100B...

Ah mais compl�tement, il est bien plus capable et il est rattrapable avec plusieurs prompts. Mais ce n'est pas du bon boulot. Ce n'est pas �l�gant, ni efficace, ni tr�s lisible, et encore moins facilement maintenable. Pour rigoler, j'ai fait avec lui un jeu sous Godot.

Contr�le du perso :

Sauts :

Animations en fonction du mouvement (Course, Saut, Chute, Idle) :

Double saut :

Am�lioration des sauts :

Double saut II :

Refacto et physique :

Conclusion ? Ben il programme mais c'est pas un bon analyste. Donc oui c'est bien mieux mais il est quand m�me vite en d�faut et les limites sont vite atteintes. C'est un exemple parmis d'autre je l'ai pris pour la facilit� � se repr�senter la chose.

mini-pouce a �crit:

C'est un jeu pip� qu'on ne peut pas gagn� actuellement comme d�j� discut�.

Je parlais des mod�les gratos en ligne, pas de ceux qui sont payants. �videmment que les mod�les se cachant derri�re un abo sont hors de propos dans ce cas.

mini-pouce a �crit:

Ou du multiGPU ? Mon cr�do depuis tant d'ann�e. ^^

Un GPU co�te un rein maintenant. Ce n'est plus l'�poque o� tu avais deux Radeon VII pour 1350 � ou deux 1080 Ti pour 1300 � ! Rien qu'une seule 5080 est plus ch�re que ces couples l�, avec la moiti� de la VRAM du coup. Donc deux ou trois cartes c'est 3000 ou 4500 �, outch. Je ne parle m�me pas de l'alim et de la conso/refroidissement. Et vu qu'il faut quand m�me du r�cent, ce n'est pas simple. Mais oui c'est la solution vu le peu de VRAM des mod�les grand public actuels.

Re: R�alisation d'un serveur IA avec RTX 5090 & AMD Epyc

mini-pouce — Mardi 19 Mai 2026 � 14:08:59

Auteur: mini-pouce

Post� le: Mardi 19 Mai 2026 � 14:08:59

funkydata a �crit:

Quel genre de texte ? (Par curiosit�, pour situer un peu mieux ce que tu leur demandes). Oui Qwen se fait des "noeuds" au cerveau, il bouffe les tokens � vitesse grand V. C'est le cas aussi des petits mod�les.

Ca pourrait �tre pas mal effectivement d'avoir des exemples de vos demandes, avec : 1 exemple r�ussi, 1 exemple de rat�.

Et du coup Funky, m�me si �a ne semble toujours pas suffisant pour toi en l'�tat, tu vois le progr�s ?
�a te convainc ou pas ?

funkydata a �crit:

Il a de vrais soucis de compr�hension d�s que le projet prend un peu de poids et r�p�te souvent les m�mes erreurs malgr� les corrections

funkydata a �crit:

Est-ce qu'il est sup�rieur aux mod�les en ligne au point de devoir autant "investir" ?

C'est un jeu pip� qu'on ne peut pas gagn� actuellement comme d�j� discut�.
Mais pour des passionn�s comme nous avec une base mat�riel pas d�gueu, l'inverse est vrai aussi : suffisamment bon pour ne pas n�cessiter un souscription.
Ne pas oublier que beaucoup n'utilisent pas leur GPU pour travailler ou on un PC portable d�di�, donc ils peuvent switcher et rendre leur investissement jeu utile.

funkydata a �crit:

Le 35B A3B est bien plus pertinent. C'est un bon mod�le, sup�rieur � ce qu'on trouve accessible sur les grosse IA mais il lui faut un bon PC d�di�.

Ou du multiGPU ? Mon cr�do depuis tant d'ann�e. ^^
En fait un truc que je n'ai pas pu explor� comme il me plaisait faute de matos, mais un truc qui parait �vidant pour l'inf�rence sur un seul GPU : la taille du lien importe peu. -> un eGPU pourrait suffire, un pcie x4 aussi (M2 ou PCIe).

Re: R�alisation d'un serveur IA avec RTX 5090 & AMD Epyc

funkydata — Mardi 19 Mai 2026 � 13:42:22

Auteur: funkydata

Post� le: Mardi 19 Mai 2026 � 13:42:22

Quel genre de texte ? (Par curiosit�, pour situer un peu mieux ce que tu leur demandes). Oui Qwen se fait des "noeuds" au cerveau, il bouffe les tokens � vitesse grand V. C'est le cas aussi des petits mod�les.

De mon c�t� j'ai bien avanc� et je trouve le 9B vraiment limit�, peu d'int�r�t, � moins de ne pas avoir besoin de son GPU et de ne pas vouloir utiliser les IA online. Attention, pour du 9B c'est plut�t tr�s bien hein, mais �a reste une IA "basique".

Le 35B A3B est bien plus pertinent. C'est un bon mod�le, sup�rieur � ce qu'on trouve accessible sur les grosse IA mais il lui faut un bon PC d�di�. Globalement pertinent, g�re bien le RAG et le contexte. Perso il est sur ma machine secondaire (5700X/RTX 5070/32 Go) et il ne lui faut pas moins sinon ce serait trop lent, c'est d�j� tr�s limite en toute franchise. Est-ce qu'il est sup�rieur aux mod�les en ligne au point de devoir autant "investir" ? Pour moi c'est non mais je le garde sous le coude si j'ai besoin de traiter des documents ou de travailler dans un contexte sp�cifique avec pas mal de docs. Utilisation situationnelle mais bienvenue donc.

Le Coder 30B est un mod�le A3B aussi m�me si ce n'est pas indiqu�, il est donc un poil plus rapide que le 35B A3B, j'ai bien fait de tester.
Il se marie fort bien avec Continue sous VS Code et l'agent est efficace. Il est cependant bien meilleur pour accomplir les t�ches ingrates (commentaires, refactorisation, etc...) que pour g�n�rer du code propre, organis� et lisible.
Il a de vrais soucis de compr�hension d�s que le projet prend un peu de poids et r�p�te souvent les m�mes erreurs malgr� les corrections. Trop lent par rapport � Qwen 2.5 Coder pour juste de l'Autocompletion. Finalement ? Un mod�le tr�s tr�s orient� scripting, id�al pour de petits projets de domotique, des sites web simples, des applications simples structur�es autour d'une API bien document�e.
Il est tr�s bon en Python, JavaScript et PHP mais il donne des signes de faiblesse �vident sur les langages plus avanc�s. De gros couacs sur C#/Rust et beaucoup, beaucoup de mal sur C++.
Au final c'est quand m�me impressionnant pour un 30B local mais �a reste une IA essentiellement pour faire des scripts et pour d�l�guer certaines t�ches casse-pied. Comme le mod�le 35B finalement, utilisation ponctuelle bienvenue si on a une machine secondaire sur lequel le faire tourner ou si on code des projets qui ne consomme pas de ressources.

Voil� �a conclut je pense mon retour sur ces trois mod�les Qwen. �videmment ils ne jouent pas sur le m�me terrain que les mod�les que peut faire tourner @OMGimag33k sur son serveur mais �a donne une id�e de ce � quoi s'attendre en local sur la machine du "peuple". 😉