EN DIRECT en ligne connexion / inscription
Connexion

Surnom/Pseudo
Mot de Passe :

[ Vous avez perdu votre mot de pass ? | Devenir membre ]

×

Réalisation d'un serveur IA avec RTX 5090 & AMD Epyc , page 5

Aller à la page :   12345678  
CowcotLand topic RSS feed Surveiller les réponses de ce sujet
mini-pouce @
Eleveur bovin
Eleveur bovin

30230pts

Inscrit le: 15 mai 2011
Messages: 11430

Navigateur : Firefox

Hors ligne
Message Posté le: 07 mars 2026 à 20:24  Lien permanent
Répondre en citant
Message en retard d'une soeaine (trompé se topic XD).

J'ai essayé ce week-end, faut penser à beaucoup de choses pour faire un truc assez complet.

Mais je me suis égaré et j'ai volé trop prêt du soleil : j'ai tenté un pod d'un compose improvisé pour avoir l'IA et les bdd dans un stack.
Bizarrement ça n'a pas fonctionné. 😆
Je découvre podman et apparemment le réseau est géré différemment, faudra que je regarde ça de plus prêt pour les faire communiquer .

Je retenterai un peu plus tard.


Si j'avance, suivez-moiSi je meurs, vengez-moiSi je recule, tuez-moi
Voir le profil de l'utilisateur Envoyer un message privé » Album Photos » Google Map
OMGimag33k @
Métayer
Métayer

3560pts

Inscrit le: 25 septembre 2018
Messages: 1615

Navigateur : n.c.

Hors ligne
Message Posté le: 20 mars 2026 à 16:32  Lien permanent
Répondre en citant
Hello,

J'avance tranquillement sur mes tests, la partie benchmarks est bouclée.

Au delà des benchmarks, en travaillant sur de la rédaction de contenus techniques assez pointus j'ai pu me rendre compte qu'en fait il y a 3 modèles qui sortent du lot et c'est un peu une compétition entre les grandes puissances de l'IA:

- Magistral small-2509 en Q8_0, le LLM français est à la fois léger et polyvalent. Il est idéal pour des contenus pas trop longs sans éxigences techniques trop poussées.
- gpt-oss 120b, le modèle d'OpenAI date de l'été 2025, une éternité dans le monde des LLMs mais il donne encore d'excellents résultats même s'il n'est pas à jour puisque son entraînement initial s'arrête en 2024.
- Qwen3.5 122B A10B en Q6_K_XL ou en Q8_0, la dernière version du modèle développé par Alibaba est un monstre d'efficacité. Il gère parfaitement les prompts les plus complexes, les analyses techniques poussées et il est rarement mis en défaut. Le seul problème est que sa grande taille nécessite un offloading assez lourd faisant perdre de la vitesse d'inférence, en optimisant les réglages j'ai pu le faire tourner autour de 10 TPS

Donc en gros, Magistral pour un usage léger ou de la production de contenu rapide en grande quantité, gpt-oss pour des prompts un peu plus complexes mais il faut l'alimenter en informations récentes sur certains sujets, et Qwen3.5 pour du travail de fond et des prompts très techniques.

J'ai également testé le dernier Nemotron-3-super de nvidia, pas extraordinaire, Minimax-m2.5 mais il sort du chinois au milieu du texte un peu comme quand deepseek hallucine (plus adapté pour du code apparemment) et Kimi K2.5 de Moonshotai. Ce dernier est bien mais trop lourd, ça tourne à 4 TPS pour un résultat moins bon qu'avec Qwen.

Sinon les prix de la RAM serveur semblent se tasser un peu, et amorcer une légère baisse. On était sur du X7, là c'est X4 donc je vais suivre ça pour voir si je peux investir dans un stick de RAM d'ici quelques mois.

Vu mon utilisation idéalement il me faudrait un GPU avec davantage de vRAM. Il y a la RTX Pro 5000 mais 5000€ ça fait cher pour gagner juste 16 Go de vRAM en plus et elle est moins puissante que la 5090. Le GPU idéal serait la RTX Pro 6000 Blackwell en Workstation Edition, en gros c'est comme une RTX 5090 mais en légèrement plus puissant et avec le triple de vRAM. Bon par contre le tarif est à 10000€, je vais continuer à travailler sur l'optimisation du setup actuel.


Voir le profil de l'utilisateur Envoyer un message privé » Album Photos
Oursatomix @
Ouvrier agricole
Ouvrier agricole

256pts

Inscrit le: 03 mars 2021
Messages: 118

Navigateur : n.c.

Hors ligne
Message Posté le: 21 mars 2026 à 12:47  Lien permanent
Répondre en citant
Et pourquoi pas 2 5090 ?

L'offloading c'est le fait de charger / décharger la Vram au fur et à mesure de l'usage ? Et si c'est cela... c'est du coup placé temporairement en ram ?
Voir le profil de l'utilisateur Envoyer un message privé
OMGimag33k @
Métayer
Métayer

3560pts

Inscrit le: 25 septembre 2018
Messages: 1615

Navigateur : n.c.

Hors ligne
Message Posté le: 21 mars 2026 à 14:13  Lien permanent
Répondre en citant
Salut,

Une seconde 5090 serait très bien, mais:

- ça ne rentre pas physiquement sur la carte mère actuelle et dans le boitier, il faudrait changer de boitier et mettre en place un système avec des risers
- ça oblige à passer sur une alimentation plus puissante
- actuellement la 5090 FE n'est pas dispo, il faut compter 3000€ ou plus pour les cartes AIB
- au final la consommation globale du rack va tellement augmenter que je devrais passer sur un onduleur plus puissant

Mais LM Studio gère le multi-GPU, donc l'ajout d'un second GPU est une option à étudier par la suite.

Oui l'offload c'est le fait de charger en partie un gros modèle en RAM lorsqu'il est trop gros pour la VRAM.


Voir le profil de l'utilisateur Envoyer un message privé » Album Photos
Oursatomix @
Ouvrier agricole
Ouvrier agricole

256pts

Inscrit le: 03 mars 2021
Messages: 118

Navigateur : n.c.

Hors ligne
Message Posté le: 21 mars 2026 à 20:48  Lien permanent
Répondre en citant
Oui, pour les boitiers à un moment il faut viser l'armoire (normande) !

Pour la conso il me semble qu'elle n'augmente que tres peu car sur les gpu additionnel seul est utilisé leur capacité en mémoire.

Et pourquoi des 5090 ? question de quantification ? Je débute et j'ai opté pour des 3090 d,occasion car on peut en avoir 4 à 5 pour le prix d'une 5090 !

LM Studio j'avais lu que tu disais...heu.. oui, plus complet. Je vais essayer un jour. Mais je persevere à galerer avec ollama web ui sous linux alors que je suis un noob !!!

Maintenant l 'histoire du off loading m'interesse. J'utilise magistral que je trouve top aussi. Et Qwen tout le monde semble tellement unanime il va falloir que je regarde. Mais j'utilise un plus petit modele ou je tente le 122 aveec mes 48Go de vram et 64 de RAm ? j'ai un kit de ram en rab et en vente mais peut-etre devrais-je alors l'utiliser pour 128GO ? Apres sur du z790 je ne sais pas si c'est pertinent 4 sticks.
Voir le profil de l'utilisateur Envoyer un message privé
mini-pouce @
Eleveur bovin
Eleveur bovin

30230pts

Inscrit le: 15 mai 2011
Messages: 11430

Navigateur : Firefox

Hors ligne
Message Posté le: 22 mars 2026 à 10:42  Lien permanent
Répondre en citant
Ca va dépendre comment est utilisé ton GPU.
De préférence il faut suffisemment subdiviser les couches pour ne pas utiliser que la RAM mais aussi sa puissance de calcul.
Et dans ce cas la conso sera proporitionnelle à sa contribution.
Maintenant n'ayant jamais utilisé ça, je ne sais pas si dans un scénario typique les 2 GPU sont suffisemment utilisés en même temps auquel cas tu pourrais avoir raison.

Très différent mais pas difficile à prendre en main.
A vrai dire, surtout sur win, je trouve ça plus simple de débuter avec LMstudio.
Il est complet et l'interface est très claire, en 5 min tu peux jouer avec.
OWUi joue sur quelque chose de différent car plus proche des applis de chat, avec toute la complexité que ça implique.

Commence par des petits modèles pour comprendre et te faire la main mais aussi voir leur limite.
En plus si tu passes sur la RAM système sur une plateforme grand publique la performance va s'effondrée !
En gros sur des modèles types 20-30b tu dois faire du 30 tk/s en int8 mais si tu passes par le CPU tu seras plutôt vers 10.

4 stick c'est pertinent dès lors que tu as besoin de la mémoire, ce dont je doute un peu.


Si j'avance, suivez-moiSi je meurs, vengez-moiSi je recule, tuez-moi
Voir le profil de l'utilisateur Envoyer un message privé » Album Photos » Google Map
OMGimag33k @
Métayer
Métayer

3560pts

Inscrit le: 25 septembre 2018
Messages: 1615

Navigateur : n.c.

Hors ligne
Message Posté le: 22 mars 2026 à 13:25  Lien permanent
Répondre en citant
Bonjour,

Alors je vais essayer de résumer les infos utiles essentielles, j'en avais déjà mis en page 1 de ce thread mais j'ai compris d'autres choses en avançant dans mes tests:

- A partir du moment ou on utilise un modèle qui ne rentre pas intégralement en vRAM, on perd énormément en performances et plus on offload plus on perd. Ce tableau est assez représentatif:



L'offloading consiste à avoir certaines couches du LLM en vRAM et d'autres en RAM. En gros, lorsqu'on offload le GPU calcule ses couches très vite, puis il attend que le CPU calcule ses couches, limité par sa bande passante mémoire et on se retrouve donc avec un GPU load moyen peu élevé et des performances en retrait par rapport à la puissance de calcul réelle du GPU qui n'est pas pleinement exploitée.

- Lorsqu'on offload ou lorsqu'on fait de l'inférence via le CPU, la bande passante mémoire est le vrai bottleneck. A ce niveau, il y a 3 types de setup. Le setup reposant sur une carte mère grand public/gaming, avec une bande passante mémoire limitée. Le setup typé workstation avec une bande passante mémoire intermédiaire plus élevée. Et pour finir, le setup reposant sur une plateforme serveur avec un nombre élevé de canaux mémoire, donc la possibilité d'atteindre une bande passante mémoire élevée si tous les slots RAM sont peuplés.

Par exemple:

Z790 (grand public/gaming)
1 stick Single Channel ~44,8 Go/s
2 sticks Dual Channel ~89,6 Go/s (Maximum du CPU)
4 sticks Dual Channel ~89,6 Go/s (Ajouter plus de 2 sticks n'augmente pas la bande passante, cela augmente seulement la capacité)
Threadripper 9960X (workstation)
2 sticks Dual Channel ~89,6 Go/s
4 sticks Quad Channel (Optimal) ~179,2 Go/s (Ajouter plus de 4 sticks n'augmente pas la bande passante, cela augmente seulement la capacité)
8 sticks Quad Channel (2 DPC*) ~179,2 Go/s
H14SSL-N (serveur)
2 sticks Dual Channel ~76,8 Go/s
4 sticks Quad Channel ~153,6 Go/s
6 sticks 6-Channel (Balanced) ~230,4 Go/s
8 sticks 8-Channel ~307,2 Go/s
12 sticks 12-Channel (Optimal) ~460,8 Go/s

En comparaison, la bande passante mémoire des GPUs:

RTX 5090 1792 GB/s
NVIDIA RTX PRO 6000 Blackwell Workstation Edition 1792 GB/s
RTX PRO 5000 Blackwell 1344 GB/s
RTX 4090 1008 GB/s
RTX 3090 936 GB/s
RTX PRO 4500 Blackwell 896 GB/s
RTX PRO 4000 Blackwell 672 GB/s
RTX 2080 TI 616 GB/s

Il est possible de faire tourner de très gros modèles sur des plateformes serveur avec un CPU ayant un nombre de cores élevé et beaucoup de RAM, même sans GPU. Mais on voit que même une RTX PRO 4000 Blackwell à 1800€ offre 1.5 fois plus de bande passante mémoire qu'une plateforme serveur EPYC remplie avec 12 barrettes de RAM qui coûte 5 à 10 fois plus cher aux tarifs actuels. Donc actuellement pour faire tourner des LLMs de taille moyenne c'est plus rentable d'investir dans un ou plusieurs GPUs.

- lorsqu'on offload ou lorsqu'on fait de l'inférence via le CPU, ce qui compte n'est pas d'avoir un CPU ultra puissant en multithread mais d'avoir un nombre de cores élevé. Il existe quelques optimisations spécifiques multithread comme AMD ZenDNN mais dans la plupart des cas on obtient les meilleurs résultats en faisant travailler l'inférence sur le nombre de cores physiques du CPU, si on ajoute plus de threads que le nombre de cores on augmente le load CPU mais on perd en performances, les tokens/s baissent.

Voilà donc pour résumer, l'idéal est d'avoir un GPU avec beaucoup de vRAM mais ça coûte cher. Utiliser plusieurs GPUs peut être intéressant, je n'ai pas eu l'occasion de tester mais il va y avoir un bridage au niveau du PCIe pour le multi GPU. Il est également possible d'obtenir de bons résultats en travaillant avec une plateforme serveur purement en CPU, dans ce cas il faut privilégier un nombre de cores élevé et remplir un maximum de slots de RAM, pas forcément pour faire rentrer un modèle énorme en RAM mais surtout pour avoir la bande passante la plus élevée possible.
Malheureusement, les prix de la RAM serveur sont tellement élevés à l'heure actuelle que ça revient moins cher d'acheter une RTX Pro Blackwell par rapport au coût d'une plateforme orientée serveur avec tous les slots de RAM peuplés. Et quand on offload, on fait forcément des compromis et on perd en performances mais c'est inévitable si on veut faire tourner des gros modèles à moindre coût. Une plateforme typée grand public associée à un GPU pro ayant beaucoup de vRAM peut d'ailleurs être un compromis intéressant pour le rapport prix/perfs. Après c'est une question de budget et de besoins, par exemple pour mon utilisation je peux me contenter d'avoir un très bon modèle qui tourne seulement à 10 TPS, même si ça met 10 minutes pour travailler sur un texte ce n'est pas un souci. Par contre si je devais sortir 100 textes par jour là ça serait intéressant d'investir dans un GPU avec plus de vRAM.


Voir le profil de l'utilisateur Envoyer un message privé » Album Photos
OMGimag33k @
Métayer
Métayer

3560pts

Inscrit le: 25 septembre 2018
Messages: 1615

Navigateur : n.c.

Hors ligne
Message Posté le: 07 avril 2026 à 14:52  Lien permanent
Répondre en citant
Hello,

Quelques news du serveur IA. Je devrais pouvoir ajouter un 6ème stick de RAM histoire de remplir la moitié des canaux et gagner en bande passante mémoire, ça donnera la possibilité de charger des plus gros modèles pour des tests et aussi de gagner en performances dès qu'il y a de l'offload donc dans quasiment 80% de mes utilisations.

Sinon j'ai testé Gemma 4 vite fait aujourd'hui, en 31B Q8_0 Unsloth. J'ai privilégié la qualité à la vitesse, une version Q6_K aurait passé dans les 32 Go de vRAM sans offload mais je voulais voir ce que le modèle peut sortir en qualité élevée. Gemma 4 est vraiment un bon modèle, performant et polyvalent. Il est meilleur que Magistral, il est largement plus à jour dans ses données par rapport à GPT-OSS donc il a de sérieux atouts. Mais par contre à l'usage il est quand même moins bon que Qwen 3.5 122B-A10B qui reste mon LLM de référence en ce qui concerne la rédaction technique pure. A voir à l'usage, Gemma 4 en Q6 doit être parfait pour débiter du contenu généraliste de qualité moyenne en gros volume.


Voir le profil de l'utilisateur Envoyer un message privé » Album Photos
mini-pouce @
Eleveur bovin
Eleveur bovin

30230pts

Inscrit le: 15 mai 2011
Messages: 11430

Navigateur : Firefox

Hors ligne
Message Posté le: 07 avril 2026 à 20:46  Lien permanent
Répondre en citant
C'est surtout la capacité qui fera la différence.
Je n'ai pas prix le temps de réagir mais même si beaucoup en avant la bande passante ne fait pas tout, en particulier sur l'exemple des CG ( avec la gen de coeur, les formats prix en compte, le support logiciel, etc...).

J'ai eu l'occasion de tester pas mal de CG pro ( bon pas extensivement ) et genre Ampère, volta et même Ada ça se comporte pareil alors que pas du tout les même specs.m notamment en BP.
Ce qui comptera c'est le FP32 et pour les gen plus récente le Int ou moins.

J'avais testé du xeon en 2P2C et je ne me rappelle pas avoir vu de diff notable, de même que sur une autre machine en ayant 2/3 des slots.
A l'occasion je pourrais peut être tester sur un epyc si vraiment ça vous botte.

J'ai taté le Qwen et ça m'a vraiment surpris, le model de 30 GB est un des meilleurs modèles que j'ai testé sur du matos abordable et il est rapide !
Il a l'air de bien supporté le Q4 aussi.
GPT OSS en dehors du 120B ne me paraissait pas aussi bon, pareil pour deepseek du pauvre (Q2 ou autre modèle entré avec + méchanisme de pensée).
Ça commence à être utilisable. :)


Si j'avance, suivez-moiSi je meurs, vengez-moiSi je recule, tuez-moi
Voir le profil de l'utilisateur Envoyer un message privé » Album Photos » Google Map
OMGimag33k @
Métayer
Métayer

3560pts

Inscrit le: 25 septembre 2018
Messages: 1615

Navigateur : n.c.

Hors ligne
Message Posté le: 07 mai 2026 à 14:18  Lien permanent
Répondre en citant
Bonjour,

Oui les performances dépendent de tous les composants de la machine, il doit y avoir un bon équilibre global entre la puissance du CPU, la fréquence, le nombre de cores, la quantité de RAM, sa vitesse, la bande passante mémoire, la vitesse de lecture depuis le ou les SSDs pour charger les modèles, la puissance du GPU, sa capacité de vRAM, sa bande passante mémoire... Une capacité de RAM plus importante va permettre de charger de plus gros modèles, mais n'améliorera pas les performances. Une bande passante mémoire plus élevée fait gagner en performances, mais ne permet pas de charger un plus gros modèle. Dans les faits, sur une plateforme serveur les 2 sont liés puisqu'il y a plus de canaux mémoire, chaque ajout d'un stick de RAM permet de gagner à la fois en capacité et en bande passante mémoire.

Après moult péripéties, j'ai enfin pu upgrade le serveur avec un 6ème stick pour atteindre 384 Go de DDR5. Maintenant ça commence à être vraiment une configuration bien polyvalente pour différentes tâches IA.

Mes tops modèles actuels:

- Mistral medium 3.5 128B, le dernier Mistral est très bon mais aussi très lourd, je l'utilise ponctuellement en Q6_K Unsloth et il tourne tout juste à 2 TPS donc je le laisse sur une génération de texte pendant que je vais manger le midi. J'ai testé en Q4_K_XL c'est quasiment pareil niveau vitesse.
- Qwen 3.5 122B A10B en Q8_0 reste la référence pour mon utilisation, des textes au top à 10 TPS environ
- GPT OSS 120B commence à dater, ses données ne sont plus à jour mais avec un prompt bien carré et des fichiers en source il s'en sort toujours assez bien autour de 25 TPS
- Magistral Small 2509 tourne très bien, 55 TPS en Q8_0 et il sort des textes de qualité correcte malgré quelques petites hallucinations
- Gemma 4 31B en Q8_0, moins rapide que Magistral à 14 TPS mais il sort de meilleurs textes

Voilà, Qwen 3.6 n'est toujours pas sorti en 122B et sinon j'attends les prochaines mises à jour de llama.cpp pour pouvoir tester Deepseek V4 Flash mais je n'attends pas de miracles car non seulement c'est un modèle énorme en 284B mais en plus il s'agit d'une preview, le LLM n'est pas finalisé donc il doit pas mal halluciner. Deepseek V4 Pro va être un vrai monstre: 1600B au lieu de 685B sur le 3.2. Il va falloir le distiller et le compresser à mort pour le faire tourner sur des petits serveurs. La version text generation est en 862B, en Q4 ça pourrait passer tout juste sur mon serveur.


Voir le profil de l'utilisateur Envoyer un message privé » Album Photos
Oursatomix @
Ouvrier agricole
Ouvrier agricole

256pts

Inscrit le: 03 mars 2021
Messages: 118

Navigateur : n.c.

Hors ligne
Message Posté le: 07 mai 2026 à 19:30  Lien permanent
Répondre en citant
Suite à tes post j'ai été curieux d'essayer Qwen dont j'entends toujours du bien. Ne faisant pas tourner des modèles si gros j'ai utiliser qwen3.6:35b et je dois avouer que c'est bluffant.

Je me perds un peu dans les ministal, mistral small etc etc. Et je constate surtout qu'il n'ont pas persévéré dans l'optique Mixtral avec cette segmentation en plusieurs pool de données qui permettait de faire tourner un "gros modele" sur une machine modeste.

Je suis toujours avec intérêt ce fil même si ma pratique actuellement ne consiste qu'a évaluer la pertinence des réponses aux questions/problemes que je soumets à ces différents modeles. ... Non c'est un peu réducteur... Si je ne m'en sers pas encore por des taches d'assistant, ca remplace dejà tous les forums techniques , l’encyclopédie, et permet d'échanger avec un expert dans toute demarche intellectuelle .

Tout cela est passionnant.
Voir le profil de l'utilisateur Envoyer un message privé
OMGimag33k @
Métayer
Métayer

3560pts

Inscrit le: 25 septembre 2018
Messages: 1615

Navigateur : n.c.

Hors ligne
Message Posté le: 10 mai 2026 à 14:12  Lien permanent
Répondre en citant
Bonjour,

Oui il faut faire attention quand même, sur des demandes techniques pointues l'IA ne remplace pas totalement les forums. Le modèle n'a pas la compréhension technique, il agrège des informations de différentes sources sans vraiment les comprendre. Dans le cadre de mon utilisation, je suis justement amené à travailler sur des contenus techniques et l'IA donne des réponses correctes 9 fois sur 10 mais il y a toujours des erreurs visibles pour les lecteurs humains qui connaissent les sujets, parfois même des choses complètement inventées. Il faut systématiquement vérifier et reprendre les contenus manuellement. Et l'IA ne remplace pas le conseil d'une personne expérimentée sur un sujet spécifique, le forum conserve cette possibilité d'échanger avec un vrai spécialiste, c'est quand même plus sympa qu'un bot 😁

J'avance dans mes tests et j'ai essayé un modèle assez énorme, comme ça passait en offload je voulais juste voir si c'était utilisable et j'ai eu une bonne surprise. Qwen 3.5 397B A17B en Q6_K Unsloth tourne à 5.6 TPS. C'est 2 fois moins vite que Qwen 3.5 122B et plus rapide que Mistral medium 3.5 128B, plus ou moins entre les deux. Je ne suis pas totalement satisfait de la qualité du texte, mais pour tester en Q8_0 il faudrait rajouter de la RAM 😅 Je surveille la RAM serveur, c'est toujours très tendu.

Dans les prochaines semaines, LM Studio et llama.cpp devraient pouvoir intégrer la possibilité d'utiliser un modèle draft / assistant pour Qwen 3.5 et pour booster Gemma 4 avec le speculative decoding (MTP): Prédiction multi-jetons (MTP) Gemma 4 à l'aide de Hugging Face Transformers. On ajouté à cela le support de Deepseek V4 et une possible intégration de TurboQuant ou équivalent PolarQuant pour réduire la consommation de RAM du contexte, les choses évoluent vraiment très vite dans l'IA ces temps-ci.

Il y avait eu pas mal d'articles là dessus disant que Google avait inventé une nouvelle technologie qui allait réduire les besoins en RAM pour l'IA, bon dans les faits c'est une méthode de compression propriétaire qui permettra, sous réserve d'implémentation, de réduire la consommation de RAM du contexte avec une compression virtuellement sans perte par rapport au FP16 original. Mais dans tous les cas il faut toujours de la RAM pour charger le modèle donc sauf utilisation sur des contextes énormes le gain ne sera pas forcément phénoménal.


Voir le profil de l'utilisateur Envoyer un message privé » Album Photos
OMGimag33k @
Métayer
Métayer

3560pts

Inscrit le: 25 septembre 2018
Messages: 1615

Navigateur : n.c.

Hors ligne
Message Posté le: 11 mai 2026 à 12:35  Lien permanent
Répondre en citant
Bonjour,

Je viens de voir que Mistral fournit un modèle draft pour medium 3.5: Mistral Medium 3.5 128B EAGLE. Il faudra attendre un peu pour que des contributeurs fassent un GGUF sur Hugging Face. Medium 3.5 est un modèle dense, contrairement aux modèles MoE tous les paramètres sont activés lors de l'inférence, c'est pour ça qu'il est un peu plus lent mais il n'est pas "reasoning" donc sur la durée totale pour générer un texte ça reste correct.

J'ai trouvé un site intéressant, avec un classement des LLMs d'après les résultats de différents benchmarks: Independent analysis of AI



On note des choses intéressantes:

- Les top LLMs du classement sont des modèles propriétaires
- Les top LLMs du classement sont des modèles "reasoning" (thinking)
- Les LLMs ouverts les mieux classés sont des modèles très lourds, entre 744B et 1600B
- Les LLMs ouverts les mieux classés sont des versions récentes, ça évolue très vite
- Les LLMs ouverts les mieux classés sont tous des modèles chinois, on voit bien la différence de stratégie entre les sociétés US qui veulent vendre leurs abonnements et la Chine qui utilise l'open source pour préserver l'indépendance de sa technologie

Parmi les modèles ouverts, les mieux classés sont:

- Kimi K2.6 1000B: je ne peux pas le tester, en Q6_K le modèle fait 842 Go, c'est énorme. Je peux tout juste essayer une IQ2 ou Q2 mais le niveau de compression est élevé, à voir
- MiMo-V2.5 Pro 1023B: trop gros aussi
- DeepSeek V4 Pro 1600B: pas encore utilisable, il faut attendre une mise à jour de llama.cpp mais de toute manière le modèle est trop énorme, 1.6 To en Q8_0
- GLM 5.1 744B: autour de 800 Go en Q8_0, trop gros même en Q4 ça ne passe pas sur mon serveur
- GLM 5 744B: même punition, modèle trop gros
- MiniMax M2.7 230B: tourne à 8.5 TPS en Q8_0, super qualité mais quelques coquilles
- MiMo-V2.5 310B: pas pu le tester, il faut attendre les mises à jour
- Kimi K2.5 1000B: j'avais testé en IQ2_XXS, bonne qualité, autour de 4.6 TPS mais à l'usage je ne veux pas travailler sur des modèles en dessous de Q4, ça perd en cohérence et en précision
- DeepSeek V4 Flash 284B: j'attends la mise à jour pour le faire tourner
- Qwen3.5 397B A17B: j'ai testé en Q6_K, pas mal du tout

Et ensuite on trouve dans le classement des modèles non thinking, et des LLMs un peu plus anciens.

En résumé, en 2026 si l'on veut pouvoir faire tourner en local une IA avec un niveau de qualité approchant celui des modèles payants comme GPT 5.5, Claude Opus 4.7 ou Gemini Pro; il faut utiliser de très gros modèles et donc avoir une machine avec beaucoup de RAM. A partir de 256 à 512 Go de RAM, on commence à pouvoir rivaliser avec les modèles commerciaux en terme de qualité de l'IA.

Les benchmarks c'est une chose, mais après ça va aussi dépendre des utilisations. Il faut donc tester plusieurs modèles pour trouver celui qui convient le mieux selon les besoins.


Voir le profil de l'utilisateur Envoyer un message privé » Album Photos
funkydata @
Métayer
Métayer

4934pts

Inscrit le: 12 septembre 2014
Messages: 3181

Navigateur : n.c.

Hors ligne
Message Posté le: 11 mai 2026 à 13:07  Lien permanent
Répondre en citant
J'ai l'impression en lisant tes derniers posts que finalement l'IA locale dans un écosystème personnel est une chimère malgré le GGUF et la quantisation et malgré ce que beaucoup veulent faire croire.

Même sur ton serveur très onéreux et inaccessible à quasi toutes les bourses tu sembles très limité, surtout sur les modèles "open".

Finalement l'IA locale sur la machine de monsieur tout le monde c'est, pour schématiser, une encyclopédie interactive qui te bouffe toute ta RAM et qui peut se tromper. Bon j'exagère un peu mais à peine.

Finalement je ne sais pas si la méthode chinoise est la bonne puisque tu devras payer d'une manière ou d'une autre l'accès a de couteuses infrastructures pour utiliser leurs modèles aux besoins gargantuesques. C'est pas avec nos machines qu'on va faire tourner ça, même en GGUF Q2.
Voir le profil de l'utilisateur Envoyer un message privé
OMGimag33k @
Métayer
Métayer

3560pts

Inscrit le: 25 septembre 2018
Messages: 1615

Navigateur : n.c.

Hors ligne
Message Posté le: 11 mai 2026 à 15:38  Lien permanent
Répondre en citant
Faire tourner de l'IA en local présente de nombreux intérêts, entre autres:

- on n'envoie pas ses données et son historique, nos informations ne seront pas utilisées pour entraîner les IA, pour du ciblage publicitaire ou autre

- on peut faire tourner des modèles spécifiques, non censurés ou spécialement entraînés et optimisés

- on peut faire tourner des systèmes IA offline

- on n'est pas soumis aux variations des conditions tarifaires et des TOS des grandes sociétés de la tech

- pour certaines utilisations sensibles, il est interdit d'envoyer les données sur les des serveurs aux Etats-unis ou en Chine (RGPD, stockage des données en Europe etc)

Des modèles 0.5B peuvent tourner sur des smartphones ou des Raspberry Pi.

Sur une plateforme type PC gaming, on peut faire tourner des modèles entre 30B et 70B avec une quantization correcte. Cela suffit largement pour la plupart des utilisations basiques et même pour des agents type classement d'emails, résumés de textes etc...

Sur une plateforme serveur comme celle que j'utilise, je peux faire tourner des modèles jusqu'à 70B à vitesse élevée et 200B à 300B environ à vitesse modérée, tant que je n'ai pas besoin de sortir des millions de tokens par jour ça va. Même si la vitesse n'est pas énorme, ça convient pour mon utilisation.

Pour faire tourner en local des modèles de 1000B et plus il faut du matériel bien plus cher, surtout quand on voit les prix de la RAM actuellement. Si on part sur un serveur en dual socket Epyc avec 1 To de DDR5 ou plus, beaucoup de stockage NVMe et plusieurs GPUs RTX Pro Blackwell il faut compter 150k€ environ. Cela peut sembler beaucoup mais à ce tarif on peut faire tourner les LLMs les plus performants au monde, l'équivalent d'un Gemini Pro sans envoyer la moindre donnée à Google, pour beaucoup d'entreprises c'est un investissement qui a du sens.

L'approche de la Chine est dictée par 2 choses, de ce que j'ai compris. Tout d'abord l'embargo sur les GPUs et puces IA les a obligés à optimiser les ressources. Ils ont développé des technologies très efficaces car ils n'avaient pas le hardware de pointe dont disposaient les USA (enfin officiellement, on a vu qu'en fait ils avaient quand même des bons gros serveurs et Supermicro a des soucis en ce moment à cause de ça). Cela les a également obligés à se passer le plus possible de tout ce qui repose sur du software US, donc ils se sont tournés vers l'open source. Et puis leur stratégie est de fournir de l'IA à des tarifs très compétitifs, par exemple les tokens Deepseek V4 Pro sont 5 à 10 fois moins cher que sur GPT 5.5. Cela peut s'expliquer par une plus grande efficacité des modèles MoE dont les chinois sont experts. Mais le fait de donner les LLMs en accès ouvert n'est pas innocent. Ils sont prêts à investir à perte pour concurrencer OpenAI, Anthropic, Google etc leur objectif est que les utilisateurs adoptent leur technologie dans un premier temps.

Ce qui est intéressant, c'est tout ce qui est apporté par la communauté de l'IA. Des modèles trop gros sont modifiés, par exemple on prend un modèle 700B, on enlève le traitement des images, on l'optimise et on divise son poids par 2 pour le faire tourner sur des machines moins puissantes. Ensuite, le modèle peut encore être distillé pour s'approcher du modèle original en étant beaucoup plus léger.

En fin de compte, faire tourner l'équivalent du dernier chat GPT sur son PC perso n'est pas possible, il faut du matériel professionnel pour cela mais peu de gens ont besoin de faire tourner des modèles 1000B en local. Entre 0.05B et 30B il existe des dizaines de LLMs qui peuvent fonctionner sur des PCs basiques / gaming. Faire tourner des modèles 1000B répond à un besoin professionnel, dans ce cas il faut des serveurs entreprise. Et entre les 2 il y a les TPE/PME, les dev IA indépendants, les AI enthusiasts, avec des workstations et des serveurs IA de niveau intermédiaire.


Voir le profil de l'utilisateur Envoyer un message privé » Album Photos
Aller à la page :   12345678  
Sauter vers: 
Surveiller les réponses de ce sujet CowcotLand topic RSS feed  

Vous ne pouvez pas poster de nouveaux sujets dans ce forum
Vous ne pouvez pas répondre aux sujets dans ce forum
Vous ne pouvez pas éditer vos messages dans ce forum
Vous ne pouvez pas supprimer vos messages dans ce forum
Vous ne pouvez pas voter dans les sondages de ce forum


Sujets similaires

Sujet Auteur Forum Réponses Posté le
Pas de nouveau message [EST] RTX 3090 Ventus 3X 24G OC Ghandy582 Estimations 4 29 mai 2026 à 09:04
Pas de nouveau message [Problème] Serveur Local Dédié - Enshrouded Dwarfcherry GameLand 33 27 mai 2026 à 15:07
Pas de nouveau message Test ASUS ProArt GeForce RTX 5090 OC Edition : sobriété U... jonh Cartes Graphiques 0 21 mai 2026 à 09:30
Pas de nouveau message Test MSI GeForce RTX 5090 32G LIGHTNING Z : exceptionnell... jonh Cartes Graphiques 0 18 mai 2026 à 13:21
Pas de nouveau message Forza Horizon 6 : bilan des performances avec 14 cartes jonh Cartes Graphiques 0 14 mai 2026 à 12:00