<?xml version="1.0" encoding="iso-8859-1"?>
<rss version="2.0">
<channel>
  <title>Réalisation d'un serveur IA avec RTX 5090 &amp; AMD Epyc, flux du sujet : </title>
  <link>https://www.cowcotland.com</link>
  <description>Le forum officiel</description>
  <language>french</language>
  <copyright>(c) Copyright 2026 by CowcotLand</copyright>
  <managingEditor>Webmaster@cowcotland.com</managingEditor>
  <webMaster>Webmaster@cowcotland.com</webMaster>
  <pubDate>Mercredi 17 Juin 2026 à 03:27:27</pubDate>
  <lastBuildDate>Mercredi 17 Juin 2026 à 03:27:27</lastBuildDate>  
  <generator>CCL</generator>
  <ttl>1</ttl>

  <image>
    <title>CowcotLand</title>
    <url></url>
    <link>https://www.cowcotland.com/</link>
    <description>Le forum officiel</description>
  </image>

                                      <item>
                                        <title>Re: Réalisation d'un serveur IA avec RTX 5090 &amp; AMD Epyc</title>
                                        <link>https://www.cowcotland.com/topic47962-105.html#868561</link>
                                        <description>&lt;br /&gt;
                                      Auteur: &lt;a href='https://www.cowcotland.com/membre27853.html'&gt;funkydata&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;
                                      Posté le: Dimanche 31 Mai 2026 à 02:09:34&lt;br /&gt;&lt;br /&gt;
                                      &lt;br /&gt;&lt;br /&gt;
                                      &lt;a title=&quot;voir le profil de mini-pouce&quot; href=&quot;/membre8804.html&quot; class=&quot;m_citer&quot;&gt;@mini-pouce&lt;/a&gt; Après on est en face de type de LLMs vraiment différents. Ceux pour le coding c'est des LLMs entrainés spécifiquement, destinés à être appelés différemment (Tool), à fournir la réponse différemment. Impossible de dresser un parallèle entre les deux pour l'heure, du coup c'est intéressant d'avoir aussi un point de vue sur les LLMs  &quot;standards&quot;.</description>
                                        <comments>https://www.cowcotland.com/topic47962-105.html#868561</comments>
                                        <author>funkydata</author>
                                        <pubDate>Dimanche 31 Mai 2026 à 02:09:34</pubDate>
                                        <guid isPermaLink="true">https://www.cowcotland.com/topic47962-105.html#868561</guid>
                                      </item>
                                      <item>
                                        <title>Re: Réalisation d'un serveur IA avec RTX 5090 &amp; AMD Epyc</title>
                                        <link>https://www.cowcotland.com/topic47962-105.html#868541</link>
                                        <description>&lt;br /&gt;
                                      Auteur: &lt;a href='https://www.cowcotland.com/membre8804.html'&gt;mini-pouce&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;
                                      Posté le: Samedi 30 Mai 2026 à 21:01:06&lt;br /&gt;&lt;br /&gt;
                                      &lt;br /&gt;&lt;br /&gt;
                                      J'adore le &quot;pareil mais différent&quot;, ça résume bien en fait.&lt;br /&gt;
&lt;br /&gt;
Je me suis aussi prêté au jeu, je suis aller un peu plus loin que d'habitude en essayant de sortir un rapport de qualité, sans doute la même qualité dont parle OMG ? Je me suis amusé à comparer GPT 5.4 à Qwen 3.5 35BA3B, donc pas les plus récents tous les deux mais c'est ce que j'avais sous la main à ce moment.&lt;br /&gt;
&lt;br /&gt;
Comme Funky je ne considère pas que ce modèle soit suffisant, en tout cas avec seulement les 3B actifs, mais ça tourne facile.&lt;br /&gt;
En premier lieux le Qwen s'est fourvoyé de domaine, il est partie en médecine au lieu de physique (je lui accorde la ressemblance sémantique), après un petit rappel à l'ordre tout c'est bien passé. Et pour être juste l'outil microsoft a aussi nécessité un petit réglage parce que par défaut il t'envoie un modèle à la cow.&lt;br /&gt;
Première impression, ou deuxième du coup, franchement pas si dégueu, il se débrouille.&lt;br /&gt;
&lt;br /&gt;
J'ai essayer de filer une recherche sur un sujet en expliquant des choses, en faisant un petit état de l'art, puis en allant jusqu'à les faire réfléchir et conclure dessus. Je n'ai pas essayé de lui tordre le coup ou de faire le malin, mais de l'utiliser comme quelqu'un de lambda pour voir ce qu'il sort par défaut.&lt;br /&gt;
Sans doute qu'on pourra faire mieux avec quelques astuces pour sortir le meilleur des modèles.&lt;br /&gt;
&lt;br /&gt;
&lt;span style=&quot;text-decoration: underline&quot;&gt;Les limites des deux outils&lt;/span&gt; :&lt;br /&gt;
- le langage, avec bien sûr un avantage pour le gros GPT5.4, mais ce n'est jamais assez formel et il y a toujours des petites bizarrerie ou mots mal utilités.&lt;br /&gt;
- Sur un aussi petit modèle que le Qwen utilisé, impossible de créer de le faire produire de long documents 2 à 4 pages max.&lt;br /&gt;
-  Qwen peut pas mais les images produites par GPT étaient à chier et s'il peut faire 10 à 20 p c'est répétitif. J'ai aussi l'impression qu'il a du mal à ce détacher de certaines choses, genre toujours les même lien, toujours les même sources.&lt;br /&gt;
- GPT me semble avoir mieux géré les équations, même si j'aurais aimé en voir plus.&lt;br /&gt;
- Sur ce qwen j'avais mis le contexte max, et ça parait suffisamment grand pour filer longtemps le sujet, je n'ai utilisé que 20% des 200k je crois sans voir de perte de perf ou de raison.&lt;br /&gt;
- Les deux ont pu comparer des documents entre eux, GPT allait plus loin dans ces réflexions comme à chaque fois et était plus incisif/pertinant.&lt;br /&gt;
&lt;br /&gt;
Sorti les premiers promptes ou tu découvre et dégrossi le sujet, le rapport ne me parait pas si utile lui. Ce n'est pas un rapport mais une concaténation de l'ensemble de ces réponses, plus ou moins bien formater en fonction des versions.&lt;br /&gt;
D'un autre côté j'ai des exigences bien au-dessus de la moyenne, comme Funky avec ces jeux, et avec du recul ce sont des informations intéressantes et digestes qui pourraient vraiment servir à beaucoup. De plus, je n'ai pas vu de choses fausses, tout au plus des passages peu compréhensibles ou une obsession sur un truc plus qu'un autre.&lt;br /&gt;
&lt;br /&gt;
Et du coup, même s'il perd ce match truqué, le Qwen ne démérite pas.&lt;br /&gt;
Il tourne sur 20 GB et avec le A3B je pense qu'une petite CG en 16 GB doit suffire, je me pose la question pour 8 GB ? Dans mon cas je l'ai testé sur un AI Max et ça tournait à 20 tk/s, ce qui est suffisamment rapide, souvent plus que GPT (car il réfléchi plus).&lt;br /&gt;
Et il est quand même suffisant puisque de toute façon je n'ai pas pu tirer grand chose de plus des capacité du GPT. A voir ce que ça donnerait avec un modèles libre plus gros et en prenant le temps de mieux prompter.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
EDIT :&lt;br /&gt;
&lt;/span&gt;&lt;table width=&quot;90%&quot; cellspacing=&quot;1&quot; cellpadding=&quot;3&quot; border=&quot;0&quot; align=&quot;center&quot; class=&quot;bodyline&quot;&gt;&lt;tr&gt; 	  &lt;td class=&quot;helpline&quot;&gt;&lt;span class=&quot;genmed&quot;&gt;&lt;b&gt;funkydata a écrit:&lt;/b&gt;&lt;script type=&quot;text/javascript&quot; src=&quot;/modules/Forums/templates/select_expand_bbcodes.js&quot;&gt;&lt;/script&gt;&lt;script type=&quot;text/javascript&quot;&gt;&lt;br /&gt;&lt;!--&lt;br /&gt;	var id = 'SXBB' + (1000 + Math.floor(Math.random() * 5000));	SXBB[id] = new _SXBB(id);	SXBB[id].T['select'] = 'Select';	SXBB[id].T['expand'] = 'Expand';	SXBB[id].T['contract'] = 'Contract';	SXBB[id].writeCmd();&lt;br /&gt;//--&gt;&lt;br /&gt;&lt;/script&gt;		&lt;/span&gt;&lt;/td&gt;	&lt;/tr&gt;	&lt;tr&gt;	  &lt;td class=&quot;quote&quot;&gt;&lt;script type=&quot;text/javascript&quot;&gt;&lt;br /&gt;&lt;!--&lt;br /&gt;	SXBB[id].writeDiv();&lt;br /&gt;//--&gt;&lt;br /&gt;&lt;/script&gt;&lt;a title=&quot;voir le profil de mini-pouce&quot; href=&quot;/membre8804.html&quot; class=&quot;m_citer&quot;&gt;@mini-pouce&lt;/a&gt; Evidemment, je parlais d'une machine équilibrée avec un CPU disposant des instructions de calcul vectoriel idoines. C'est sur que si tu colles un CPU dinosaure (point de vu IA) avec de la mémoire trop rapide, tu vas bottleneck sur l'IPC. &lt;br /&gt;
&lt;script type=&quot;text/javascript&quot;&gt;&lt;br /&gt;&lt;!--&lt;br /&gt;	document.write('&lt;/div&gt;');&lt;br /&gt;//--&gt;&lt;br /&gt;&lt;/script&gt;		&lt;/td&gt;	&lt;/tr&gt;&lt;/table&gt;&lt;span class=&quot;postbody&quot;&gt;&lt;br /&gt;
&lt;br /&gt;
Je n'allais pas aussi loin, de mon expérience je dis juste qu'à force de parler de BP on lui donne trop d'importance, en tout cas pour inférer à notre niveau.&lt;br /&gt;
Côté instruction et type, il n'y a pas eu autant de mouvement que sur le milieu de la CG. &lt;br /&gt;
Je pense que ce sont les derniers Xeon qui ont le plus intégré de techos dédiées mais je n'y ai pas touché.&lt;br /&gt;
Même sur Epyc en Zen4 ou 5 tu as seulement l'intégration AVX512 (mieux gérer sur 5) qui était déjà présente chez Intel. A part ça je ne vois pas.</description>
                                        <comments>https://www.cowcotland.com/topic47962-105.html#868541</comments>
                                        <author>mini-pouce</author>
                                        <pubDate>Samedi 30 Mai 2026 à 21:01:06</pubDate>
                                        <guid isPermaLink="true">https://www.cowcotland.com/topic47962-105.html#868541</guid>
                                      </item>
                                      <item>
                                        <title>Re: Réalisation d'un serveur IA avec RTX 5090 &amp; AMD Epyc</title>
                                        <link>https://www.cowcotland.com/topic47962-105.html#868469</link>
                                        <description>&lt;br /&gt;
                                      Auteur: &lt;a href='https://www.cowcotland.com/membre27853.html'&gt;funkydata&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;
                                      Posté le: Vendredi 29 Mai 2026 à 18:17:27&lt;br /&gt;&lt;br /&gt;
                                      &lt;br /&gt;&lt;br /&gt;
                                      J'ai fini de tester Gemma 4 26B. Bon, c'est pareil que Qwen 3 Coder en différent. J'ai vraiment eu des résultats aux opposés avec ce modèle.&lt;br /&gt;
Même si je suis totalement conscient et que je salue les énormes progrès fait par ces modèles je n'ai quand même pas été convaincu au final, pas plus par Gemma 4 que par Qwen 3 Coder. Je dirais même que ce dernier est plus stable.&lt;br /&gt;
J'ai fait un retour bien plus complet sur mon Workblog si ça vous intéresse : &lt;a href=&quot;https://funkydata13.github.io/#test-llm1&quot; target=&quot;_blank&quot; rel=&quot;nofollow&quot;&gt;https://funkydata13.github.io/#test-llm1&lt;/a&gt;&lt;br /&gt;
&lt;br /&gt;
Pour moi 30B c'est pas suffisant, j'aimerais bien tester les &quot;lourds&quot; mais j'ai pas mieux que mes &quot;PC normaux&quot;. Aucune idée de ce que ça peut donner sur les modèles à 3 chiffres.</description>
                                        <comments>https://www.cowcotland.com/topic47962-105.html#868469</comments>
                                        <author>funkydata</author>
                                        <pubDate>Vendredi 29 Mai 2026 à 18:17:27</pubDate>
                                        <guid isPermaLink="true">https://www.cowcotland.com/topic47962-105.html#868469</guid>
                                      </item>
                                      <item>
                                        <title>Re: Réalisation d'un serveur IA avec RTX 5090 &amp; AMD Epyc</title>
                                        <link>https://www.cowcotland.com/topic47962-105.html#868352</link>
                                        <description>&lt;br /&gt;
                                      Auteur: &lt;a href='https://www.cowcotland.com/membre27853.html'&gt;funkydata&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;
                                      Posté le: Jeudi 28 Mai 2026 à 12:49:28&lt;br /&gt;&lt;br /&gt;
                                      &lt;br /&gt;&lt;br /&gt;
                                      &lt;a title=&quot;voir le profil de mini-pouce&quot; href=&quot;/membre8804.html&quot; class=&quot;m_citer&quot;&gt;@mini-pouce&lt;/a&gt; Evidemment, je parlais d'une machine équilibrée avec un CPU disposant des instructions de calcul vectoriel idoines. C'est sur que si tu colles un CPU dinosaure (point de vu IA) avec de la mémoire trop rapide, tu vas bottleneck sur l'IPC. &lt;br /&gt;
&lt;br /&gt;
Sur un setup &quot;équilibré&quot; le nerf de la guerre reste la vitesse mémoire, aussi vrai que jouer en 4k c'est quasi tout le temps un bottleneck GPU si tu n'as pas fait n'importe quoi niveau choix hardware &amp;#128523;</description>
                                        <comments>https://www.cowcotland.com/topic47962-105.html#868352</comments>
                                        <author>funkydata</author>
                                        <pubDate>Jeudi 28 Mai 2026 à 12:49:28</pubDate>
                                        <guid isPermaLink="true">https://www.cowcotland.com/topic47962-105.html#868352</guid>
                                      </item>
                                      <item>
                                        <title>Re: Réalisation d'un serveur IA avec RTX 5090 &amp; AMD Epyc</title>
                                        <link>https://www.cowcotland.com/topic47962-105.html#868286</link>
                                        <description>&lt;br /&gt;
                                      Auteur: &lt;a href='https://www.cowcotland.com/membre8804.html'&gt;mini-pouce&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;
                                      Posté le: Mercredi 27 Mai 2026 à 04:41:06&lt;br /&gt;&lt;br /&gt;
                                      &lt;br /&gt;&lt;br /&gt;
                                      La bande passante est importante mais il faut pouvoir la soutenir.&lt;br /&gt;
Tu prends un xeon v4 et un Xeon plati que tu fous en quad channel même fréquence et tu n'auras pas les même perf avec un écart qui est rapport à l'ipc.&lt;br /&gt;
&lt;br /&gt;
Pareillement sur des plateformes publiques plus modernes ou différentes archi de GPU.&lt;br /&gt;
&lt;br /&gt;
Par contre tu marques un point sur le fait de privilégier une plateforme DDR4 en 6/8 channel si possible.&lt;br /&gt;
Mais dès qu'on dépasse le quad les prix grimpent au dessus des 400€ pour un truc de 8 ans ou plus déjà.&lt;br /&gt;
&lt;br /&gt;
Sachant que le monsieur est équipé en 3090 il pourra difficilement investir dans mieux sans vendre un rein.&lt;br /&gt;
Je lui conseille de laisser les GPU dans 1 seule config et d'acheter un nvlink il aura ainsi un pool de 48 Gb assez rapide.&lt;br /&gt;
Ça doit se défendre avec la 5090 par certains aspects (hors nouveaux formats).</description>
                                        <comments>https://www.cowcotland.com/topic47962-105.html#868286</comments>
                                        <author>mini-pouce</author>
                                        <pubDate>Mercredi 27 Mai 2026 à 04:41:06</pubDate>
                                        <guid isPermaLink="true">https://www.cowcotland.com/topic47962-105.html#868286</guid>
                                      </item>
                                      <item>
                                        <title>Re: Réalisation d'un serveur IA avec RTX 5090 &amp; AMD Epyc</title>
                                        <link>https://www.cowcotland.com/topic47962-105.html#868280</link>
                                        <description>&lt;br /&gt;
                                      Auteur: &lt;a href='https://www.cowcotland.com/membre27853.html'&gt;funkydata&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;
                                      Posté le: Mercredi 27 Mai 2026 à 00:34:28&lt;br /&gt;&lt;br /&gt;
                                      &lt;br /&gt;&lt;br /&gt;
                                      La puissance de calcul brute ne sert qu'à traiter le prompt ; c'est la bande passante mémoire qui détermine à quelle vitesse on la vide (les jetons).&lt;br /&gt;
La DDR4 n'est donc pas le choix de la vitesse. C'est très simple de se faire une idée précise des perfs :&lt;br /&gt;
Tu as un modèle de 115 Go ? Tu es en Quad-Channel DDR4 3600 donc 115 Go/s ? Tu auras environ 1 token/seconde. Même principe pour le GPU. &lt;br /&gt;
&lt;br /&gt;
Les LLM c'est surtout un énorme bottleneck sur la vitesse mémoire, c'est bien pour ça que les GPU spécialisés ont des bus de malades : &lt;br /&gt;
H100 3,3 To/s&lt;br /&gt;
H200 4,8 To/s&lt;br /&gt;
B200 8 To/s&lt;br /&gt;
Le gain entre ma 5070 et ma 5080 c'est exactement la différence de bande passante. Après le fait de faire de l'offloading GPU&amp;gt;CPU complique largement le calcul mais dans le principe c'est ça.</description>
                                        <comments>https://www.cowcotland.com/topic47962-105.html#868280</comments>
                                        <author>funkydata</author>
                                        <pubDate>Mercredi 27 Mai 2026 à 00:34:28</pubDate>
                                        <guid isPermaLink="true">https://www.cowcotland.com/topic47962-105.html#868280</guid>
                                      </item>
                                      <item>
                                        <title>Re: Réalisation d'un serveur IA avec RTX 5090 &amp; AMD Epyc</title>
                                        <link>https://www.cowcotland.com/topic47962-105.html#868277</link>
                                        <description>&lt;br /&gt;
                                      Auteur: &lt;a href='https://www.cowcotland.com/membre36925.html'&gt;OMGimag33k&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;
                                      Posté le: Mardi 26 Mai 2026 à 23:12:35&lt;br /&gt;&lt;br /&gt;
                                      &lt;br /&gt;&lt;br /&gt;
                                      Faire tourner des modèles 70B ou 100B sur une CM en RAM dual channel ça va être galère, ou alors avec une quantization en q2/q3 et une vitesse assez faible.&lt;br /&gt;
&lt;br /&gt;
Si je devais monter un setup &quot;budget&quot; pour de l'IA, je choisirais du matériel de génération précédente en DDR4 car les CM et CPU sont plus accessibles. La DDR4 est aussi moins chère que la DDR5 même en ECC. Et pour ça le meilleur rapport perf / prix est en général du recyclage d'anciens serveurs Xeon / Epyc, exemple: &lt;a href=&quot;https://www.leboncoin.fr/ad/accessoires_informatique/3046080399&quot; target=&quot;_blank&quot; rel=&quot;nofollow&quot;&gt;https://www.leboncoin.fr/ad/accessoires_informatique/3046080399&lt;/a&gt;&lt;br /&gt;
Sur Ebay on trouve pas mal de CPUs Xeon ou Epyc en ES/QS à des prix intéressants. Les Epyc 7002 / 7003 sont plus intéressants que les équivalents Threadripper, pour plusieurs raisons:&lt;br /&gt;
&lt;br /&gt;
- Plus de canaux mémoire, donc possibilité de doubler la bande passante mémoire par rapport aux Threadripper&lt;br /&gt;
- Plus de lignes PCIe&lt;br /&gt;
- Des CPUs bien moins chers que les équivalents Threadripper à nombre de core égal exemple &lt;a href=&quot;https://www.leboncoin.fr/ad/accessoires_informatique/3169735358&quot; target=&quot;_blank&quot; rel=&quot;nofollow&quot;&gt;https://www.leboncoin.fr/ad/accessoires_informatique/3169735358&lt;/a&gt;&lt;br /&gt;
&lt;br /&gt;
Donc techniquement c'est un bon choix, d'autant que l'ancien matériel serveur ne vaut pas cher par rapport à du Threadripper qui est encore coté mais il faut pouvoir trouver un CPU avec beaucoup de cores et aussi peupler un max de slots RAM, à partir de 4 slots peuplés on égale le quad channel du threadripper et au delà c'est de la perf en plus.&lt;br /&gt;
&lt;br /&gt;
L'inconvénient c'est que les cartes mères en SP3 sont rarement aux formats desktop classique type ATX, le meilleur rapport prix perf est probablement d'acheter un vieux serveur complet mais encore faut-il pouvoir le loger.&lt;br /&gt;
&lt;br /&gt;
Ensuite, selon les modèles et le besoin de vitesse de génération envisagés, l'économie réalisée sur l'achat d'une ancienne plateforme aide pour mettre un billet dans le GPU, l'ajout de vRAM peut multiplier la vitesse d'inférence par 2 ou 5 voir plus mais ça dépend du matériel, du modèle et de nombreux paramètres.&lt;br /&gt;
&lt;br /&gt;
Si tu as déjà des GPUs ça dépend des modèles que tu veux faire tourner. Si tu ne sais pas exactement ce que tu vas faire tourner, prévois de pouvoir évoluer pour le cas ou tu voudrais utiliser des modèles 100B et plus, pour ça il faudra de la bande passante mémoire et des cores CPU si tu offload. On peut déjà faire des choses sympas avec des modèles 30B type Gemma 4, Qwen 3.5/3.6 ou Magistral small par exemple.&lt;br /&gt;
&lt;br /&gt;
Sans chiffrer précisément je pense que jusqu'à 100B environ en q8 donc des modèles autour de 80 à 100 Go ça peut être intéressant de viser le full vRAM ou presque en investissant dans des GPUs, mais au delà il faut passer sur de l'offload de toute manière car le budget GPU explose.&lt;br /&gt;
&lt;br /&gt;
Avant d'investir tu peux louer de la puissance de calcul IA à la demande, il y a pas mal de sites exemple &lt;a href=&quot;https://www.hyperstack.cloud/&quot; target=&quot;_blank&quot; rel=&quot;nofollow&quot;&gt;https://www.hyperstack.cloud/&lt;/a&gt; ça peut t'aider à faire des tests et mieux cerner et dimensionner ton besoin.</description>
                                        <comments>https://www.cowcotland.com/topic47962-105.html#868277</comments>
                                        <author>OMGimag33k</author>
                                        <pubDate>Mardi 26 Mai 2026 à 23:12:35</pubDate>
                                        <guid isPermaLink="true">https://www.cowcotland.com/topic47962-105.html#868277</guid>
                                      </item>
                                      <item>
                                        <title>Re: Réalisation d'un serveur IA avec RTX 5090 &amp; AMD Epyc</title>
                                        <link>https://www.cowcotland.com/topic47962-105.html#868270</link>
                                        <description>&lt;br /&gt;
                                      Auteur: &lt;a href='https://www.cowcotland.com/membre8804.html'&gt;mini-pouce&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;
                                      Posté le: Mardi 26 Mai 2026 à 22:33:48&lt;br /&gt;&lt;br /&gt;
                                      &lt;br /&gt;&lt;br /&gt;
                                      Pas le temps ce soir mais GPU , GPU, GPU.&lt;br /&gt;
Si t'es pas pressés tu peux changer de gros modèles mais  sur de vieilles plateforme la perf sera catastrophique (&amp;lt;1tk/s).&lt;br /&gt;
Par contre dans l'absolu avec un mix GPU liés avec un bridge peu importe la plateforme tant que tu charge en RAM. Privilégier plus de canaux mémoire (bande passante).</description>
                                        <comments>https://www.cowcotland.com/topic47962-105.html#868270</comments>
                                        <author>mini-pouce</author>
                                        <pubDate>Mardi 26 Mai 2026 à 22:33:48</pubDate>
                                        <guid isPermaLink="true">https://www.cowcotland.com/topic47962-105.html#868270</guid>
                                      </item>
                                      <item>
                                        <title>Re: Réalisation d'un serveur IA avec RTX 5090 &amp; AMD Epyc</title>
                                        <link>https://www.cowcotland.com/topic47962-105.html#868260</link>
                                        <description>&lt;br /&gt;
                                      Auteur: &lt;a href='https://www.cowcotland.com/membre44371.html'&gt;Oursatomix&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;
                                      Posté le: Mardi 26 Mai 2026 à 21:37:36&lt;br /&gt;&lt;br /&gt;
                                      &lt;br /&gt;&lt;br /&gt;
                                      Je profite de ton post que je suis avec assiduité pour vous poser une question matériel. &lt;br /&gt;
&lt;br /&gt;
Alors avant que vous me posiez en réponse la question fatidique, &quot;pour quoi faire&quot;, je vous réponds:&lt;br /&gt;
&lt;br /&gt;
Rien! je l'avais déjà évoqué précédement mais je n'ai aucun usage qui nécessitte d'héberger une solution IA. &lt;br /&gt;
Mais je veux le faire. Je veux au moment ou j'en aurai la necessité ou l'idée pouvoir m'en servir. Je veux pouvoir la proposer par exemple à de la famille. J'ai une soeur et un frere beaucoup plus jeunes que moi, beaucoup plus qualifiés et diplomés mais.. qui n'ont pas encore perçu la NECESSITE d'avoir une solution indépendante et pérenne.&lt;br /&gt;
&lt;br /&gt;
Mon calcul depuis le début de l'eplosion et des premiers essais de ChgatGPT c'est que ca n'est pas possible que tout cela restera accessible à tout le monde et en plus de cela gratuitement. &lt;br /&gt;
&lt;br /&gt;
Bref.  Je constate qu'on peut avoir aujourd'hui des solutions déjà pertinente et pertformante. Que les couts sont encore modérés sur la technologie actuelle. Modérés... &lt;br /&gt;
&lt;br /&gt;
J'ai donc actuellement une plateforme Z790 avec un i7 14700K.&lt;br /&gt;
64Gb de ram installée mais j'ai un autre kit identique en cas de nécessité. &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Mon Probleme: &lt;br /&gt;
&lt;br /&gt;
Pour accéder à de plus gros modeles/gagner en performance je peux:&lt;br /&gt;
- ajouter ces 64Gb de ram et passer à 128Gb. Mais certes DDR5 mais en dual channel.&lt;br /&gt;
-ajouter.. a non je ne peux plus ajouter de gpu &amp;#128531; &lt;br /&gt;
&lt;br /&gt;
Je pouvais trouver des cpu type threadripper et leur CM en sTr4,Str5 ou sWRX8 à bon prix en neuf mais pas la ram..ou a des prix fous.&lt;br /&gt;
&lt;br /&gt;
Alors l'occasion. &lt;br /&gt;
&lt;br /&gt;
-Est-ce pertient de passer sur du &quot;vieux&quot; x299 et ce vieux i9-10940X pour atteindre 256Go de ram ddr4 quad channel et pouvoir placer une 3eme 3090 voir quatre en x16/x4/x16/x8 ? &lt;br /&gt;
&lt;br /&gt;
-Est-ce mieux de viser des Threadripper 3960x ou 3970x sur du TRX40, pour du x16/x8/x16/x8 mais au détriment de la ram souvent les annonces sont chéres avec &quot;que&quot; 64Go.</description>
                                        <comments>https://www.cowcotland.com/topic47962-105.html#868260</comments>
                                        <author>Oursatomix</author>
                                        <pubDate>Mardi 26 Mai 2026 à 21:37:36</pubDate>
                                        <guid isPermaLink="true">https://www.cowcotland.com/topic47962-105.html#868260</guid>
                                      </item>
                                      <item>
                                        <title>Re: Réalisation d'un serveur IA avec RTX 5090 &amp; AMD Epyc</title>
                                        <link>https://www.cowcotland.com/topic47962-105.html#868210</link>
                                        <description>&lt;br /&gt;
                                      Auteur: &lt;a href='https://www.cowcotland.com/membre36925.html'&gt;OMGimag33k&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;
                                      Posté le: Mardi 26 Mai 2026 à 10:23:02&lt;br /&gt;&lt;br /&gt;
                                      &lt;br /&gt;&lt;br /&gt;
                                      Bonjour,&lt;br /&gt;
&lt;br /&gt;
J'ai pu ajouter un stick de RAM refurb pour passer à 448 Go de RAM, en ajoutant les 32 Go de vRAM je peux maintenant charger des modèles faisant jusqu'à 420 à 430 Go.&lt;br /&gt;
&lt;br /&gt;
Le point positif, c'est que j'ai maintenant accès à certains des modèles ouverts parmi les meilleurs au monde d'après les benchmarks &lt;a href=&quot;https://arena.ai/leaderboard/text/creative-writing?license=open-source&quot; target=&quot;_blank&quot; class=&quot;postlink&quot; rel=&quot;nofollow&quot;&gt;et leaderboards&lt;/a&gt;:&lt;br /&gt;
&lt;br /&gt;
- Mimo 2.5 Q8_K_XL 337 Go, un modèle polyvalent et très qualitatif&lt;br /&gt;
- GLM 5.1 Q4_0 427 Go, un modèle de qualité mais à 2.2 tok/sec difficilement utilisable&lt;br /&gt;
- Deepseek 3.2 Q4_K_XL 407 Go un modèle de qualité mais à 1 tok/sec difficilement utilisable&lt;br /&gt;
- Kimi K 2.6 IQ3_S 407 Go pas fini de tester mais 2.4 tok/sec&lt;br /&gt;
&lt;br /&gt;
Le point négatif c'est que j'en arrive au point ou le serveur comment à pouvoir faire tourner des gros modèles, mais le manque de puissance de calcul commence à se faire sentir, les 24 cores ne suivent pas et la RTX 5090 ne booste plus beaucoup l'inférence avec ses 32 Go de vRAM quand on travaille sur des modèles denses de 400 Go.&lt;br /&gt;
&lt;br /&gt;
Clairement, il y a un équilibre à avoir entre la puissance de calcul et la quantité de RAM pour pouvoir exploiter les LLMs correctement. Et à moins de pouvoir investir dans une paire de RTX Pro 6000 Blackwell, le plus efficace est de passer sur un CPU 48 cores minimum, à ce stade le 24 cores devient un bottleneck.&lt;br /&gt;
&lt;br /&gt;
Les deux modèles les plus adaptés avec le setup actuel sont des MoE: Qwen 3.5 397B A17B Q8_0 et Mimo 2.5 Q8_K_XL qui tournent en 4.5 tok/sec, je poursuis les tests.&lt;br /&gt;
&lt;br /&gt;
J'attends toujours de pouvoir tester Deepseek V4 Flash quand la nouvelle architecture deepseek4 sera intégrée à la version stable de llama.cpp.</description>
                                        <comments>https://www.cowcotland.com/topic47962-105.html#868210</comments>
                                        <author>OMGimag33k</author>
                                        <pubDate>Mardi 26 Mai 2026 à 10:23:02</pubDate>
                                        <guid isPermaLink="true">https://www.cowcotland.com/topic47962-105.html#868210</guid>
                                      </item>
                                      <item>
                                        <title>Re: Réalisation d'un serveur IA avec RTX 5090 &amp; AMD Epyc</title>
                                        <link>https://www.cowcotland.com/topic47962-105.html#867734</link>
                                        <description>&lt;br /&gt;
                                      Auteur: &lt;a href='https://www.cowcotland.com/membre27853.html'&gt;funkydata&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;
                                      Posté le: Mardi 19 Mai 2026 à 16:06:58&lt;br /&gt;&lt;br /&gt;
                                      &lt;br /&gt;&lt;br /&gt;
                                      &lt;/span&gt;&lt;table width=&quot;90%&quot; cellspacing=&quot;1&quot; cellpadding=&quot;3&quot; border=&quot;0&quot; align=&quot;center&quot; class=&quot;bodyline&quot;&gt;&lt;tr&gt; 	  &lt;td class=&quot;helpline&quot;&gt;&lt;span class=&quot;genmed&quot;&gt;&lt;b&gt;mini-pouce a écrit:&lt;/b&gt;&lt;script type=&quot;text/javascript&quot; src=&quot;/modules/Forums/templates/select_expand_bbcodes.js&quot;&gt;&lt;/script&gt;&lt;script type=&quot;text/javascript&quot;&gt;&lt;br /&gt;&lt;!--&lt;br /&gt;	var id = 'SXBB' + (1000 + Math.floor(Math.random() * 5000));	SXBB[id] = new _SXBB(id);	SXBB[id].T['select'] = 'Select';	SXBB[id].T['expand'] = 'Expand';	SXBB[id].T['contract'] = 'Contract';	SXBB[id].writeCmd();&lt;br /&gt;//--&gt;&lt;br /&gt;&lt;/script&gt;		&lt;/span&gt;&lt;/td&gt;	&lt;/tr&gt;	&lt;tr&gt;	  &lt;td class=&quot;quote&quot;&gt;&lt;script type=&quot;text/javascript&quot;&gt;&lt;br /&gt;&lt;!--&lt;br /&gt;	SXBB[id].writeDiv();&lt;br /&gt;//--&gt;&lt;br /&gt;&lt;/script&gt;Côté CG, peut être que 16 Gb c'est encore un peu juste, je dirais qu'il faut autour de 20+ si on fixe le niveau minimal requis à un Qwen3.530BA3B. &lt;br /&gt;
Tu devais beaucoup déchargé dans le CPU toi avec ta 5070 ?&lt;script type=&quot;text/javascript&quot;&gt;&lt;br /&gt;&lt;!--&lt;br /&gt;	document.write('&lt;/div&gt;');&lt;br /&gt;//--&gt;&lt;br /&gt;&lt;/script&gt;		&lt;/td&gt;	&lt;/tr&gt;&lt;/table&gt;&lt;span class=&quot;postbody&quot;&gt;&lt;br /&gt;
&lt;br /&gt;
A mort ! Le GPU tournait à 10-12% max, 11 Go de VRAM occupé pour la marge de sécurité ! Surtout avec CUDA qui me les brise menue (il n'y a pas d'autre mot !) avec sa manie de dupliquer la VRAM dans la RAM ! Suivant les versions des outils, le driver, ben sur les 32 Go 100% utilisé aussi ! &lt;br /&gt;
Là j'ai retrouvé un poil de tranquillité avec 11 Go VRAM et 70% RAM environ sur 32 juste avec le 35B, jusqu'à la prochaine update sans doute, c'est vraiment pénible comme comportement surtout quand tu finis par attaquer le fichier d'échange ! Donc ouais 32 Go c'est le strict minimum.&lt;br /&gt;
&lt;br /&gt;
Le soucis c'est que ça pompe toute ta VRAM. Impossible de bosser sur Blender, Unreal ou sur des projets lourds ou même surfer sur certains sites avec le modèle d'IA simplement chargé. Donc machine dédiée quasi obligatoire. 16 Go pour moi c'est trop peu. Je  partitionne à 12 Go pour avoir un poil de marge vu que c'est la machine que j'utilise (celle avec la 5080) et 3 Go de VRAM adressable, ça part vite. Donc tu as 8 Go environ d'overload sur la RAM mais c'est plus en réalité avec la cache, le contexte et tout. &lt;br /&gt;
Pour moi 24 Go VRAM + 32 Go DDR5 sur une machine dédié ce serait le minimum sur lequel je partirais aujourd'hui. &lt;br /&gt;
Pour un usage plus soft et plus casual, celui de &quot;Mme Michou&quot; : ChatGPT, Mistral, Gemini, peu importe mais le local n'a aucun intérêt.</description>
                                        <comments>https://www.cowcotland.com/topic47962-105.html#867734</comments>
                                        <author>funkydata</author>
                                        <pubDate>Mardi 19 Mai 2026 à 16:06:58</pubDate>
                                        <guid isPermaLink="true">https://www.cowcotland.com/topic47962-105.html#867734</guid>
                                      </item>
                                      <item>
                                        <title>Re: Réalisation d'un serveur IA avec RTX 5090 &amp; AMD Epyc</title>
                                        <link>https://www.cowcotland.com/topic47962-105.html#867727</link>
                                        <description>&lt;br /&gt;
                                      Auteur: &lt;a href='https://www.cowcotland.com/membre8804.html'&gt;mini-pouce&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;
                                      Posté le: Mardi 19 Mai 2026 à 15:35:44&lt;br /&gt;&lt;br /&gt;
                                      &lt;br /&gt;&lt;br /&gt;
                                      J'ai un peu insisté pour venir conclure sur le poste ou tu disais un peu abandonner et nos réponses respectives avec OMG.&lt;br /&gt;
Pour le moment sur une même quantité de VRAM et de puissance de calcul, les modèles sont passé d'inutiles, à bizarres, passables et maintenant utilisables. Et ça va continuer ! Donc patience. &lt;img src=&quot;/modules/Forums/images/smiles/icon_wink.gif&quot; alt=&quot;Clin d'oeil&quot; border=&quot;0&quot; /&gt;&lt;br /&gt;
&lt;br /&gt;
J'ai quand même l'impression que tu as un usage un peu plus poussé que la moyenne, et je pense que c'est plus du ressort de l’argentique et je te rejoints, faut un peu plus qu'une config de base.&lt;br /&gt;
M'enfin il y a peu fallait la config d'OMG pour le moindre LLM vraiment quali.&lt;br /&gt;
&lt;br /&gt;
Pour le multiGPU j'entends recycler son matos.&lt;br /&gt;
J'ai (avais) souvent eu un CG gamer de gen précédente (parce que $!) et une carte pro encore plus précédente.&lt;br /&gt;
Et ça colle plutôt bien, ou en tout cas ça commence à coller avec les avancées actuelles.&lt;br /&gt;
&lt;br /&gt;
Par contre je ne suis pas d'accord pour la RAM, car avec le critères fixés, inférer sur un CPU grand publique c'est vraiment nul.&lt;br /&gt;
Du coup 32 GB me paraissent suffisant... A la rigueur 64 dans un contexte multi-usage comme tu y travaille.&lt;br /&gt;
Côté CG, peut être que 16 Gb c'est encore un peu juste, je dirais qu'il faut autour de 20+ si on fixe le niveau minimal requis à un Qwen3.530BA3B. &lt;br /&gt;
Tu devais beaucoup déchargé dans le CPU toi avec ta 5070 ?&lt;br /&gt;
&lt;br /&gt;
En tout cas merci pour ton retour détaillé !</description>
                                        <comments>https://www.cowcotland.com/topic47962-105.html#867727</comments>
                                        <author>mini-pouce</author>
                                        <pubDate>Mardi 19 Mai 2026 à 15:35:44</pubDate>
                                        <guid isPermaLink="true">https://www.cowcotland.com/topic47962-105.html#867727</guid>
                                      </item>
                                      <item>
                                        <title>Re: Réalisation d'un serveur IA avec RTX 5090 &amp; AMD Epyc</title>
                                        <link>https://www.cowcotland.com/topic47962-105.html#867719</link>
                                        <description>&lt;br /&gt;
                                      Auteur: &lt;a href='https://www.cowcotland.com/membre27853.html'&gt;funkydata&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;
                                      Posté le: Mardi 19 Mai 2026 à 14:59:02&lt;br /&gt;&lt;br /&gt;
                                      &lt;br /&gt;&lt;br /&gt;
                                      &lt;/span&gt;&lt;table width=&quot;90%&quot; cellspacing=&quot;1&quot; cellpadding=&quot;3&quot; border=&quot;0&quot; align=&quot;center&quot; class=&quot;bodyline&quot;&gt;&lt;tr&gt; 	  &lt;td class=&quot;helpline&quot;&gt;&lt;span class=&quot;genmed&quot;&gt;&lt;b&gt;mini-pouce a écrit:&lt;/b&gt;&lt;script type=&quot;text/javascript&quot; src=&quot;/modules/Forums/templates/select_expand_bbcodes.js&quot;&gt;&lt;/script&gt;&lt;script type=&quot;text/javascript&quot;&gt;&lt;br /&gt;&lt;!--&lt;br /&gt;	var id = 'SXBB' + (1000 + Math.floor(Math.random() * 5000));	SXBB[id] = new _SXBB(id);	SXBB[id].T['select'] = 'Select';	SXBB[id].T['expand'] = 'Expand';	SXBB[id].T['contract'] = 'Contract';	SXBB[id].writeCmd();&lt;br /&gt;//--&gt;&lt;br /&gt;&lt;/script&gt;		&lt;/span&gt;&lt;/td&gt;	&lt;/tr&gt;	&lt;tr&gt;	  &lt;td class=&quot;quote&quot;&gt;&lt;script type=&quot;text/javascript&quot;&gt;&lt;br /&gt;&lt;!--&lt;br /&gt;	SXBB[id].writeDiv();&lt;br /&gt;//--&gt;&lt;br /&gt;&lt;/script&gt;Et du coup Funky, même si ça ne semble toujours pas suffisant pour toi en l'état, tu vois le progrès ?&lt;br /&gt;
Ça te convainc ou pas ?&lt;script type=&quot;text/javascript&quot;&gt;&lt;br /&gt;&lt;!--&lt;br /&gt;	document.write('&lt;/div&gt;');&lt;br /&gt;//--&gt;&lt;br /&gt;&lt;/script&gt;		&lt;/td&gt;	&lt;/tr&gt;&lt;/table&gt;&lt;span class=&quot;postbody&quot;&gt;&lt;br /&gt;
&lt;br /&gt;
C'est utilisable et appréciable, oui. Ça me convainc fonctionnellement, mais d'un autre côté non, car la demande en ressources est tellement importante et les prix tellement élevés que c'est difficilement envisageable. Il faudrait un 16 cœurs / 32 threads avec 128 Go de RAM et une RTX 5090 (ou 4090, ou 3090) juste pour ça. J'ai beau être un geek enthousiaste et intéressé par tout, c'est un peu exagéré quand même et, en ça, eh bien, ça me convainc vachement moins du coup&lt;br /&gt;
&lt;br /&gt;
&lt;/span&gt;&lt;table width=&quot;90%&quot; cellspacing=&quot;1&quot; cellpadding=&quot;3&quot; border=&quot;0&quot; align=&quot;center&quot; class=&quot;bodyline&quot;&gt;&lt;tr&gt; 	  &lt;td class=&quot;helpline&quot;&gt;&lt;span class=&quot;genmed&quot;&gt;&lt;b&gt;mini-pouce a écrit:&lt;/b&gt;&lt;script type=&quot;text/javascript&quot; src=&quot;/modules/Forums/templates/select_expand_bbcodes.js&quot;&gt;&lt;/script&gt;&lt;script type=&quot;text/javascript&quot;&gt;&lt;br /&gt;&lt;!--&lt;br /&gt;	var id = 'SXBB' + (1000 + Math.floor(Math.random() * 5000));	SXBB[id] = new _SXBB(id);	SXBB[id].T['select'] = 'Select';	SXBB[id].T['expand'] = 'Expand';	SXBB[id].T['contract'] = 'Contract';	SXBB[id].writeCmd();&lt;br /&gt;//--&gt;&lt;br /&gt;&lt;/script&gt;		&lt;/span&gt;&lt;/td&gt;	&lt;/tr&gt;	&lt;tr&gt;	  &lt;td class=&quot;quote&quot;&gt;&lt;script type=&quot;text/javascript&quot;&gt;&lt;br /&gt;&lt;!--&lt;br /&gt;	SXBB[id].writeDiv();&lt;br /&gt;//--&gt;&lt;br /&gt;&lt;/script&gt;Je pense que ça c'est BEAUCOUP amélioré, non ?, mais là encore qu'un remède : augmenter le nombre de paramètres. C'est probablement ce pourquoi OMG s'est orienté vers des modèles &amp;gt;100B...&lt;script type=&quot;text/javascript&quot;&gt;&lt;br /&gt;&lt;!--&lt;br /&gt;	document.write('&lt;/div&gt;');&lt;br /&gt;//--&gt;&lt;br /&gt;&lt;/script&gt;		&lt;/td&gt;	&lt;/tr&gt;&lt;/table&gt;&lt;span class=&quot;postbody&quot;&gt;&lt;br /&gt;
&lt;br /&gt;
Ah mais complètement, il est bien plus capable et il est rattrapable avec plusieurs prompts. Mais ce n'est pas du bon boulot. Ce n'est pas élégant, ni efficace, ni très lisible, et encore moins facilement maintenable. Pour rigoler, j'ai fait avec lui un jeu sous Godot.&lt;br /&gt;
&lt;br /&gt;
&lt;ul&gt;&lt;br /&gt;
&lt;span style=&quot;font-weight: bold&quot;&gt;Contrôle du perso :&lt;/span&gt; OK&lt;br /&gt;
&lt;span style=&quot;font-weight: bold&quot;&gt;Sauts :&lt;/span&gt; OK&lt;br /&gt;
&lt;span style=&quot;font-weight: bold&quot;&gt;Animations en fonction du mouvement (Course, Saut, Chute, Idle) :&lt;/span&gt; Pas OK. Il est parti sur une vieille méthode. J'ai dû l'aider en lui spécifiant quoi utiliser, mais c'était encore raté. J'ai dû lui dire que les animations ne se jouaient pas, et il a finalement réussi à les mettre.&lt;br /&gt;
&lt;span style=&quot;font-weight: bold&quot;&gt;Double saut :&lt;/span&gt; Explosion du script ! Le personnage continuait d'avancer dans la dernière direction indéfiniment. Corrigé après lui avoir signalé.&lt;br /&gt;
&lt;span style=&quot;font-weight: bold&quot;&gt;Amélioration des sauts :&lt;/span&gt; Je lui ai dit que c'était des sauts &quot;lunaires&quot; qui manquaient de punch, et de faire des sauts à la Celeste. Il a réussi à mettre un système de gravité simple, mais c'était OK.&lt;br /&gt;
&lt;span style=&quot;font-weight: bold&quot;&gt;Double saut II :&lt;/span&gt; Je lui ai demandé d'ajouter le déclenchement de l'animation de double saut. Il l'a mise en boucle... Du coup, nouvelle requête en lui spécifiant de ne la jouer qu'une fois, puis de revenir à l'animation d'ascension ou de chute suivant le cas, et là c'était OK.&lt;br /&gt;
&lt;span style=&quot;font-weight: bold&quot;&gt;Refacto et physique :&lt;/span&gt; Je lui ai demandé de limiter la vitesse de déplacement en l'air à la moitié &lt;br /&gt;
de celle au sol. Depuis le début, tout le code était dans la classe player qui commençait à être sacrément longue et très difficilement lisible. Je lui demande donc aussi de ne pas hésiter à créer des classes pour les différentes composantes du personnage afin de rendre le tout plus lisible et modulable. Bon, eh bien, catastrophe... Il a fait n'importe quoi. Il a créé une classe double saut, une autre classe de gravité je crois, mais c'était juste des classes de stockage de constantes ou presque. Il a instancié ces nouvelles classes totalement inutiles et sans logique directement dans le script, alors que Godot ne fonctionne pas du tout comme ça. Et tranquillou bilou, il est parti en mode Python, oubliant complètement qu'il codait en GDScript.&lt;br /&gt;
&lt;/ul&gt;&lt;br /&gt;
&lt;br /&gt;
Conclusion ? Ben il programme mais c'est pas un bon analyste. Donc oui c'est bien mieux mais il est quand même vite en défaut et les limites sont vite atteintes. C'est un exemple parmis d'autre je l'ai pris pour la facilité à se représenter la chose.&lt;br /&gt;
&lt;br /&gt;
&lt;/span&gt;&lt;table width=&quot;90%&quot; cellspacing=&quot;1&quot; cellpadding=&quot;3&quot; border=&quot;0&quot; align=&quot;center&quot; class=&quot;bodyline&quot;&gt;&lt;tr&gt; 	  &lt;td class=&quot;helpline&quot;&gt;&lt;span class=&quot;genmed&quot;&gt;&lt;b&gt;mini-pouce a écrit:&lt;/b&gt;&lt;script type=&quot;text/javascript&quot; src=&quot;/modules/Forums/templates/select_expand_bbcodes.js&quot;&gt;&lt;/script&gt;&lt;script type=&quot;text/javascript&quot;&gt;&lt;br /&gt;&lt;!--&lt;br /&gt;	var id = 'SXBB' + (1000 + Math.floor(Math.random() * 5000));	SXBB[id] = new _SXBB(id);	SXBB[id].T['select'] = 'Select';	SXBB[id].T['expand'] = 'Expand';	SXBB[id].T['contract'] = 'Contract';	SXBB[id].writeCmd();&lt;br /&gt;//--&gt;&lt;br /&gt;&lt;/script&gt;		&lt;/span&gt;&lt;/td&gt;	&lt;/tr&gt;	&lt;tr&gt;	  &lt;td class=&quot;quote&quot;&gt;&lt;script type=&quot;text/javascript&quot;&gt;&lt;br /&gt;&lt;!--&lt;br /&gt;	SXBB[id].writeDiv();&lt;br /&gt;//--&gt;&lt;br /&gt;&lt;/script&gt;C'est un jeu pipé qu'on ne peut pas gagné actuellement comme déjà discuté.&lt;script type=&quot;text/javascript&quot;&gt;&lt;br /&gt;&lt;!--&lt;br /&gt;	document.write('&lt;/div&gt;');&lt;br /&gt;//--&gt;&lt;br /&gt;&lt;/script&gt;		&lt;/td&gt;	&lt;/tr&gt;&lt;/table&gt;&lt;span class=&quot;postbody&quot;&gt;&lt;br /&gt;
&lt;br /&gt;
Je parlais des modèles gratos en ligne, pas de ceux qui sont payants. Évidemment que les modèles se cachant derrière un abo sont hors de propos dans ce cas.&lt;br /&gt;
&lt;br /&gt;
&lt;/span&gt;&lt;table width=&quot;90%&quot; cellspacing=&quot;1&quot; cellpadding=&quot;3&quot; border=&quot;0&quot; align=&quot;center&quot; class=&quot;bodyline&quot;&gt;&lt;tr&gt; 	  &lt;td class=&quot;helpline&quot;&gt;&lt;span class=&quot;genmed&quot;&gt;&lt;b&gt;mini-pouce a écrit:&lt;/b&gt;&lt;script type=&quot;text/javascript&quot; src=&quot;/modules/Forums/templates/select_expand_bbcodes.js&quot;&gt;&lt;/script&gt;&lt;script type=&quot;text/javascript&quot;&gt;&lt;br /&gt;&lt;!--&lt;br /&gt;	var id = 'SXBB' + (1000 + Math.floor(Math.random() * 5000));	SXBB[id] = new _SXBB(id);	SXBB[id].T['select'] = 'Select';	SXBB[id].T['expand'] = 'Expand';	SXBB[id].T['contract'] = 'Contract';	SXBB[id].writeCmd();&lt;br /&gt;//--&gt;&lt;br /&gt;&lt;/script&gt;		&lt;/span&gt;&lt;/td&gt;	&lt;/tr&gt;	&lt;tr&gt;	  &lt;td class=&quot;quote&quot;&gt;&lt;script type=&quot;text/javascript&quot;&gt;&lt;br /&gt;&lt;!--&lt;br /&gt;	SXBB[id].writeDiv();&lt;br /&gt;//--&gt;&lt;br /&gt;&lt;/script&gt;Ou du multiGPU ? Mon crédo depuis tant d'année. ^^&lt;script type=&quot;text/javascript&quot;&gt;&lt;br /&gt;&lt;!--&lt;br /&gt;	document.write('&lt;/div&gt;');&lt;br /&gt;//--&gt;&lt;br /&gt;&lt;/script&gt;		&lt;/td&gt;	&lt;/tr&gt;&lt;/table&gt;&lt;span class=&quot;postbody&quot;&gt;&lt;br /&gt;
&lt;br /&gt;
Un GPU coûte un rein maintenant. Ce n'est plus l'époque où tu avais deux Radeon VII pour 1350 € ou deux 1080 Ti pour 1300 € ! Rien qu'une seule 5080 est plus chère que ces couples là, avec la moitié de la VRAM du coup. Donc deux ou trois cartes c'est 3000 ou 4500 €, outch. Je ne parle même pas de l'alim et de la conso/refroidissement. Et vu qu'il faut quand même du récent, ce n'est pas simple. Mais oui c'est la solution vu le peu de VRAM des modèles grand public actuels.</description>
                                        <comments>https://www.cowcotland.com/topic47962-105.html#867719</comments>
                                        <author>funkydata</author>
                                        <pubDate>Mardi 19 Mai 2026 à 14:59:02</pubDate>
                                        <guid isPermaLink="true">https://www.cowcotland.com/topic47962-105.html#867719</guid>
                                      </item>
                                      <item>
                                        <title>Re: Réalisation d'un serveur IA avec RTX 5090 &amp; AMD Epyc</title>
                                        <link>https://www.cowcotland.com/topic47962-105.html#867708</link>
                                        <description>&lt;br /&gt;
                                      Auteur: &lt;a href='https://www.cowcotland.com/membre8804.html'&gt;mini-pouce&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;
                                      Posté le: Mardi 19 Mai 2026 à 14:08:59&lt;br /&gt;&lt;br /&gt;
                                      &lt;br /&gt;&lt;br /&gt;
                                      &lt;/span&gt;&lt;table width=&quot;90%&quot; cellspacing=&quot;1&quot; cellpadding=&quot;3&quot; border=&quot;0&quot; align=&quot;center&quot; class=&quot;bodyline&quot;&gt;&lt;tr&gt; 	  &lt;td class=&quot;helpline&quot;&gt;&lt;span class=&quot;genmed&quot;&gt;&lt;b&gt;funkydata a écrit:&lt;/b&gt;&lt;script type=&quot;text/javascript&quot; src=&quot;/modules/Forums/templates/select_expand_bbcodes.js&quot;&gt;&lt;/script&gt;&lt;script type=&quot;text/javascript&quot;&gt;&lt;br /&gt;&lt;!--&lt;br /&gt;	var id = 'SXBB' + (1000 + Math.floor(Math.random() * 5000));	SXBB[id] = new _SXBB(id);	SXBB[id].T['select'] = 'Select';	SXBB[id].T['expand'] = 'Expand';	SXBB[id].T['contract'] = 'Contract';	SXBB[id].writeCmd();&lt;br /&gt;//--&gt;&lt;br /&gt;&lt;/script&gt;		&lt;/span&gt;&lt;/td&gt;	&lt;/tr&gt;	&lt;tr&gt;	  &lt;td class=&quot;quote&quot;&gt;&lt;script type=&quot;text/javascript&quot;&gt;&lt;br /&gt;&lt;!--&lt;br /&gt;	SXBB[id].writeDiv();&lt;br /&gt;//--&gt;&lt;br /&gt;&lt;/script&gt;Quel genre de texte ? (Par curiosité, pour situer un peu mieux ce que tu leur demandes). Oui Qwen se fait des &quot;noeuds&quot; au cerveau, il bouffe les tokens à vitesse grand V. C'est le cas aussi des petits modèles.&lt;br /&gt;
&lt;script type=&quot;text/javascript&quot;&gt;&lt;br /&gt;&lt;!--&lt;br /&gt;	document.write('&lt;/div&gt;');&lt;br /&gt;//--&gt;&lt;br /&gt;&lt;/script&gt;		&lt;/td&gt;	&lt;/tr&gt;&lt;/table&gt;&lt;span class=&quot;postbody&quot;&gt;&lt;br /&gt;
&lt;br /&gt;
Ca pourrait être pas mal effectivement d'avoir des exemples de vos demandes, avec : 1 exemple réussi, 1 exemple de raté.&lt;br /&gt;
&lt;br /&gt;
Et du coup Funky, même si ça ne semble toujours pas suffisant pour toi en l'état, tu vois le progrès ? &lt;br /&gt;
Ça te convainc ou pas ?&lt;br /&gt;
&lt;br /&gt;
&lt;/span&gt;&lt;table width=&quot;90%&quot; cellspacing=&quot;1&quot; cellpadding=&quot;3&quot; border=&quot;0&quot; align=&quot;center&quot; class=&quot;bodyline&quot;&gt;&lt;tr&gt; 	  &lt;td class=&quot;helpline&quot;&gt;&lt;span class=&quot;genmed&quot;&gt;&lt;b&gt;funkydata a écrit:&lt;/b&gt;&lt;script type=&quot;text/javascript&quot; src=&quot;/modules/Forums/templates/select_expand_bbcodes.js&quot;&gt;&lt;/script&gt;&lt;script type=&quot;text/javascript&quot;&gt;&lt;br /&gt;&lt;!--&lt;br /&gt;	var id = 'SXBB' + (1000 + Math.floor(Math.random() * 5000));	SXBB[id] = new _SXBB(id);	SXBB[id].T['select'] = 'Select';	SXBB[id].T['expand'] = 'Expand';	SXBB[id].T['contract'] = 'Contract';	SXBB[id].writeCmd();&lt;br /&gt;//--&gt;&lt;br /&gt;&lt;/script&gt;		&lt;/span&gt;&lt;/td&gt;	&lt;/tr&gt;	&lt;tr&gt;	  &lt;td class=&quot;quote&quot;&gt;&lt;script type=&quot;text/javascript&quot;&gt;&lt;br /&gt;&lt;!--&lt;br /&gt;	SXBB[id].writeDiv();&lt;br /&gt;//--&gt;&lt;br /&gt;&lt;/script&gt;&lt;br /&gt;
Il a de vrais soucis de compréhension dès que le projet prend un peu de poids et répète souvent les mêmes erreurs malgré les corrections&lt;br /&gt;
&lt;script type=&quot;text/javascript&quot;&gt;&lt;br /&gt;&lt;!--&lt;br /&gt;	document.write('&lt;/div&gt;');&lt;br /&gt;//--&gt;&lt;br /&gt;&lt;/script&gt;		&lt;/td&gt;	&lt;/tr&gt;&lt;/table&gt;&lt;span class=&quot;postbody&quot;&gt;&lt;br /&gt;
Je pense que ça c'est BEAUCOUP amélioré, non ?, mais là encore qu'un remède : augmenter le nombre de paramètres. C'est probablement ce pourquoi OMG s'est orienté vers des modèles &amp;gt;100B... &lt;br /&gt;
&lt;br /&gt;
&lt;/span&gt;&lt;table width=&quot;90%&quot; cellspacing=&quot;1&quot; cellpadding=&quot;3&quot; border=&quot;0&quot; align=&quot;center&quot; class=&quot;bodyline&quot;&gt;&lt;tr&gt; 	  &lt;td class=&quot;helpline&quot;&gt;&lt;span class=&quot;genmed&quot;&gt;&lt;b&gt;funkydata a écrit:&lt;/b&gt;&lt;script type=&quot;text/javascript&quot; src=&quot;/modules/Forums/templates/select_expand_bbcodes.js&quot;&gt;&lt;/script&gt;&lt;script type=&quot;text/javascript&quot;&gt;&lt;br /&gt;&lt;!--&lt;br /&gt;	var id = 'SXBB' + (1000 + Math.floor(Math.random() * 5000));	SXBB[id] = new _SXBB(id);	SXBB[id].T['select'] = 'Select';	SXBB[id].T['expand'] = 'Expand';	SXBB[id].T['contract'] = 'Contract';	SXBB[id].writeCmd();&lt;br /&gt;//--&gt;&lt;br /&gt;&lt;/script&gt;		&lt;/span&gt;&lt;/td&gt;	&lt;/tr&gt;	&lt;tr&gt;	  &lt;td class=&quot;quote&quot;&gt;&lt;script type=&quot;text/javascript&quot;&gt;&lt;br /&gt;&lt;!--&lt;br /&gt;	SXBB[id].writeDiv();&lt;br /&gt;//--&gt;&lt;br /&gt;&lt;/script&gt;&lt;br /&gt;
Est-ce qu'il est supérieur aux modèles en ligne au point de devoir autant &quot;investir&quot; ?&lt;br /&gt;
&lt;script type=&quot;text/javascript&quot;&gt;&lt;br /&gt;&lt;!--&lt;br /&gt;	document.write('&lt;/div&gt;');&lt;br /&gt;//--&gt;&lt;br /&gt;&lt;/script&gt;		&lt;/td&gt;	&lt;/tr&gt;&lt;/table&gt;&lt;span class=&quot;postbody&quot;&gt;&lt;br /&gt;
C'est un jeu pipé qu'on ne peut pas gagné actuellement comme déjà discuté.&lt;br /&gt;
Mais pour des passionnés comme nous avec une base matériel pas dégueu, l'inverse est vrai aussi : suffisamment bon pour ne pas nécessiter un souscription.&lt;br /&gt;
Ne pas oublier que beaucoup n'utilisent pas leur GPU pour travailler ou on un PC portable dédié, donc ils peuvent switcher et rendre leur investissement jeu utile. &lt;img src=&quot;/modules/Forums/images/smiles/icon_wink.gif&quot; alt=&quot;Clin d'oeil&quot; border=&quot;0&quot; /&gt; &lt;br /&gt;
&lt;br /&gt;
&lt;/span&gt;&lt;table width=&quot;90%&quot; cellspacing=&quot;1&quot; cellpadding=&quot;3&quot; border=&quot;0&quot; align=&quot;center&quot; class=&quot;bodyline&quot;&gt;&lt;tr&gt; 	  &lt;td class=&quot;helpline&quot;&gt;&lt;span class=&quot;genmed&quot;&gt;&lt;b&gt;funkydata a écrit:&lt;/b&gt;&lt;script type=&quot;text/javascript&quot; src=&quot;/modules/Forums/templates/select_expand_bbcodes.js&quot;&gt;&lt;/script&gt;&lt;script type=&quot;text/javascript&quot;&gt;&lt;br /&gt;&lt;!--&lt;br /&gt;	var id = 'SXBB' + (1000 + Math.floor(Math.random() * 5000));	SXBB[id] = new _SXBB(id);	SXBB[id].T['select'] = 'Select';	SXBB[id].T['expand'] = 'Expand';	SXBB[id].T['contract'] = 'Contract';	SXBB[id].writeCmd();&lt;br /&gt;//--&gt;&lt;br /&gt;&lt;/script&gt;		&lt;/span&gt;&lt;/td&gt;	&lt;/tr&gt;	&lt;tr&gt;	  &lt;td class=&quot;quote&quot;&gt;&lt;script type=&quot;text/javascript&quot;&gt;&lt;br /&gt;&lt;!--&lt;br /&gt;	SXBB[id].writeDiv();&lt;br /&gt;//--&gt;&lt;br /&gt;&lt;/script&gt;&lt;br /&gt;
Le 35B A3B est bien plus pertinent. C'est un bon modèle, supérieur à ce qu'on trouve accessible sur les grosse IA mais il lui faut un bon PC dédié. &lt;script type=&quot;text/javascript&quot;&gt;&lt;br /&gt;&lt;!--&lt;br /&gt;	document.write('&lt;/div&gt;');&lt;br /&gt;//--&gt;&lt;br /&gt;&lt;/script&gt;		&lt;/td&gt;	&lt;/tr&gt;&lt;/table&gt;&lt;span class=&quot;postbody&quot;&gt;&lt;br /&gt;
Ou du multiGPU ? Mon crédo depuis tant d'année. ^^ &lt;br /&gt;
En fait un truc que je n'ai pas pu exploré comme il me plaisait faute de matos, mais un truc qui parait évidant pour l'inférence sur un seul GPU : la taille du lien importe peu. -&amp;gt; un eGPU pourrait suffire, un pcie x4 aussi (M2 ou PCIe).</description>
                                        <comments>https://www.cowcotland.com/topic47962-105.html#867708</comments>
                                        <author>mini-pouce</author>
                                        <pubDate>Mardi 19 Mai 2026 à 14:08:59</pubDate>
                                        <guid isPermaLink="true">https://www.cowcotland.com/topic47962-105.html#867708</guid>
                                      </item>
                                      <item>
                                        <title>Re: Réalisation d'un serveur IA avec RTX 5090 &amp; AMD Epyc</title>
                                        <link>https://www.cowcotland.com/topic47962-105.html#867704</link>
                                        <description>&lt;br /&gt;
                                      Auteur: &lt;a href='https://www.cowcotland.com/membre27853.html'&gt;funkydata&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;
                                      Posté le: Mardi 19 Mai 2026 à 13:42:22&lt;br /&gt;&lt;br /&gt;
                                      &lt;br /&gt;&lt;br /&gt;
                                      Quel genre de texte ? (Par curiosité, pour situer un peu mieux ce que tu leur demandes). Oui Qwen se fait des &quot;noeuds&quot; au cerveau, il bouffe les tokens à vitesse grand V. C'est le cas aussi des petits modèles.&lt;br /&gt;
&lt;br /&gt;
De mon côté j'ai bien avancé et je trouve le 9B vraiment limité, peu d'intérêt, à moins de ne pas avoir besoin de son GPU et de ne pas vouloir utiliser les IA online. Attention, pour du 9B c'est plutôt très bien hein, mais ça reste une IA &quot;basique&quot;.&lt;br /&gt;
&lt;br /&gt;
Le 35B A3B est bien plus pertinent. C'est un bon modèle, supérieur à ce qu'on trouve accessible sur les grosse IA mais il lui faut un bon PC dédié. Globalement pertinent, gère bien le RAG et le contexte. Perso il est sur ma machine secondaire (5700X/RTX 5070/32 Go) et il ne lui faut pas moins sinon ce serait trop lent, c'est déjà très limite en toute franchise. Est-ce qu'il est supérieur aux modèles en ligne au point de devoir autant &quot;investir&quot; ? Pour moi c'est non mais je le garde sous le coude si j'ai besoin de traiter des documents ou de travailler dans un contexte spécifique avec pas mal de docs. Utilisation situationnelle mais bienvenue donc.&lt;br /&gt;
&lt;br /&gt;
Le Coder 30B est un modèle A3B aussi même si ce n'est pas indiqué, il est donc un poil plus rapide que le 35B A3B, j'ai bien fait de tester. &lt;br /&gt;
Il se marie fort bien avec Continue sous VS Code et l'agent est efficace. Il est cependant bien meilleur pour accomplir les tâches ingrates (commentaires, refactorisation, etc...) que pour générer du code propre, organisé et lisible. &lt;br /&gt;
Il a de vrais soucis de compréhension dès que le projet prend un peu de poids et répète souvent les mêmes erreurs malgré les corrections. Trop lent par rapport à Qwen 2.5 Coder pour juste de l'Autocompletion. Finalement ? Un modèle très très orienté scripting, idéal pour de petits projets de domotique, des sites web simples, des applications simples structurées autour d'une API bien documentée.&lt;br /&gt;
Il est très bon en Python, JavaScript et PHP mais il donne des signes de faiblesse évident sur les langages plus avancés. De gros couacs sur C#/Rust et beaucoup, beaucoup de mal sur C++. &lt;br /&gt;
Au final c'est quand même impressionnant pour un 30B local mais ça reste une IA essentiellement pour faire des scripts et pour déléguer certaines tâches casse-pied. Comme le modèle 35B finalement, utilisation ponctuelle bienvenue si on a une machine secondaire sur lequel le faire tourner ou si on code des projets qui ne consomme pas de ressources.&lt;br /&gt;
&lt;br /&gt;
Voilà ça conclut je pense mon retour sur ces trois modèles Qwen. Évidemment ils ne jouent pas sur le même terrain que les modèles que peut faire tourner &lt;a title=&quot;voir le profil de OMGimag33k&quot; href=&quot;/membre36925.html&quot; class=&quot;m_citer&quot;&gt;@OMGimag33k&lt;/a&gt; sur son serveur mais ça donne une idée de ce à quoi s'attendre en local sur la machine du &quot;peuple&quot;. &amp;#128521;</description>
                                        <comments>https://www.cowcotland.com/topic47962-105.html#867704</comments>
                                        <author>funkydata</author>
                                        <pubDate>Mardi 19 Mai 2026 à 13:42:22</pubDate>
                                        <guid isPermaLink="true">https://www.cowcotland.com/topic47962-105.html#867704</guid>
                                      </item></channel></rss>