Guide · 10 février 2027 · Par Mehdi Rahmani

IA en interne ou en cloud souverain ? Le bon arbitrage pour une PME.

Quand on déploie de l'IA en PME française, deux options principales : faire tourner les modèles sur ses propres serveurs (on-premise), ou utiliser un cloud souverain européen (OVH, Scaleway, Outscale). Le bon choix dépend de quatre critères. Voici le cadre de décision.

Pourquoi il y a un choix à faire

Il y a 5 ans, déployer de l'IA en local était quasiment impossible pour une PME : il fallait des batteries de GPU à 100 000 €+ pour faire tourner un modèle décent. Le cloud (et ses APIs propriétaires comme OpenAI) était la seule option pragmatique.

En 2026-2027, la situation a basculé. Les modèles open-weight (Mistral, Llama, Qwen) tournent sur du matériel à 10-30 k€, et les clouds souverains européens proposent des offres IA managées à des coûts d'inférence comparables aux APIs US. Le choix devient ouvert.

Le piège : prendre la décision « par défaut » selon la culture interne (« on a toujours fait du cloud » ou « on a toujours hébergé en interne »). Le bon choix dépend de critères concrets, pas de l'inertie organisationnelle.

Les quatre critères qui décident

Critère 1, Sensibilité des données. Si les données traitées sont très sensibles (données médicales, juridiques, défense), l'on-premise donne un contrôle total et facilite la certification SecNumCloud / HDS. Si les données sont commerciales standard, cloud souverain suffit largement.

Critère 2, Volume d'inférence. Sous 100 000 requêtes/mois, le cloud souverain coûte moins cher (pas d'amortissement matériel à faire). Au-delà, l'on-premise devient compétitif voire moins cher selon les volumes.

Critère 3, Compétences internes. L'on-premise demande de l'admin sys / DevOps. Si vous avez un IT interne mature, c'est gérable. Sinon, le cloud souverain externalise cette complexité.

Critère 4, Latence et disponibilité. Pour du temps réel (chat client, voice assistant), un on-premise local peut donner de meilleurs temps de réponse qu'un cloud distant. Pour de l'asynchrone (traitement par lot d'emails), le cloud convient.

L'option on-premise : quand ça vaut le coup

Profil typique : PME industrielle 80-150 personnes, IT interne en place, données sensibles, volume d'inférence élevé.

Investissement matériel : serveur GPU type DGX Station ou équivalent, 15-40 k€ selon les modèles supportés. Compter 1 GPU H100 ou L40 pour faire tourner un Mistral Medium ou un Llama 70B en quantization Q4.

Avantages :

Données 100% chez vous, audit possible à tout moment
Coût d'inférence quasi-nul (juste électricité ~50-150€/mois)
Latence optimale (10-50ms vs 200-500ms cloud)
Disponibilité maîtrisée (pas dépendant d'un fournisseur)

Inconvénients :

Investissement initial conséquent
Maintenance : monitoring, mises à jour modèle, gestion incidents (~10-30h/mois selon scale)
Évolutivité limitée (changement de modèle = vérification compatibilité matériel)
Compétence interne IT/IA requise

Recommandation : à privilégier au-delà de 50 000 requêtes/mois et avec une équipe IT capable de gérer le serveur.

L'option cloud souverain : quand ça vaut le coup

Profil typique : PME services 30-80 personnes, IT légère, données commerciales standard, volume modéré.

Coût : 0,001 à 0,01 € par requête selon le modèle. Sur 10 000 requêtes/mois (utilisation typique d'un agent CRM), 10 à 100 € par mois.

Avantages :

Pas d'investissement initial
Aucune compétence interne requise au-delà de l'usage de l'API
Accès aux derniers modèles sans changement matériel
Conformité RGPD préservée (cloud européen)
Élasticité : pic de 100k requêtes en 1h sans problème

Inconvénients :

Coût d'inférence cumulé sur la durée
Dépendance à un fournisseur (mais open-weight permet de migrer relativement vite)
Latence légèrement supérieure (200-400ms typique)
Données chez le fournisseur (mais sous contrat clair, et chiffrées)

Recommandation : à privilégier en dessous de 30 000 requêtes/mois et sans contrainte sécuritaire forte.

Hybride : quand combiner les deux

L'hybride n'est pas un compromis, c'est souvent l'optimum sur les déploiements matures. Trois patterns courants :

Pattern 1 : On-premise pour les données sensibles, cloud pour le reste. Les agents qui traitent des données RH ou financières tournent en interne. Les agents support client tournent en cloud souverain. Architecture : un même client peut router vers l'un ou l'autre selon le contexte.

Pattern 2 : Cloud pour la production, on-premise pour le développement et le R&D. Pendant les phases de calibration et de fine-tuning, on bénéficie du cloud (élasticité, accès aux derniers modèles). En production stable, on bascule sur l'on-premise quand les volumes le justifient.

Pattern 3 : On-premise pour le modèle principal, cloud pour les capabilities spécifiques. Le modèle principal (Mistral) tourne en interne, mais on appelle ponctuellement Whisper en cloud pour de la transcription audio, ou un modèle multimodal en cloud pour analyser des images.

Coadjoint propose les trois patterns selon le besoin client. Les forfaits Le Concierge et L'Équipe couvrent l'hybride.

Coût total sur 36 mois

Calcul TCO 36 mois pour 3 profils types :

Profil	Cloud souverain pur	On-premise pur	Hybride
PME 30 pers., 8 000 req/mois	~1 800 €	~22 000 € (over-provisioned)	~5 000 € (cloud + petit serveur dev)
PME 60 pers., 25 000 req/mois	~5 400 €	~22 000 €	~12 000 €
PME 120 pers., 80 000 req/mois	~17 000 €	~24 000 € (incl. maintenance)	~18 000 € (sweet spot)
PME 200 pers., 200 000 req/mois	~43 000 €	~28 000 €	~26 000 €

Lecture : pour les petits volumes, le cloud est imbattable. Au-delà de 100 000 req/mois, l'on-premise et l'hybride deviennent compétitifs et offrent en plus la souveraineté maximale.

Important : ces calculs n'incluent pas le coût des compétences IT internes pour gérer un on-premise. Pour une PME sans IT mature, le surcoût d'externalisation peut annuler le gain matériel.

Questions fréquentes

Faut-il avoir un DSI en interne pour faire de l'on-premise IA ?

Idéalement, oui. Au minimum un admin sys avec une appétence GPU. Sans cette compétence, on recommande le cloud souverain ou un hébergement managé chez un partenaire.

Quels GPU choisir pour de l'on-premise PME ?

En 2027, la sweet spot est : RTX 4090 (24 Go VRAM, ~2k€ unité) pour faire tourner un modèle 8-13B en quantization. L40 (48 Go, ~7k€) pour Mistral Medium ou Llama 70B Q4. H100 reste premium (~25k€) mais largement overkill pour la majorité des PME.

Peut-on commencer en cloud puis basculer en on-premise ?

Oui, c'est même une stratégie courante : valider l'usage en cloud, mesurer les volumes réels, puis basculer en on-premise quand le ROI matériel est démontré. Coadjoint accompagne cette migration.