10 juin 2026
Pour un utilisateur final, Microsoft Copilot tient de la magie : une question posée dans Teams, une réponse instantanée.
Mais pour un DSI ou un RSSI responsable de la souveraineté des données, la "magie" n'est pas une explication acceptable. C'est même une source d'angoisse.
Vous avez besoin de comprendre le flux exact des données. Où transitent-elles ? Comment le modèle accède-t-il à vos fichiers sans les exposer publiquement ? Qu'est-ce que le "Grounding" dont parle Microsoft ?
Cet article technique décortique l'architecture sous-jacente de Copilot.
Note : Si vous cherchez plutôt une vision globale des enjeux business, des coûts et des cas d'usage métiers, commencez par consulter notre Guide complet Copilot pour les entreprises. Ici, nous allons ouvrir le capot et mettre les mains dans le moteur.
Au programme de cet article :
L'erreur commune est de penser que Copilot connecte simplement Word ou Excel à un modèle de langage. C'est techniquement faux. Si c'était le cas, l'IA hallucinerait constamment sur vos données internes qu'elle ne connaît pas.
L'architecture repose sur un moteur d'orchestration interne qui coordonne trois composants distincts :
Le Frontend (Apps M365) : l'interface utilisateur dans Word, Teams, Outlook, PowerPoint. Le Contexte (Microsoft Graph et Semantic Index) : vos données d'entreprise (emails, fichiers, réunions, chats) accessibles via API. L'Intelligence (le LLM) : un grand modèle de langage hébergé sur le service Azure OpenAI, isolé de l'Internet public. La version exacte du modèle évolue régulièrement selon les mises à jour Microsoft et n'est pas rendue publique.
Le concept clé à retenir : le LLM n'a jamais accès direct et complet à votre base de données. Il ne "voit" que les micro-fragments d'information que l'orchestrateur décide de lui envoyer pour une requête précise.
Pour valider la sécurité de l'outil, suivons le cheminement exact d'une requête utilisateur à la milliseconde près.
L'utilisateur tape dans Teams : "Synthétise le projet Alpha basé sur les mails de la semaine dernière."
Copilot n'envoie pas cette phrase directement au LLM. Ce serait inutile, car le modèle ne sait pas ce qu'est le "Projet Alpha".
L'orchestrateur intercepte la requête pour la contextualiser. C'est l'étape cruciale de Grounding (Ancrage). L'objectif est de transformer une question vague en une requête précise et documentée.
L'orchestrateur utilise une technique appelée RAG (Retrieval Augmented Generation). Il interroge le Microsoft Graph pour trouver les données pertinentes.
C'est ici que se joue la sécurité de votre entreprise.
Point critique : le Security Trimming
Lors de cette requête au Graph, Microsoft applique le Security Trimming en temps réel. L'API Graph agit avec l'identité de l'utilisateur (on-behalf-of). Elle ne retourne que les documents pour lesquels l'utilisateur possède des permissions valides dans le tenant.
Si l'utilisateur n'a pas les permissions SharePoint/OneDrive appropriées sur ce contenu, Microsoft Graph applique le Security Trimming et ne retourne aucun résultat. Copilot répondra : "Je n'ai pas trouvé d'informations sur ce projet."
A noter : Copilot respecte également les politiques de Conditional Access et le MFA configurés dans votre tenant. L'accès aux données est toujours limité aux permissions de l'utilisateur connecté au moment de la requête.
L'indexation de M365 repose historiquement sur la correspondance de mots-clés et la personnalisation (social matching via Microsoft Graph). Le Semantic Index, déployé progressivement depuis 2023 pour les licences E3/E5, vient enrichir cette base en ajoutant une couche de compréhension sémantique.
Au lieu de chercher uniquement la chaîne de caractères "Projet Alpha", il crée une carte vectorielle de vos données. Il convertit le texte en vecteurs numériques (embeddings).
Cela lui permet de comprendre les concepts et les relations : si vous cherchez "Projet Alpha", il trouvera aussi les documents parlant de "l'initiative de restructuration Q3" si le contexte sémantique est proche, même sans mot-clé commun.
Le Semantic Index respecte intégralement les droits d'accès configurés dans le tenant : il ne surface un résultat à un utilisateur que si celui-ci y a déjà accès via les contrôles RBAC existants.
Une fois les données récupérées, l'orchestrateur construit un méta-prompt. Ce paquet contient :
C'est ce paquet complet qui est envoyé à l'instance LLM sur Azure pour traitement.
Le LLM génère une réponse en langage naturel.
Avant affichage, la réponse passe par des filtres de sécurité intégrés vérifiant les injections de prompt, les contenus haineux ou biaisés, et la conformité aux règles de propriété intellectuelle.
Enfin, la réponse apparaît dans l'application. Tout ce cycle dure quelques secondes.
C'est la question n°1 des RSSI : "Mes données partent-elles aux US ? Servent-elles à entraîner les modèles ?"
Pour les tenants basés en Union Européenne, Microsoft applique le EU Data Boundary. Le traitement se fait sur des instances Azure situées en Europe. Le trafic ne transite pas par l'Internet public mais reste dans le backbone mondial de Microsoft.
Ce périmètre comporte toutefois des exceptions documentées pour certains sous-services. Le EU Data Boundary n'est pas une garantie absolue et uniforme sur l'ensemble des composants.
Contrairement à la version grand public de ChatGPT, M365 Copilot est "stateless" concernant vos données :
Pas d'entraînement sur vos données : conformément au Data Protection Addendum de Microsoft, les données client ne sont pas utilisées pour entraîner les modèles de fondation. Votre propriété intellectuelle ne bénéficiera pas à vos concurrents.
Ephémère : une fois la session terminée, le contexte est purgé des systèmes de traitement, sans persistance dans les modèles.
L'architecture technique est robuste. Le chiffrement est solide. L'isolation est réelle.
Pourtant, Copilot reste un risque majeur. Pourquoi ?
Parce que l'architecture repose sur une hypothèse dangereuse : le système suppose que les permissions configurées dans votre environnement sont légitimes.
Comme nous l'avons vu à l'étape 2, le Security Trimming se fie à vos ACL (Access Control Lists). L'architecture technique est incapable de distinguer :
C'est l'effet amplificateur : l'outil fonctionne parfaitement techniquement, mais il transforme vos erreurs de configuration passées (groupes publics, liens de partage oubliés, héritages brisés) en vecteur de fuites de données.
Diagnostic : si votre gouvernance M365 est une passoire, Copilot sera une pompe à haute pression branchée à cette passoire.
Si vous souhaitez en savoir plus, découvrez nos 5 conseils pour sécuriser vos accès avec Copilot. Vous pouvez également consulter notre article sur les risques de sécurité Copilot pour une analyse complète des vecteurs d'exposition.
Pour planifier votre déploiement, vous devez connaître les contraintes actuelles du système.
Les LLMs modernes gèrent des contextes étendus, mais l'orchestrateur Copilot limite le volume de données injecté dans le prompt pour garantir une faible latence. Il ne lira pas l'intégralité de vos 5 000 fichiers SharePoint pour une seule question. Il priorise les documents les plus récents et les plus consultés.
L'indexation n'est pas toujours instantanée. Un fichier créé ou modifié récemment peut ne pas apparaître immédiatement dans une requête complexe nécessitant une vectorisation.
Copilot ne voit par défaut que M365. Pour interroger Salesforce, Jira ou un SQL on-premise, vous devez configurer des Graph Connectors. Ces données externes sont alors indexées via Microsoft Search et rendues accessibles au grounding, selon les permissions mappées depuis la source externe.
Attention : vous devez mapper scrupuleusement les permissions de la source externe vers les utilisateurs M365, sinon vous créez une brèche de sécurité. Une gouvernance des droits d'accès sur M365 est un prérequis indispensable, comme l'illustre notre guide sur la revue des droits d'accès M365.
Non. Les réponses ne sont pas mises en cache pour d'autres utilisateurs. Chaque interaction est unique et régénérée pour garantir le respect des droits d'accès à l'instant T.
Partiellement. Les interactions sont journalisées dans Microsoft Purview Audit sous le type d'enregistrement CopilotInteraction. Ces logs permettent de savoir quand un utilisateur a interagi avec Copilot, dans quelle application, et quels fichiers ont été référencés (identifiant, URL, label de sensibilité éventuel).
En revanche, le texte des prompts et des réponses n'est pas capturé dans les logs d'audit standards : les logs enregistrent la métadonnée de l'interaction, pas son contenu. Pour accéder au contenu des échanges dans le cadre d'une investigation, il faut recourir aux outils eDiscovery de Microsoft Purview, distincts des logs d'audit.
Non. Le coût de l'indexation et du compute est inclus dans la licence Microsoft 365 Copilot par utilisateur.
Oui, dans le cas général : lorsque Copilot génère du nouveau contenu à partir de sources labellisées, le label de priorité la plus élevée parmi les sources est hérité par le contenu produit, quand cette fonctionnalité est supportée. Les paramètres de protection restent appliqués même si les fichiers sources sont stockés en dehors du tenant Microsoft 365.
La réponse est cependant plus complexe selon le contexte. Pour que Copilot puisse interagir avec un fichier chiffré, l'utilisateur doit disposer des droits d'utilisation EXTRACT et VIEW. Des permissions de label définies par l'utilisateur (user-defined permissions) peuvent bloquer Copilot dans l'extraction et l'interaction avec le contenu : les agents Copilot, par exemple, ne peuvent pas lire les fichiers portant ce type de permissions.
En pratique : l'héritage automatique fonctionne dans le flux standard, mais il dépend du type de label, des droits d'utilisation configurés et de l'application Copilot concernée. Ce mécanisme ne remplace pas une stratégie Microsoft Purview Information Protection correctement configurée en amont. Il en est le complément.
Oui. Les politiques DLP (Data Loss Prevention) configurées dans Microsoft Purview s'appliquent à Copilot. Concrètement, une politique DLP peut empêcher Copilot d'utiliser un fichier sensible comme source de grounding, et donc d'en exposer le contenu dans une réponse.
Avec une licence E5 ou un add-on Compliance, il est possible de configurer des règles DLP ciblant explicitement Microsoft 365 Copilot et les agents, pour bloquer le traitement de certains fichiers ou types de données sensibles. Cette protection est conditionnelle au niveau de licence et à la configuration explicite des règles : elle n'est pas active par défaut. La combinaison labels de sensibilité + DLP + revue des droits constitue le socle de gouvernance recommandé avant tout déploiement Copilot à grande échelle. Consultez notre comparatif des licences M365 E3 vs E5 pour évaluer les options disponibles selon votre niveau de licence.
L'architecture de Microsoft 365 Copilot est une prouesse d'intégration qui respecte strictement vos frontières de données (Data Boundary), à une condition non négociable : que vos fondations (l'annuaire et les permissions) soient saines.
Le flux de données est sécurisé "by design", mais il est aussi transparent qu'une vitre : si vos permissions sont ouvertes, Copilot verra tout et dira tout.
Votre prochaine action technique : maintenant que vous maîtrisez l'architecture, il est temps de vérifier ce que le Graph va réellement servir à vos utilisateurs.
Articles récents
Abonnez-vous à la newsletter pour recevoir nos contenus chaque mois.