Accueil Cyber Sécurité Risques liés au modèle linguistique ChatGPT

Risques liés au modèle linguistique ChatGPT

143
0

a explosé sur Internet et a créé une nouvelle ère d'intelligence artificielle (IA). Les outils d'IA devenant de plus en plus puissants, la question que se posent de nombreux dirigeants est de savoir comment utiliser ces outils dans nos entreprises.

Les chatbots et les grands modèles de langage (LLM) représentent une menace croissante pour la sécurité. Agence nationale de cybersécurité britannique (NCSC). La NCSC a publié un avertissement détaillé conseillant aux gens de “faire très attention” aux données qu'ils choisissent de soumettre aux chatbots, étant donné que les entreprises y auront “presque certainement” accès.

ChatGPT, le chatbot populaire de OpenAIest estimé à 100 millions d'utilisateurs actifs mensuels, deux mois seulement après son lancement.

Il s'agit d'une application à croissance rapide et sa popularité incite de nombreux concurrents à développer leurs propres services et modèles, ou à déployer rapidement ceux qu'ils ont développés en interne. Toutefois, à mesure que l'utilisation de modèles linguistiques alimentés par l'IA, tels que ChatGPT, se répand dans les milieux professionnels et personnels, il est essentiel de comprendre les risques sérieux qu'ils présentent en matière de cybersécurité.

Ce sont des outils puissants, mais il y a des dangers très réels à prendre en compte, ainsi que des implications éthiques, en particulier si vous envisagez de les utiliser dans votre entreprise.

Qu'est-ce que le ChatGPT et le LLM ?

ChatGPT est un chatbot d'intelligence artificielle développé par OpenAI, une startup technologique américaine. Il est basé sur GPT-3, un modèle de langage publié en 2020 qui utilise l'apprentissage profond pour produire des textes semblables à ceux des humains, mais la technologie LLM sous-jacente existe depuis bien plus longtemps.

Un LLM est un algorithme qui a été formé sur une grande quantité de données textuelles, généralement extraites de l'Internet ouvert, et qui couvre donc les pages web et, selon le LLM, d'autres sources telles que la recherche scientifique, les livres ou les messages sur les médias sociaux. Cela couvre un volume de données tellement important qu'il n'est pas possible de filtrer tous les contenus offensants ou inexacts au moment de l'ingestion, et le contenu “controversé” est donc susceptible d'être inclus dans son modèle.

Ils utilisent des algorithmes pour analyser les relations entre différents mots et les transformer en un modèle de probabilité. Il est alors possible de donner à l'algorithme une “invite” – en lui posant une question, par exemple – et il fournira une réponse basée sur les relations entre les mots dans son modèle.

Généralement, les données de son modèle sont statiques après qu'il a été entraîné, bien qu'il puisse être affiné par un “réglage fin”, c'est-à-dire un entraînement sur des données supplémentaires, et par une “augmentation de l'invite”, c'est-à-dire la fourniture d'informations contextuelles sur la question.

ChatGPT permet aux utilisateurs de poser des questions à un LLM, comme ils le feraient lors d'une conversation avec un chatbot. Parmi les autres exemples actuels de LLM, citons Bard de et LLaMa de Meta.

Les LLM sont impressionnants par leur capacité à générer un large éventail de contenus convaincants dans plusieurs langues humaines et informatiques, mais ils présentent de sérieuses lacunes. Selon le NCSC :

  • Ils peuvent se tromper et “halluciner” des faits incorrects.
  • Ils peuvent être partiaux et sont souvent crédules (lorsqu'ils répondent à des questions suggestives, par exemple).
  • Ils nécessitent des ressources informatiques très importantes et coûteuses, ainsi qu'un accès à de vastes données pour être formés à partir de zéro.
  • Ils peuvent être incités à créer du contenu toxique et sont sujets à des “attaques par injection”.

Les LLM pourraient révéler vos informations

Une préoccupation fréquente est qu'un LLM pourrait “apprendre” à partir de vos invites et offrir ces informations à d'autres personnes qui font des requêtes sur des sujets connexes. Actuellement, les LLM sont formés, puis le modèle résultant est interrogé. Un LLM n'ajoute pas (à ce jour) automatiquement les informations des requêtes à son modèle pour que d'autres puissent les interroger. En d'autres termes, l'inclusion d'informations dans une requête n'entraîne pas l'intégration de ces données dans le LLM. Cependant, la requête sera visible pour l'organisation qui fournit le LLM – comme dans le cas de ChatGPT, pour OpenAI. Ces requêtes sont stockées et seront très certainement utilisées pour développer le service ou le modèle LLM à un moment donné.

Lire aussi :  Mise en garde de l'Ukraine contre les pirates informatiques russes

Cela pourrait signifier que le fournisseur de LLM et ses partenaires commerciaux sont en mesure de lire les requêtes et peuvent les incorporer dans les versions futures. Par conséquent, les conditions d'utilisation et la politique de confidentialité doivent être bien comprises avant de poser des questions sensibles.

Une question peut être sensible en raison des données qu'elle contient ou de la personne qui la pose. Par exemple, si l'on découvre qu'un PDG a demandé “quelle est la meilleure façon de licencier un employé”, ou que quelqu'un a posé des questions révélatrices sur sa santé ou ses relations. Il est également possible d'agréger des informations à partir de plusieurs requêtes utilisant le même identifiant.

Un autre risque, qui augmente à mesure que de plus en plus d'organisations produisent des LLM, est que les requêtes stockées en ligne puissent être piratées, divulguées ou, plus probablement, rendues accidentellement accessibles au public. Il peut s'agir d'informations potentiellement identifiables par l'utilisateur. Un autre risque est que l'opérateur du LLM soit racheté par une organisation dont l'approche en matière de protection de la vie privée est différente de celle qui prévalait lorsque les utilisateurs ont saisi les données pour la première fois.

Le NCSC recommande

  • Ne pas inclure d'informations sensibles dans les requêtes adressées aux LLM publics.
  • Ne pas soumettre aux LLM publics des requêtes qui pourraient poser des problèmes si elles étaient rendues publiques.

Comment fournir en toute sécurité des informations sensibles aux LLM ?

Suite à l'enthousiasme suscité par les LLM, de nombreuses organisations peuvent se demander si elles peuvent utiliser les LLM pour automatiser certaines tâches commerciales, ce qui peut impliquer la fourniture d'informations sensibles par le biais d'un réglage fin ou d'une augmentation rapide. Si cette approche n'est pas recommandée pour les LLM publics, les “LLM privés” peuvent être proposés par un fournisseur de services en nuage (par exemple) ou peuvent être entièrement hébergés par l'entreprise elle-même :

  • Pour les LLM fournis dans le nuage, les conditions d'utilisation et la politique de confidentialité deviennent à nouveau essentielles (comme pour les LLM publics), mais il est plus probable qu'elles s'intègrent dans les conditions existantes du service dans le nuage. Les organisations doivent comprendre comment sont gérées les données qu'elles utilisent pour le réglage fin ou l'augmentation rapide.
    • Les chercheurs ou les partenaires du fournisseur y ont-ils accès ?
    • Si oui, sous quelle forme ? Les données sont-elles partagées de manière isolée ou agrégée avec d'autres organisations ?
    • Dans quelles conditions un employé du fournisseur peut-il consulter les requêtes ?
  • Les LLM auto-hébergés risquent d'être très coûteux. Toutefois, après une évaluation de la sécurité, ils peuvent être appropriés pour traiter les données de l'organisation.

Les LLM facilitent la vie des cybercriminels

Certains exemples montrent que les LLM peuvent aider à écrire des logiciels malveillants. Le problème est qu'un LLM pourrait aider une personne mal intentionnée (mais ne disposant pas de compétences suffisantes) à créer des outils qu'elle ne serait pas en mesure de déployer autrement.
Dans leur état actuel, les LLM ne semblent pas convaincants et sont adaptés aux tâches simples plutôt qu'aux tâches complexes. Cela signifie que les LLM sont utiles pour “aider les experts à gagner du temps”, car l'expert peut valider les résultats du LLM.

Lire aussi :  La mise à jour iOS 16.3.1 d'Apple fait planter l'application Google Photos

Pour les tâches plus complexes, il est actuellement plus facile pour un expert de créer le logiciel malveillant à partir de zéro, plutôt que de passer du temps à corriger ce que le LLM a produit. Toutefois, un expert capable de créer des logiciels malveillants très performants sera probablement en mesure d'inciter un LLM à écrire des logiciels malveillants performants.

Ce compromis entre “l'utilisation des LLM pour créer des logiciels malveillants à partir de zéro” et “la validation des logiciels malveillants créés par les LLM” évoluera au fur et à mesure que les LLM s'amélioreront.

Les LLM peuvent également être sollicités pour donner des conseils sur des problèmes techniques. Il existe un risque que les criminels utilisent les LLM pour les aider dans leurs cyberattaques au-delà de leurs capacités actuelles, en particulier une fois qu'un attaquant a accédé à un réseau. Par exemple, si un attaquant a du mal à élever ses privilèges ou à trouver des données, il peut demander à un LLM et recevoir une réponse qui n'est pas sans rappeler les résultats d'un moteur de recherche, mais avec plus de contexte.

Les LLM actuels fournissent des réponses convaincantes qui peuvent n'être que partiellement correctes, d'autant plus que le sujet devient de plus en plus pointu. Ces réponses peuvent aider les criminels à mener des attaques qu'ils ne pourraient pas exécuter autrement, ou suggérer des actions qui accélèrent la détection du criminel. Dans tous les cas, les requêtes de l'attaquant seront probablement stockées et conservées par les opérateurs de LLM.

Au fur et à mesure que les LLM s'améliorent, il existe un risque de les criminels utilisent les LLM pour rédiger des courriels d'hameçonnage convaincantsy compris des courriels en plusieurs langues. Cela peut aider les les attaquants dotés de grandes capacités techniques mais qui manquent de compétences linguistiques, en les aidant à créer des courriels d'hameçonnage convaincants (ou à mener des opérations d'ingénierie sociale) dans la langue maternelle de leurs cibles. En conséquence, le NCSC suggère que nous pourrions bientôt voir :

  • Des courriels d'hameçonnage plus convaincants grâce aux LLM.
  • Les attaquants essaient des techniques qu'ils ne connaissaient pas auparavant.
  • Risque qu'un attaquant moins qualifié écrive un logiciel malveillant très performant.

Conclusion

Les LLM et le ChatGPT sont des développements passionnants avec un potentiel dynamique pour engager les utilisateurs et obtenir une acceptation généralisée. Cependant, l'utilisation sans restriction des LLM publics comporte des risques. Les particuliers et les organisations doivent faire preuve d'une grande prudence quant aux données qu'ils choisissent de soumettre dans les messages-guides. Le NCSC conseille aux utilisateurs de veiller à ce que ceux qui souhaitent expérimenter les LLM puissent le faire, mais d'une manière qui ne mette pas en danger les données d'une organisation.

Les modèles de langage d'IA comme ChatGPT offrent un potentiel incroyable pour les entreprises et les particuliers, mais ils présentent également de sérieux risques de sécurité et d'éthique qui doivent être pris en compte. En suivant les meilleures pratiques et en prenant des mesures proactives pour atténuer les risques, il est possible de garantir une utilisation sûre et responsable de ces outils.

NCSC : Reuters : TechRadar : Proactive Investors : Maddyness :

A lire aussi :

La face cachée de l'IA:

___________________________________________________________________________________________

Si tu aimes ce site web et que tu utilises l'annuaire complet des fournisseurs de services (plus de 6 500), tu peux obtenir un accès illimité, y compris la série exclusive de rapports approfondis sur les directeurs, en souscrivant à un abonnement Premium.

  • Individuel : £5 par mois ou £50 par an. S'inscrire

Renseignements sur la cybersécurité : Capturé, organisé et accessible


” La campagne de désinformation de la vise les partisans de l'
Article précédentLa campagne de désinformation de la Russie vise les partisans de l’Ukraine
Article suivantLa vulnérabilité de ChatGPT expose les conversations et les détails de paiement des utilisateurs