Empreinte numérique : une question d'entropie

Non, je ne vais pas faire un cours sur l'équation de Boltzmann. Mais on va parler de votre empreinte numérique et ce qui fait le caractère unique de votre personne sur Internet.

Empreinte numérique : une question d'entropie

L'entropie ? Pourquoi ?

Pour aborder ce sujet, j'aime bien employer le terme d'entropie. Vous le retrouverez également dans d'autres sujets de discussion alors je vais vaguement le définir pour celles et ceux qui ont du mal avec cette définition.

L'entropie désigne généralement la quantification du désordre ou de la prédictibilité. Dans notre cas, on s'intéresse au fait qu'elle quantifie de l'information nécessaire à établir des corrélations entre différentes variables.

En l'occurrence, ces variables constituent les traces que vous éparpillez à chaque connexion que votre navigateur Internet établit. On dira que plus l'entropie est grande, plus les variables permettent de dresser votre profil unique parmi la masse ; tandis que plus l'entropie est faible, plus on aura du mal à utiliser ces variables pour savoir qui vous êtes dans la masse.

Alors, êtes-vous unique ?

Je vous propose quelque chose avant d'aller plus loin dans les idées que je vais avancer. Vous pouvez en effet commencer par aller sur ce site qui consiste à très simplement analyser votre empreinte et la tester contre sa base de données. Cela ne vous donnera qu'une vague idée, mais vous devriez vite comprendre la problématique avancée dans mon billet.

J'ai fait un essai pour vous avec un exemple que j'avais sous la main. Sans aller dans les détails, j'ai révélé ci-dessus les informations globales et elles sont déjà pertinentes :

  • macOS : je suis déjà ciblé dans 10% de la masse.
  • Chromium-based : 37% de la masse...
  • Version 83 : aïe... 1.13% alors que c'est la dernière version !
  • UTC+2 : en effet, je suis dans ce fuseau horaire en France.
  • en : j'ai mon système et mes logiciels en anglais, comme beaucoup.

Ces proportions sont exclusives à la base de données de Am I Unique et doivent être considérées aec du recul. Ici, cela sert juste d'exemple "visuel" pour montrer le point.

Ces pourcentages sont des proportions de la masse, mais si vous assemblez toutes ces informations avec un calcul, vous verrez que les choses s'aggravent en réalité. 71% de 15% de 1% de 37% de 11%... C'est très approximatif, rien ne dit que 37% des utilisateurs de macOS utilisent Chromium, mais c'est une illustration.

La discordance est discriminante ! Vous avez le fuseau horaire de France et votre navigateur est en anglais... Cela fait de vous quelqu'un de plus repérable que quelqu'un qui a un navigateur français avec le fuseau horaire français.

Et je n'ai ici que présenté des informations très simples. Il y a des dizaines voire plus de paramètres qui font que votre empreinte est unique : des plugins supportés jusqu'à la taille exacte au pixel près de la fenêtre de votre navigateur. Sans parler du TCP/IP fingerprinting, donc changer manuellement son user-agent a un intérêt douteux.

(La liste du test Am I Unique est bien entendu non-exhaustive et est riche en paramètres, surtout avec JavaScript activé, qui vous feront stand out.)

Le Javascript, votre pire ennemi

Vous avez pu le constater par vous-même dans les détails du test Am I Unique : le Javascript est définitivement la composante la plus bavarde. À l'heure actuelle, le Javascrpit est omniprésent sur le Web et vous arriverez difficilement à y échapper.

Là où HTML et CSS s'occupent d'organiser les éléments "statiques" d'une page, le JS permet de rendre un contenu dynamique, d'executer du code côté client (donc dans votre navigateur, et c'est ce qui le rend potentiellement dangereux sur des sites malicieux), et s'il permet d'executer du code cela peut très bien être pour communiquer avec un ou plusieurs serveurs distants.

C'est ainsi que Google Analytics fonctionne après tout, l'administrateur du site intègre seulement un bout de Javascript qui s'exécutera dans votre navigateur et enverra les données pour compléter la base de données de Google Analytics, permettant à l'administrateur en question d'avoir des statistiques de votre visite sur son site.

Il va sans dire que vous si vous souhaitez limiter la fuite de données de navigation, il est conseillé (obligatoire ?) de bloquer globalement Javascript et de ne l'activer qu'à la volée pour faire fonctionner les sites que vous souhaitez utiliser. C'est un investissement, mais si vous êtes sérieux quant à ça c'est presque un passage nécessaire.

Le paradoxe du DNT

Vous n'êtes peut-être pas étranger au paramètre "ne pas me pister" dans votre navigateur. Ce paramètre n'a rien de magique, il envoie une en-tête HTTP "Do Not Track" dans vos requêtes pour indiquer que vous souhaitez ne pas être pisté(e)...

C'est un standard propulsé par la W3C qui aujourd'hui connait de tristes jours depuis qu'Apple a décidé de supprimer l'option de son navigateur Safari.

“It is, in many respects, a failed experiment [...]”
- Jonathan Mayer, membre du W3C

Mais cela soulève deux problèmes :

  • Vous ne faites qu'indiquer, et qui vous dit que ça sera respecté ?
  • Et si envoyer cette en-tête vous rendait plus unique ?

En effet, rien n'oblige un site de respecter votre utilisation du DNT, ni-même le GDPR contrairement à ce que l'on pourrait penser, car il n'y fait aucune mention explicite. Encore un raté.

Au final, on pourrait légitimement se poser la question de savoir si l'activation de DNT fait plus de mal que de bien. En quelque sorte, oui, car vous augmentez votre entropie en activant un paramètre censé décliner le pistage mais qui est largement ignoré au final. Je n'ai pas de statistiques exactes car c'est difficile de quantifier, mais libre à vous de rechercher en détails.

Est-ce pour autant une technologie à l'abandon malgré ses débuts enthousiastes ? Je pense personnellement que le débat doit avoir lieu. Fidèle à lui-même, Apple a déjà tranché son avis sur la question, et ce n'était pas une décision irréfléchie contrairement à ce que certains aimeraient croire.

Le VPN : la fausse bonne idée

Si vous pensiez jusqu'à présent que l'adresse IP était la seule donnée pertinente pour qu'un site vous traque, j'espère que vous vous rendez compte désormais que la chose est plus complexe.

J'ai épluché les arguments commerciaux d'un certain VPN que je ne citerai pas et dont vous entendez assez parler sur YouTube et compagnie :

C'est un argument que les VPN commerciaux vous ressortent souvent : ils se dressent volontiers une image où ils seraient les héros vous protégeant des vilaines tierces parties qui récoltent vos informations pour les revendre.

Plot twist : vous vous faites probablement plus de mal que de bien en utilisant un VPN commercial qui vous inflige autant de désinformation.

Dans l'idée, un service VPN aux IP partagées vous permettrait en effet de cacher à un site que vous habitez réellement à Sartrouville dans les Yvelines, donc que vous vous noyez dans la masse des utilisateurs du VPN. Mais c'est ce que le service VPN en question veut vous faire croire, car vous êtes bien évidemment traçables même avec ce VPN, souvenez-vous :

  • L'adresse IP n'est qu'une variable parmi d'autres de votre profil, ne l'oubliez pas : votre navigateur envoie beaucoup d'informations à lui tout seul avec Javascript en particulier.
  • Les IP des VPN sont connues et vous rajoutez potentiellement l'information supplémentaire que vous êtes client de tel service VPN.
  • Vous rajoutez probablement des discordances. Vous avez une IP située aux Pays-Bas, mais votre navigateur est en anglais et votre timezone est toujours française ? Ben voyons !

Les VPN constituent une famille d'outils qui peuvent avoir en effet des effets bénéfiques en vie privée voire en sécurité. Mais comme tout outil, ils peuvent être mal utilisés, si bien que vous n'en avez probablement pas besoin.

Il va sans dire que si vous continuez à utiliser un VPN dans l'idée de vous protéger du pistage en ligne, pour aller au final sur les mêmes comptes Facebook et Google, vous êtes à côté de la plaque.

Baisser son entropie

Blend in

La théorie du "blend in" est simple : fondez-vous dans la masse.

Je ne suis pas un apple fag, mais il faut reconnaître que le plus efficace est juste d'acheter un iPhone et d'utiliser Safari sans toucher aux paramètres. On s'en fiche ici de ce qu'Apple représente comme marque pour vous, mais il faut reconnaître que ce modèle est intéressant : même hardware et même software pour un groupe conséquent de personnes.

Côté Android, c'est ce que recommande également GrapheneOS qui suggère d'utiliser Vanadium, son fork de Chromium, pensé pour "blend in" avec les utilisateurs de Chrome. Au niveau système, le système souhaite également se comporter comme un Android classique. Privacy done right.

Le "blend in" est également sciemment adopté par Tor Project. Ce dernier suggère fortement d'utiliser son réseau, TOR, en compagnie du Tor Browser. Tor Browser est un navigateur (basé sur Firefox) qui dans l'idée est prêt à l'emploi (javascript désactivé globalement par exemple, et une fenêtre à taille standard) et vous dissuade clairement de toucher à ses paramètres.

Tor suit donc cette philosophie : quand bien même votre adresse IP serait anonymisée par le puissant routage de TOR, tous ces efforts sont voués à l'échec si vous êtes reconnaissables malgré tout.

Block the crap (enumerating badness)

L'autre pratique consiste à bloquer les domaines de pistage avec un système de blacklist. C'est la façon de faire en utilisant des extensions telles que uBlock Origin ou en adoptant un blocage systématique au niveau DNS avec Ad Guard ou Pi-hole. Si vous ne communiquez pas avec les vilains revendeurs de données, alors pas besoin de se faire chier avec cette question d'entropie, nan ?

Pas si vite. Cette pratique a ses défauts :

  • Par nature, un système de blacklist n'est pas infaillible. Il faudrait préférablement utiliser un mode de whitelist en autorisant manuellement les accès, comme avec uMatrix. C'est radical, et pénible.
  • Qu'en est-il des trackers first party ? Vous n'êtes pas sorti d'affaire aussi facilement : bon article d'aeris qui couvre le sujet.
  • En bloquant une liste précise de domaines, il se trouve que vous augmentez potentiellement votre entropie. Vous bloquez X et Y, mais pas Z... étrange, ne serait-ce pas discriminant au fond ?

Au final... que faire ?

Au fur et à mesure que le web se complexifie, les méthodes de tracking évoluent également. Vous avez deux façons de faire : se noyer dans la masse ou restreindre les connexions, mais il n'y a pas d'entre-deux, car une erreur résulte dans une discordance et votre façon de faire échoue lamentablement.

Globalement, je vous conseille :

  • D'utiliser les versions à jour des systèmes et logiciels que vous utilisez.
  • D'installer le minimum syndical des extensions : une simple extension augmente l'entropie. Restez simples !
  • De faire attention quand vous utilisez un VPN ou un service qui se réclame garant de la protection de votre vie privée par magie.
  • Et enfin l'ultime conseil : de limiter votre utilisation de services tiers.

J'applique à ce jour uniquement les conseils ci-dessus.

On dira que je suis pessimiste ou flemmard, mais cela fait bien longtemps que j'ai abandonné le combat. Beaucoup d'experts auto-proclamés vous prodigueront des conseils dangereux, comme installer une pléthore d'extensions qui vous desserviront plus qu'autre chose si vous avez bien compris le point où je voulais en venir, en plus d'augmenter votre surface d'attaque.

La simplicité est la clé. KISS! (Keep it simple, stupid)

Dans l'idée, si je dois faire une activité anonyme, je lance Tor Browser. Autrement, je privilégie la simplicité et mon confort, tout en faisant attention aux services que j'utilise (je suis un accro de l'auto-hébergement, mais je ne le conseillerais pas à tours de bras pour autant).

C'est sur ces derniers mots que je termine ce billet, en espérant avoir entrouvert votre esprit à propos de cette question.