Les spécificités des données de validation

Publié le

La migration des titres franciliens sur support télébillettique, commencée au début des années 2000, s’est étendue à l’ensemble des forfaits d’une durée supérieur ou égale à une semaine (qui couvrent 80 % du trafic) :

  • Carte Intégrale en 2001,
  • Imagine R Étudiant en 2002 et Imagine R Scolaire en 2003,
  • migration progressive des cartes Orange de 2004 à 2009,
  • forfaits Solidarité Transport et Gratuité Transport en 2008,
  • création du Complément de parcours et déploiement des nouveaux forfaits Améthyste en 2013.

Ne demeurent aujourd’hui sur support magnétique que les tickets, billets et forfaits de courte durée.
En 2007, Île-de-France Mobilités (anciennement STIF) choisit de se doter d’un système d’information décisionnel pour exploiter les données de validation. On appelle « système d’information décisionnel » un système qui collecte de gros volumes de données de natures diverses puis les organise selon des règles de modélisation permettant des analyses signifiantes pour l’aide à la décision. Les SI décisionnels sont notamment utilisés dans les secteurs de la téléphonie mobile, de la banque et de la grande distribution.

La particularité marquante de la mise en place du système d’information des données de validation (SIDV) pour Île-de-France Mobilités est le volume très considérable des flux de données à gérer : il y a, sur un jour de plein trafic, environ 10 millions de validations et de l’ordre de 2,5 milliards de validations sur une année.

Pour en savoir plus, on peut télécharger la note « Télébillettique : la validation au service de la décision » (mars 2010) qui présente le contexte et les caractéristique essentielles du SIDV, ainsi que quelques exemples d’utilisation des données de validation.
Les données associées à une validation et remontées dans le SIDV sont :

  • le N° de la carte Navigo anonymisé, la catégorie de titre de transport, la période et les zones de validité du titre ;
  • la date, l’heure et le lieu de la validation ;
  • le type de validation (entrée – dans quel mode, sortie – de quel mode, correspondance – de quel mode à quel mode) ;
  • l’identification de l’exploitant, de la ligne, du véhicule, de la mission ;
  • l’identification de l’équipement.

Les possibilités d’exploitations statistiques sont donc très riches. Il est utile d’avoir les éléments suivants à l’esprit pour en bien mesurer la portée et les limites.

  • Les algorithmes d’anonymisation sont renouvelés tous les trimestres. Les numéros des cartes font l’objet d’un algorithme d’anonymisation au niveau des systèmes d’information des transporteurs puis d’un second au niveau du système d’information d’Île-de-France Mobilités. Ces algorithmes sont modifiés tous les trimestres. Ainsi peut-on identifier les validations successives associées à une même carte au plus sur la durée d’un trimestre calendaire ; les algorithmes d’anonymisation sont irréversibles, il est strictement impossible de faire le lien entre l’identifiant d’une carte tel qu’il apparait dans le SIDV et le numéro originel de la carte.
  • Le SIDV ne « voit » que les validations. Certains trajets demeurent invisibles dans les remontées de validations : trajets en bus par des personnes n’ayant pas validé lors de la montée dans le véhicule, ou des trajets en train entre deux gares « ouvertes » réalisés par des voyageurs n’ayant pas validé au départ (on parle de gares « ouvertes » quand on peut accéder ou sortir des quais sans nécessité de passer par un portail de validation). En l’absence de redressement, les exploitations de données brutes issues du SIDV sous-estiment donc les trajets en bus ou tram et certains trajets en train par rapport à la mobilité effective des porteurs d’abonnements.
  • Le SIDV reconstitue la mobilité des cartes à partir des données de validation par l’application de règles de modélisation. Lors de l’élaboration du système, une trentaine de règles ont été mises en place pour agréger les validations en trajets, puis en déplacements, sur la base de comportements moyens.

L’un des enjeux actuels d’Île-de-France Mobilités est de gagner en justesse et en précision dans l’analyse de la mobilité par l’exploitation des données de validation. C’est pourquoi des efforts particuliers sont consacrés au travail avec les transporteurs sur l’amélioration de la qualité des flux de données, mais aussi à la mise au point de principes de redressement fiables et de règles de modélisation affinées qui permettent d’estimer la mobilité réelle à partir de l’exploitation des données de validation.

L’un des avantages très appréciable de l’exploitation des données de validation par rapport aux enquêtes de mobilité classiques, ou aux opérations de comptage réalisées par les transporteurs, est d’offrir une vision dynamique : une enquête ou un comptage donnent une photographie figée de la mobilité, l’observation des données de validation permet de voir comment le trafic varie selon les jours et les saisons au gré des effets de calendrier, de météo, etc.