La 1ère fonctionnalité de Data Flow Delta « Exports Planifiés » vous permet, comme pour le précédent Data Flow, de configurer vos exports en sélectionnant le contenu et le stockage cible.
Fonctionnement Exports Planifiés Data Flow Delta
Une interface dédiée vous permettra d’effectuer cette configuration d’exports. Vous pourrez entre autres :
- Multisite: Sélectionner un site ou l’ensemble des sites auxquels vous avez droit d’accéder.
- Choix de propriétés : Choisir les propriétés composant votre export (standard et custom).
- Format : Choisir le type de séparateur et le format d’export entre CSV, JSON et PARQUET.
- Planification : Choisir la fréquence d’export – 15, 30 ou 60 minutes.
- Stockage : Choisir l’emplacement de l’export, sFTP, Amazon S3 (Azure et GCP par la suite).
Accéder à l'interface Data Flow Delta - Exports planifiés
Pour vous connecter à l'interface de Data Flow Delta, rendez-vous sur l'app Export :
Vous serez ensuite en capacité de créer des exports planifiés Dataflow Delta.
Création d'un export planifié DataFlow Delta
Cliquez sur "Créer un export Dataflow Delta" pour créer un nouveau flux de données.
Vous accéderez ensuite au paramétrage de votre flux d'export qui se présente sous forme de 2 étapes très simples :
ETAPE 1 : Que voulez-vous inclure dans votre export ?
![]() |
Le périmètre de votre export Avez-vous besoin d'informations concernant tous les sites web de votre organisation ? Ou seulement d'un ou plusieurs de vos sites internet ? |
![]() |
Les données dont vous avez besoin d'exporter Voulez-vous exporter la totalité de vos propriétés actuelles et futures ? Ou seulement certaines propriétés ?
|
ETAPE 2 : Quelles sont les caractéristiques de votre export ?
![]() |
Nom du flux d'export Nommez votre flux d'export |
![]() |
Choix du format d'export Choisissez votre format d'export : CSV, JSON ou Parquet. La configuration change automatiquement pour chaque format que vous sélectionnez. |
|
Fréquence d'export & enregistrement
=> missinglefile: false => Aucun problème. => missinglefile: true => Un fichier est manquant. |
Configuration des connexions Amazon S3
La configuration des connexions Amazon S3 est un processus simple.
Pour commencer, sélectionnez "Amazon S3" comme type d'envoi lors de la configuration de votre export Data Flow Delta.
Sélectionnez ensuite "Créer une nouvelle connexion" :
La fenêtre de configuration suivante s'affiche. Afin de pouvoir exporter les fichiers Data Flow nous avons besoin des informations suivantes :
- Nom de la configuration S3 - les informations présentes ici sont à titre de référence. Cela vous permettra de trouver et de modifier votre connexion parmi les autres connexions Amazon S3 que vous avez configurées avec AT Internet.
- Nom du Bucket - Nous avons besoin d'informations concernant le nom de votre Bucket Amazon S3. Il s'agit d'un identificateur unique et propre à votre bucket. Cela nous permettra d'envoyer les fichiers au bon emplacement.
- Dossier de destination - Si vous souhaitez envoyer les exports à un endroit autre que le dossier principal du Bucket, vous pouvez spécifier le chemin d'accès ici, les sous-dossiers doivent être séparés par "/".
- Règle de configuration d'accès - Afin qu'AT Internet exporte les fichiers dans votre Bucket Amazon S3, votre Bucket doit contenir la règle dans ses configurations d'accès au Bucket. La règle peut être facilement copiée-collée à l'aide du bouton "copier la règle".
- Tester la connexion - Lorsque vous appuyez sur le bouton "tester la connexion", nous enverrons un fichier sur votre Bucket Amazon S3 qui nous permettra de confirmer que les informations que vous nous avez fournies sont correctes et que la connexion a été établie correctement.
& Sauvegardez !
Lorsque vous revenez sur la configuration Flow, cliquez sur : pour rafraîchir la liste des connexions Amazon S3. Vous devriez voir apparaître la connexion que vous venez de configurer dans la liste déroulante.
Configuration des connexions FTP et sFTP
La configuration des connexions FTP ou sFTP est un processus simple.
Sélectionnez "FTP" comme type d'envoi lors de la configuration de votre export Data Flow Delta.
Ensuite, sélectionnez "Créer une nouvelle connexion" :
La fenêtre de configuration suivante s'affiche. Afin de connaitre les droits et la destination où AT Internet doit exporter les fichiers de Data Flow, nous avons besoin des informations suivantes :
- Nom de la configuration FTP - les informations demandées ici sont à titre de référence. Cela vous permettra de trouver et d'éditer votre connexion parmi les autres connexions FTP que vous avez configuré avec AT Internet.
- IP/Nom du serveur - Nous avons besoin d'informations concernant l'adresse IP ou le nom du serveur où se trouve votre serveur FTP.
- Protocole - dans cette section, vous pourrez spécifier le protocole que vous souhaitez utiliser : FTP ou sFTP
- Port - Dans cette section, vous pouvez spécifier le port que vous souhaitez utiliser. Pour les connexions FTP, le port 21 est déjà présélectionné. Pour les connexions sFTP, vous avez le choix entre les ports 2, 23 et 2222.
- Identifiant & Mot de passe - Pour que nous puissions exporter le fichier, nous avons besoin d'un identifiant & mot de passe valide avec suffisamment de droits d'accès pour pouvoir pousser les accès.
- Dossier de destination - Si vous souhaitez envoyer les exportations à un endroit autre que le dossier principal du bucket, vous pouvez spécifier le chemin d'accès ici, les sous-dossiers doivent être séparés par "/".
- Tester la connexion - lorsque vous appuyez sur le bouton "tester la connexion", nous enverrons un fichier au FTP qui nous permettra de confirmer que les informations que vous nous avez fournies sont correctes et que la connexion a été établie correctement.
& Sauvegardez!
Lorsque vous retournez dans la configuration des Push Exports, cliquez sur : pour rafraîchir la liste des connexions FTP. Vous devriez voir la connexion que vous venez de configurer apparaître dans la liste déroulante.
Format
Une fois votre flux créé, vous recevrez directement sur votre serveur Amazon S3/sFTP les fichiers générés par Dataflow Delta. Chaque fichier généré est compressé au format GZ avec la structure suivante :
FlowName_#YYYYMMDD#_#HHMM#_#HHMM#_UTC_x_x_x.csv.gz
Le suffixe x.x.x correspond à une numérotation gérée par Snowflake.
Afin d'accélérer les traitements, Snowflake exécute la requête par parties sur différentes machines, donc pour un même export sur une période donnée, vous pourrez recevoir plusieurs exports.
Exemple :
- Web Particulier_20200917_0800_0900_UTC_0_0_0.csv.gz
- Web Particulier_20200917_0800_0900_UTC_0_1_0.csv.gz
- Web Particulier_20200917_0800_0900_UTC_0_2_0.csv.gz
- Web Particulier_20200917_0800_0900_UTC_0_3_0.csv.gz
Dans cet exemple, Snowflake a parallélisé la génération sur 4 machines / coeurs, il en résulte donc 4 fichiers.
On retrouve dans ces fichiers tous les événements insérés dans Snowflake le 17/09/2020 entre 8h et 9h UTC. La génération ne porte donc pas directement sur l'heure de l'event, mais sur la date à laquelle il a été enrichi et inséré en base de données. Ceci permet de garantir la réception de l'exhaustivité de vos événements, dans le cas notamment où vous utilisez la fonctionnalité de hits offline.
Rapport de livraison
A chaque livraison de fichier sur votre Amazon S3/sFTP, vous recevrez en complément un fichier ".report" qui contiendra les fichiers générés et envoyés après export. Cela vous permettra de vérifier si l'export s'est bien déroulé.
Fichiers export d'exemple
Vous souhaitez voir à quoi vont ressembler les fichiers exportés ? En voici un exemple téléchargeable ici :
Télécharger les fichiers d'exports exemple
Date & Heure : locale ou UTC ?
Dans Data Flow Delta, quand vous souhaitez exporter des propriétés de timestamp d'un événement, vous avez le choix entre l'heure locale du serveur de collecte et l'heure UTC).
Heure locale du serveur de collecte
- Visit_time : heure locale du début de la visite,
- Event_time : heure locale de l'événement analysé.
Heure UTC
- Visit_time_utc : heure UTC du début de la visite,
- Event_time_utc : heure UTC de l'événement analysé.
Génération d'historique
Les exports de génération d'historique ou de régénération d'une date passée portent sur une journée locale complète, se basant sur la propriété event_time, alors que les exports de production font des extractions basées sur la date d'insertion de l'événement en base en UTC avec une fréquence à 15, 30 ou 60 minutes.
Pour pouvoir générer de l'historique d'une date X à une date Y et minimiser le risque de doublons ou de trous de données, voici la marche à suivre :
- Si ce n'est pas déjà fait, mettre l'export en production avec la fréquence désirée
- à Y+1, vous devez supprimer les données que vous avez ingérées dans votre base de données avec une requête comme suit : DELETE * FROM #matable# WHERE event_time < Y+1
- Nos équipes AT Internet en interne créent un ticket de génération d'historique à l'équipe Exports en précisant :
- Votre compte client sur lequel l'export de production a été créé
- Le nom de votre export
- La période exacte (locale) à régénérer (X à Y)
Prenons un exemple :
Imaginons que l'export de production ait été lancé le 17/01/2021.
Les extractions de production se basent sur le champs event_time_insert_utc.
On voit ici que la valeur minimale de l'event_time est à 00:58. Si on ne génère pas en mode reprise d'historique la journée du 17, il manquera donc 58 minutes de données. Mais si on génère la journée du 17 sans que vos données déjà collectées aient été supprimées pour cette journée, alors il y aura des doublons (tous les events déjà inclus dans ses exports de production pour cette journée).
A savoir
Il est possible que des exports de production contiennent parfois des doublons. Ce n'est pas inhérent à Data Flow Delta mais à la collecte des données. Ces doublons apparaîtront également dans Data Query sur la journée en temps réel. Les doublons sont supprimés à J+1 dans la table de données temps réel, mais cela n'a donc pas d'impact sur les fichiers Data Flow déjà consommés.
En cas de retard temps réel, les événements non inclus dans un fichier seront inclus dans les fichiers suivants, toujours en se basant sur leur date d'insertion dans la table. Auquel cas, on peut avoir des fichiers plus légers que de coutume sur une période puis des fichiers plus lourds sur la ou les périodes suivantes.