Logo
Depuis 1998

Le reporting de Google Analytics est incomplet et cassé

Après trois semaines d’utilisation, je découvre avec déception que Google Analytics est moins précis que sexy. Le reporting par défaut est incomplet, jusqu’au point de placer dans des catégories communes des utilisateurs aux expériences de navigation bien différentes.
Cerise confite sur l’amandine : les liens vous permettant de visualiser lesdites pages sont…eh bien cassés.

Le contexte

Je me place dans le contexte d’un utilisateur averti, suffisamment en tout cas pour créer un paramétrer un compte Google Analytics (GA), puis coller le tracking code fourni dans le header de ses pages. Ici en l’occurrence il s’agit d’un de mes sites, la boutique en ligne leshop.vivrecycling.com.
Le site est hébergé mutuellement sur OVH. Je dispose d’un accès aux logs brutes Apache (attention, contrairement à ce qui est annoncé par OVH, qui parle de 5 minutes d’écart avec le temps réel, l’écart observé entre les requêtes HTTP et leur apparition dans la log correspondante est souvent de l’ordre de quelques heures, au mieux d’une heure. Aussi, pour cette expérience je m’intéresserai à la log d’il y a quelques jours, de façon à éliminer ce risque de retard.

Le but

Laisser les utilisateurs et les robots générer des requêtes pendant quelques jours, puis observer le diagramme de flux #168;Visitors Flow". Se réjouir ou pas de ce que l’on y verra.

L’expérience

Après quelques jours de macération, je me connecte sur Analytics, et lui fais dessiner le diagramme (photo zoomable ci-contre).

Manque de précision
Ma première observation est que le nom de ce que GA appelle "la page d’atterrissage" est confusante. On ne sais pas vraiment s’il s’agit d’un groupe de page ou d’une page, car dans certains cas on voit deux blocs distincts qui commencent par le même directory, et parfois seul un seul bloc, e.g. "/en".
On y voit par exemple“category”, alors que de toute évidence je n’ai pas de page simplement nommée“category”, ni même dans le htaccess ni dans le répertoire évidemment. On pense alors naturellement que GA écarte l’extension et fabrique un groupe qu’il prénomme tout seul ’category’. En cherchant dans la log, j’ai n’ai aucun accès de près ou de loin à une quelconque page nommée category ou category.php ou quoique ce soit du genre. Il bien des accès à des images et des feuilles de style dont le nom intègre category, mais j’espère croire que GA ne va pas jusqu’à placer dans le diagramme de flux les images, et encore moins avec des noms transformés. Bref, je ne sais pas d’où vient ce nom“category”. Même un clic sur le détail du groupe ne donne aucune autre info que“category”. Pas de détails de page. Même observation pour“index”. D’aucun me dira "c’est peut-être ça façon de nommer /". Si tel est le cas, c’est autement confusant, car tous les professionnels de l’Internet nomment la home page“slash”. C’est donc le lieu privilégié pour utiliser cette terminologie. Secundo, j’ai regardé dans la log les GET / pour ce jour, il y en 2 issus de GoogleBot pour ce jour, et 2 issus d’humains. Or GA me dit que la page“index” fut visitée 3 fois… Dans aucun cas, même s’ils ne comptent pas les visites du Bot, le compte n’y est toujours pas.

Bref, au moins le“category” a besoin d’être expliqué… Mais par qui ?

Enfin et surtout, j’ai pris soin de régler l’option Tracking Info.Subdomains du compte Vivrecycling à“ON”. Ce qui veut dire que les sources prises en compte peuvent provenir aussi bien de www.vivrecycling.com comme de leshop.vivrecycling.com . Eh bien, où voit-on cette distinction dans le diagramme ? On voit bien fr/11 (sous-domaine www.*), mais quelle méta information indique qu’il s’agit du sous-domaine www, par opposition au sous-domaine leshop ? Cette information est importante, puisque Le Shop est en lien depuis WWW, et vice-versa. Je voudrais connaître les migrations transversales d’un sous-domaine à un autre. C’est pour toutes ces raisons que j’affirme que le diagramme est imprécis.

Rapport incomplet

On vient de voir dans le chapitre ci-dessus comment des infos de GA ne trouvent pas leur image dans la log. On va maintenant voir la réciproque : comment des informations de la log ne trouvent pas leur image dans GA.

Dans l’image zoomable ci-dessus, juste en dessous du titre L’expérience, on voit une info primordiale pour moi : un utilisateur d’IP 167.30.* a atterri sur /en/13-tours-in-savoie, j’aurais aimé le savoir ! C’est primordial ! Je voudrais en particulier m’assurer que ce clic provient vient d’un AdWord. Seulement voilà, on ne trouve pas ce hit sur le diagramme. J’ai testé d’autres jours et d’autres hits, j’arrive à la même conclusion.

Liens cassés

C’est la cerise sur le gâteau : en cliquant sur un titre de bloc du diagramme de flux, on accède au détail des pages, et les liens y sont cliquables pour votre bonheur. C’est une bonne idée, sauf que ces liens sont cassés puisque les noms de page sont fantaisistes. A titre d’exemple,“category” est une page inexistante (mais visitée !) ; on peut alors sereinement cliquer sur“category” (voir image zoomable ci-contre), pour observer ce que l’utilisateur voit…ou devrait voir. C’est la cata, erreur 404. En effet le nom de page est fantaisiste, donc tout ce qui va derrière est du n’importe quoi.

Chez Google on regarde vos filtres sur la vue temps réel

Vous les regardez…avec des verres très fumés ! Leur annonce est flamboyante, mais la réalité est différente. Sur ce profil j’ai inclus un filtre d’exclusion ’Exclude zu traffic’. Il s’agit d’exclure le trafic porteur du langage ’zu’ (Zoulou), improbable sur ma boutique, et que mon navigateur porte quand je suis en mode debug. Rien n’y fait, j’apparais toujours dans le moniteur temps-réel malgré ce filtre.
A titre d’exemple l’image ci-dessous, d’URL qui parle d’elle-même : /naquemoiquiconnais.php . J’ai appelé cette page alors que mon navigateur client portait la langue Zoulou ; j’ai écrit l’expression régulière“zu” du filtre dans plusieurs versions : préfixée, suffixée, entourée, seule… J’ai posé la question sur le forum d’aide mais il n’y avait pas de réponse au moment où j’écris initialement ces lignes.
Suite à une batterie de tests que j’ai conduits pas la suite, j’ai découvert que les développeurs de Google ne prennent en compte que la langue primaire qui apparaît dans les préférences de langues, au lieu de considérer toute la chaîne HTTP_ACCEPT_LANGUAGE. Evidemment il n’est ni élégant ni concevable de placer ’zu’ en première langue, sous peine de voir la homepage de Google apparaître en Zoulou par exemple. Je la plaçais donc en deuxième ou en troisième langue, et elle était ignorée.

A l’heure actuelle, pour ne pas que mon propre trafic soit comptabilisé dans Google Analytics, j’utilise un filtre basé sur l’exclusion d’une version de mon navigateur (Exclude browser version if value = …). Vous pouvez trouver le mode opératoire ici.

L’application Analytics sur Android est à finir

La version mobile n’est pas en reste sur le front de la précision, avec cette superbe home page qui vous indique de façon très claire sur quel compte vous êtes… Il se trouve que dans mes deux comptes GA j’ai un profil du même nom "All meaningful…". J’aurais avoir le titre des comptes pour savoir sur lequel cliquer…

Conclusion
Google c'est le made in America du made in China. En conclusion, Google c’est un peu le made in America du made in China. Comme avec IKEA : si vous montez occasionnellement une étagère en sapin de 30 pièces vous les trouverez géniaux, mais si vous passez 3 semaines à monter une cuisine, avec ses milliers de pièces, vous comprenez que c’est du bas de gamme en terme d’ingénierie, mais avec une bonne couche de look sexy par dessus.

Pour en revenir à Google Analytics, cet outil est moins sérieux que sexy. Si vous n’êtes qu’un simple utilisateur final et regardez cette appli sans aller voir les logs brutes, vous pouvez vous faire une fausse image du trafic sur votre site.
J’aimerais tellement avoir accès aux stats réelles et non fantaisistes, avec le détail des sous-domaine, le nom des pages réellement visitées, ainsi que des liens corrects.
Une fois de plus j’ai posté mes commentaires sur le forum GA. Je suis sûr que Monsieur ou Madame Réponse-à-tout va bientôt me poster la démonstration de mes erreurs…je pourrai alors sereinement passer à l’écriture de mon prochain corrosif : Google Adwords. Oh my!

En passant, mon égo vous dit de vous dire qu’en 1999, j’ai développé pour tropicalm.net un système de tracking le plus simple du monde, clair, précis, très coloré (la couleur dépend de l’IP), mais spartiate, quoique toujours en production à ce jour, qui lui par contre, sans renfort de diagrammes sagitaux, vous montre effectivement le nom complet sans extension des pages visitées, avec un lien non-cassé. Mais le mien est bien moins populaire, voilà pourquoi je suis bien moins millionnaire que Google.

(1061 vues)
créé le 29 novembre 2012
révisé le 10 février 2017 par
Accepteriez-vous notre politique de confidentialité ? Elle parle de cookies et de données personnelles...