GWT Sitemap URL Tattoo, a summer game?

Il presente articolo è un guest post scritto da Piersante Paneghel, che ringrazio molto per il contributo. Il post viene pubblicato solo perché Piersante mi ha promesso che pagherà eventuali spese legali. Però è strano, gli spuntava il passaporto dal taschino. [NdLow]

Come ho trovato un baco, e ci ho giocato. In forma di FAQ.

Disclaimer 

L’exploit viene pubblicizzato per tre ragioni:

  • Fare in modo che il problema sia messo a conoscenza e verificato dal maggior numero di webmaster/SEO possibili, in modo da prevenire panico o sconforto immotivati nel caso si diffonda.
  • Spingere Google a risolverlo velocemente.
  • Perché è divertente.

Dove si manifesta il problema? 

In Google Webmaster Tools | Site configuration | Sitemap | all.

In cosa consiste il problema? 

Qualsiasi URL (che restituisca qualsiasi status code) che venga pingata manualmente, o anche da procedure automatiche senza autenticazione, viene inserita tra i 500 risultati massimi possibili/visibili nel pannello Google Webmaster Tools | Site configuration | Sitemap | all.
Tali URL non si potranno cancellare e rimarranno per un tempo significativo nel pannello. In pratica una specie di tatuaggio (non indelebile, ma rinnovabile).

Un semplice errore tecnico (un rilascio di feed con URL errate, poi riscritte) o anche banali attività maliziose possono rendere inusabile questa utilissima feature di monitoraggio delle sitemap.
La sezione “all” è l’unica che permetta la gestione di un sito con sitemap e feed numerosi, da parte di un gruppo di lavoro a distanza e con più account.
Si tratta della Helicopter View.

Chi può risolvere il problema? 

Solo Google.
Ma non sembra sia percepito come problema, almeno fino a un paio d’anni fa.
After awhile of crawling it and seeing that it consistently doesn’t exist anymore, we’ll eventually drop it from the list of ‘All’ Sitemaps.
Eventually?
E’ esperienza comune avere sitemap o feed 404 vecchi, anche di mesi.

Rifare il submit della URL per caricarla sul proprio account e cancellarla non serve a nulla, dato che rimarrà comunque nella sezione “all”.

Da qualunque parte si osservi la faccenda, quello che risulta è che un semplice errore, un innesto di molti feed o anche un flood anonimo (se fatto con metodo) può azzoppare un tool utile soprattutto ai gruppi di lavoro misti, dove più account si alternano sul sito. Sui progetti strutturati, in definitiva.

Una URL inesistente resterà quindi per sempre in pannello? 

Sperabilmente no, dopo qualche tempo è plausibile venga cassata, ma in ogni caso un semplice ping la farebbe ricomparire. Lei o una variazione, è indifferente ai fini del ragionamento.
Un istante per aggiungere una risorsa e molta calma per dismetterla.

E’ pericoloso per la salute o le performance del mio sito?

No. O meglio, non direttamente.

Di per se l’inusabilità del pannello Sitemap nei GWT non ha nessuna implicazione sulla salute del sito nei motori di ricerca. Ne ha molte sul tempo necessario ai controlli, e in casi particolari l’impatto può essere particolarmente fastidioso.
Il pannello Sitemap dei GWT equivale allo strumento della pressione olio in un motore. Uno strumento rotto non modifica le performance del motore, ma aumenta il rischio di trascurare un guasto serio.
In determinate condizioni però, questa forma di submission via ping potrebbe essere sfruttata per floodare un sito parecchio inconsistente. Ma qui non c’entrano i GWT o l’exploit, qui c’entra solo il sito inconsistente che sbatte contro la velocità dei ping.

Ad esempio si pensi a un server IIS con una gestione raffazzonata dei 404, maiuscole e minuscole sparse in URL a caso e magari sindrome da parametri esagerati.
Mettiamo che nessuna pagina restituisca davvero 404, mai, e che le pagine inesistenti diano invece 302 su una 200 dove c’è scritto “errore”. E le pagine di listing appendano alla propria URL i link relativi mantenendo i parametri che trovano. 🙂
Ecco, in un caso del genere flood malevoli con “vere” pagine di listing, ma duplicate via parametri di fantasia, e pagine inesistenti che danno 302 su 200 potrebbero provocare un danno serio.
Intendiamoci, magari niente che non sarebbe successo lo stesso col tempo, ma una notifica esterna massiva (e anonima) via ping può far crollare tutto molto più rapidamente. Pura accademia 🙂

Chi si deve preoccupare? 

Preoccupare non è la parola giusta.
Se trovate roba palesemente non vostra, possono aver usato questo sistema per generarla.
Ma attenzione. Chi si occupa di controllo dei siti e dei feed consideri il degrado di usabilità del tool Sitemap all’aumentare del numero dei file pingati.
Chi rilascia 300 feed e sbaglia le prime URL pingate, ha già saturato con la seconda versione i 500 record a disposizione. Da li in avanti consultare il pannello diventa un bagno di sangue.

Sarebbe veramente il caso da parte di GG di rivedere al rialzo questo limite dei 500.
E magari permettere di flaggare e rendere invisibili le risorse che nascono con 404.

Chi controlla con metodo – e in equipe – la resa di feed e sitemap nei GWT avrà un fastidio certo.
Tutti gli altri sono esenti da preoccupazioni.
Se sei un webmaster o SEO che non usa questo tool puoi rilassarti, non succede nulla di diverso dal solito.
Non ha senso che ti preoccupi di uno strumento che tanto non useresti. Ma sbagli, sappilo.

Come è stata osservata la cosa? L’evidenza iniziale?

Un sito che osservo immette di colpo e automaticamente oltre 600 feed nel sito.
Non c’è nessun submit manuale nel pannello Sitemap.
I feed hanno una funzione di autoping e, ogni volta che si rigenerano, parte la classica chiamata a http://www.google.com/webmasters/sitemaps/ping?sitemap=URL_del_feed_Encodata

Tralasciando i noti problemi di segnalazione errori dello strumento e restando in topic, in poche ore la sezione “all” mostra 500 URL (tra le poche sitemap classiche e i feed). La consultazione di “all” diventa problematica. Mancano all’appello oltre 100 feed, l’ordinamento a grana grossa e la mancanza di una finestra di ricerca rende inusabile il tool.

Viene persa la vista veloce d’insieme e non c’è verso, in “all”, di eliminare la sola vista di alcuni feed per tenerne un campione ridotto usabile.

Vengono fatti dei test manuali e tutti i risultati sono concordi: qualsiasi URL pingata anonimamente entra nella sezione “all”, che l’URL esista o meno. Si siede e resta li.

Lato tecnico, for dummies. 

In un qualsiasi browser inserire come indirizzo http://www.google.com/webmasters/sitemaps/ping?sitemap=
e dopo il segno di uguale inserire l’URL che si vuole stampare in “all” del sito target,
Encodandola preventivamente con un qualsiasi servizio in rete.

Ad esempio, se volessi stampare sui GWT di SEOpito (gran maestro della loggia SEO dei SerendiPiti) l’URL/frase: Ciao SEOpito mi andava di salutarti e farti cucu nei GWT, farei i semplici passi:

  1. costruisco l’URL => http://www.sitodiseopito.com/Ciao_SEOpito_mi_andava_di_salutarti_e_farti_cucu_nei_GWT.xml (ma anche senza .xml)
  2. encodo qui e ottengo => http%3A%2F%2F
    www.sitodiseopito.com%2FCiao_SEOpito_mi_andava_di_salutarti_e_farti_cucu_nei_GWT.xml
  3. la appendo al ping e ottengo: http://www.google.com/webmasters/sitemaps/ping?sitemap=http%3A%2%2F
    www.sitodiseopito.com%2FCiao_SEOpito_mi_andava_di_salutarti_e_farti_cucu_nei_GWT.xml
  4. la metto nel browser. Invio. Fatto. GG mi darà un cenno di assenso e dopo pochi secondi l’URL apparirà nei GWT di SEOpito, ignaro.

SEOpito GWT

Gli usi ludici possibili del baco sono intuitivi e ci sono tutte le caratteristiche perché si diffonda.
Perché diventi un tormentone, un Summer Game tra SEO.

Humor: pingare vatican.va con /Quelle_Scarpette_Rosse_di_Prada_Fanno_Veramente_CA-CA-RE
Mandare in panico un giovane webmaster apprensivo: /buy_cialis_viagra
Quei Bravi Ragazzi della Link Building: /se_continui_a_comprare_link_da_quello_ti_metti_nei_guai-ma_se_paghi_taccio

e via cazzeggiando.

Test for dummies, pigri.

Il seguente modulo produrrà una semplice URL encodata correttamente per essere pingata a GG “in nome e per conto” del sito che deciderete di inserire nel primo text-box (si assume sia il vostro).
Naturalmente per testare l’exploit bisogna avere il pannello GWT da osservare. NON abusatene.
Quel file vi farà compagnia per un po’, più avanti potrebbe darvi fastidio.

Copiate la URL ottenuta e puntatela col browser.

Tweaking “artistici”.

Inutile dire che con un po’ di fantasia si possono ottenere effetti graficamente più interessanti.

Ecco alcuni test, i sitemap-tattoo freschi di un mio pannello (/me proud member of #Fanciullacci hashtag crew).

Exploit

 

Ehm, non perdete tempo a provare immagini in ascii art, deve stare tutto su una riga. L’ordinamento non è controllabile.

Again, fatelo sul vostro, non abusatene, NON vandalizzate GWT altrui, copritevi se fa freddo e lavatevi i denti.

Buon sitemap-tattoo.

6 Responses to GWT Sitemap URL Tattoo, a summer game?

Leave a Reply

Your email address will not be published. Required fields are marked *