Quando Google spamma sé stesso: una malefatta passata inosservata

Ercole e l'idra

All’inizio pensavo di intitolare questo articolo “Quando Google spamma sé stesso: una torbida storia di potere e corruzione” ma sarebbe stato un po’ troppo romanzato e il titolo mi avrebbe stuzzicato la pericolosa idea di trasformare l’articolo in un racconto estivo ambientato in una New York del periodo proibizionista. Immaginavo già Larry Page con un fedora.

Alla fine ho ripiegato verso un titolo che va dritto al punto.

La prima cosa che dovete sapere è che l’immagine di Google che spamma sé stesso è tanto diffusa quanto impropria. È vero che alcune volte i responsabili del motore di ricerca sono arrivati a penalizzare siti web appartenenti all’azienda, ma sarebbe superficiale concludere di trovarsi di fronte ad un singolo soggetto con tendenze schizofreniche. Quindi vi spiegherò perché queste vicende avvengono.

La seconda cosa che dovete sapere è che un po’ di tempo fa ho beccato quello che considero il più atroce esempio di spam operato da un team di prodotto di Google ai danni di Google Search, un’attività di puro spam su larga scala, con l’obiettivo di riempire l’indice del motore di tanta roba di bassa qualità che non avrebbe meritato di essere indicizzata.

Questa aberrante e titanica malefatta è passata inosservata a tutti ed è stata purtroppo notata dal sottoscritto troppo tardi, quando ormai la tecnica di spam non aveva più senso visto che il servizio che tentava di promuovere sulle SERP non esisteva più. Se l’avessi beccata qualche anno fa sarebbe successo probabilmente un mezzo putiferio e mi mangio un po’ le mani per non essermene accorto prima.

La malefatta la racconto comunque, anche se in ritardo, perché è talmente grossa che è bene che tutti voi siate informati della cosa. Prendete i pop corn.

Uno, nessuno e centomila

Nel nostro piccolo mondo markettaro, abitato da esseri umani che hanno prevalentemente contatti con aziende di entità media o piccola, si fa fatica ad immedesimarsi nel funzionamento di una grande multinazionale.

La gente tende a considerare “Google” o qualsiasi altra azienda di pari grandezza come se si trattasse di un soggetto singolo. È anche un modo per “umanizzare” il motore di ricerca e renderlo più comprensibile, riportandolo forzatamente ad un contesto più familiare a noi esseri umani. È però anche un presupposto errato che può condurre ad errori nelle nostre valutazioni; me ne sono lamentato in passato ed è uno degli argomenti affrontati da Valerio Notarfrancesco in questo articolo.

In una qualsiasi multinazionale, i vari prodotti e servizi vengono gestiti da team dedicati, ciascuno dei quali si occupa di portare avanti, migliorare e promuovere il prodotto a cui è stato assegnato. Non è possibile fornire una descrizione dell’organigramma e delle relazioni tra team di prodotto diversi, perché la struttura cambia da azienda ad azienda. Quello che sappiamo è che in Google esiste un modello che è in parte a “compartimenti stagni” e di conseguenza, osservando le cose dall’alto, le azioni di un team non sono necessariamente coerenti con quanto viene fatto un altro team.

Alcuni dipendenti vengono misurati sulla base dei risultati che portano e quindi, detto in modo gratuitamente brutale, gli sbatte sega se fanno qualcosa che va a scapito di altri team o prodotti; l’importante è raggiungere gli obiettivi.

Se esistono controlli da parte di regie superiori, che dovrebbero avere il compito di definire degli standard etici aziendali e di farli rispettare, allora tali controlli a volte non hanno funzionato, perché in passato è successo che un team di prodotto, desideroso di acquisire visibilità sul motore di ricerca, abbia svolto attività che i responsabili del prodotto “Google Search” definiscono spam.

Agli occhi esterni sembra che in signor Google prima faccia una legge e poi non la rispetti, nella realtà io ho sempre spinto affinché si diffondesse questa consapevolezza che non esiste un solo Google ma è più corretto considerare la multinazionale come se fosse un agglomerato di tante piccole imprese, ognuna con una certa autonomia decisionale e con propri obiettivi e modalità operative.

La logica super-super-semplicistica di considerare Google un singolo soggetto guidato da una mente unica è la stessa che porta a fare mischioni pericolosi in altri ambiti legati al search marketing, per esempio quando ci si mette in testa che il motore di ricerca consti di un singolo o principale algoritmo, quando in realtà la macchina è estremamente complessa e gestita da molti algoritmi e software, ciascuno con obiettivi diversi.

Sempre la stessa logica claudicante porta la gente a immaginare che il team di Google Search e quello di Google Adwords siano in grado di influenzare, ciascuno, gli obiettivi ed i criteri dell’altro.

Poi magari si cresce e si capisce che la qualità del prodotto Google Search è abbastanza sacra (per ragioni sia ideologiche sia economiche) e che, se necessario, a subire penalizzazioni nei risultati di ricerca saranno anche siti che vengono gestiti da altri team dell’azienda.

Provo a farvi una lista delle vicende passate.

Cronache spammiane

La mia memoria fa affiorare tre episodi in cui un team di prodotto di Google si sia reso responsabile di attività di spam nei confronti del motore di ricerca. Però ricordo che ce ne sono state più di tre, quindi sto facendo un gioco con me stesso nel momento stesso in cui scrivo questa frase: prima vi accenno a quelli che ricordo io, poi vado a farmi un giro su Search Engine Land per vedere quanti me ne sono dimenticato.

I link acquistati per Google Chrome

L’episodio che ricordo meglio è quello relativo a Google Chrome, perché è probabilmente quello più recente. Il team di Google Chrome si rivolse ad un’agenzia esterna per promuovere il proprio browser e l’agenzia avviò una campagna di article marketing ottenendo articoli di dubbia qualità e a volte comprensivi di un bel link do-follow verso il sito di Google Chrome.

Il team di Google Search penalizzò il sito di Google Chrome, che per un po’ di tempo non venne fuori nei risultati di ricerca nemmeno cercando il nome del prodotto o query generiche come [browser].

Questa vicenda fu l’unica, tra le altre esposte, in cui Google si scusò ma precisò anche che in realtà loro non avevano richiesto all’agenzia la pubblicazione di articoli di cacca. Però, per coerenza, la penalizzazione venne inferta ugualmente perché la responsabilità delle pubblicazioni era comunque di Google.

I link acquistati da Google Japan

Non ricordo bene che tipo di prodotto era stato promosso, ma ricordo che il sito di Google Japan venne penalizzato dal Search Team perché i responsabili si erano resi rei di aver acquistato link.

La penalizzazione, in questo caso, era stata abbastanza blanda, forse anche solo “estetica”, nel senso che era stato abbassato il “Toolbar PageRank” ma forse non il PageRank reale.

Cloaking di Google Adwords

Qui la memoria vacilla ancora di più, ma ricordo distintamente che il team di Google Adwords adottò una tecnica di cloaking su delle pagine di Google.com per presentare a Googlebot contenuti testuali diversi rispetto a quelli presentati dagli utenti.

In questo caso la penalizzazione del team di Google Search fu consistente e quelle pagine perserò visibilità nei risultati di ricerca.

Quanta roba ho ricordato?

Beh, ho dato un’occhiata a Search Engine Land e ho constatato che non me la sono cavata poi tanto male. Non ricordavo un quarto episodio di spam, legato all’acquisizione dell’azienda Beat That Quote da parte di Google. In pratica Google acquisì un comparatore di servizi finanziari come mutui e assicurazioni e tale azienda aveva fatto spam in passato. Di conseguenza Google si ritrovò tra le mani un sito che il Search team fu costretto a penalizzare.

È strano che io non ricordi questa vicenda, perché avevo seguito con interesse l’acquisizione di quell’azienda e la conseguente nascita del minaccioso motore di ricerca verticale di Google per mutui e assicurazioni auto. Il giorno che ‘sta roba verrà estesa all’Italia, in cima alle SERP, prevedo smottamenti tellurici con l’epicentro individuato nei consigli di amministrazione di alcune aziende. Vabbè, chiusa parentesi.

La seconda cosa che non ricordavo è che il team di Google Adwords si è reso responsabile di spam via cloaking due volte e non solo una. Come dire, repetita iuvant.

Leggetevi questo dettagliato articolo di SEL per avere tutti i particolari che non ho riportato io.

Adesso che ho delineato i contorni di questa mitologica idra multitesta, ciascuna dotata di volontà propria, tocca spiegarvi quello che ho notato il 20 dicembre 2013.

La maxi-porcata passata inosservata: il contesto

Ad esclusione dei SEO abitanti in altri sistemi solari, qualunque SEO mediamente dotato dovrebbe sapere che indurre Google ad indicizzare una grande quantità di pagine contenenti generici risultati di ricerca è una pratica considerata spam da Google.

La più grande lotta di Google contro questa tipologia di risorse di bassa qualità è avvenuta alcuni anni fa, quando sulle SERP di Google imperversavano i cosiddetti spam engine. Uno spam engine è un sito che ospita un motore di ricerca per il web e che induce Google (o altri motori popolari) ad indicizzare una grande quantità di pagine contenenti SERP prodotte dallo spam engine.

L’esperienza di un utente era dunque pessima in quanto, dopo aver effettuato una ricerca su Google e dopo aver cliccato su un link che conduceva ad uno spam engine, l’utente si trovava nuovamente di fronte ad una pagina con un elencone di dieci link blu.

La famelicità di Googlebot e lo schema di linking interno usato dagli spam engine permetteva agli stessi di ingolfare l’indice di Google con quantità altissime di pagine spazzatura, che per giunta ottenevano visibilità molto facilmente.

Il sistema funzionava talmente bene che alcuni circuiti di affiliazione avevano creato e mettevano a disposizione dei webmaster degli script pronti per creare il proprio spam engine ed iniziare a riversare montagne di letame sulle SERP di Google, senza che fosse necessario possedere alcuna conoscenza tecnica di come si costruisce un motore di ricerca. Il percorso era dunque del tipo:

  1. Prendi lo script
  2. Installalo su un sito
  3. Osserva come Google indicizza tutte le tue pagine contenenti risultati di ricerche e link di affiliazione
  4. Conta il traffico da Google ed i soldi

Di questa estenuante e lunga battaglia tra Google e gli spam engine è rimasta, dopo la lenta disfatta di questi ultimi, una riga delle linee guida di Google per webmaster che recita:

“Use robots.txt to prevent crawling of search results pages or other auto-generated pages that don’t add much value for users coming from search engines.”

Per tanti anni, Google si è leccato le ferite derivanti dall’efferato conflitto e immagino che voi darete per scontato che un’azienda che ha affrontato tale sfida deve aver maturato una cultura profondamente avversa a tali elementi tossici del web, giusto?

È un po’ come quando assaggi per la prima volta il sidro di mele, te ne scoli qualche litro perché va giù che pare acqua, prendi la più devastante ubriacatura della tua vita e dopo aver passato uno squallido hangover di due giorni, durante il quale il tuo organismo cercava di vomitare quel poco di coscienza di te che ti era rimasta e tu eri fermamente convinto che saresti schiattato da un momento all’altro, da quel momento in poi e per il resto della tua vita il tuo cervello ti invia messaggi di morte imminente non appena senti solo l’odore di quella roba (questa metafora è autobiografica).

Ecco, questo è quello che sarebbe dovuto succedere a Google: un rifiuto endemico per qualsiasi cosa somigliasse ad uno spam engine.

E infatti figurati se a Google Search, dopo tante pene dietro agli spam engine, sarebbe mai venuto in mente di trasformarsi in spammer, spammare il proprio prodotto e far indicizzare al motore quantità stupefacenti di paginacce di risultati di ricerca. Impossibile.

Ma Google Trends è un altro prodotto.

La maxi-porcata passata inosservata: le evidenze

Guardate lo screenshot che segue.

Un file sitemap spammoso

Quello che vedete nello screenshot è un pezzo di un file sitemap (non XML ma di quelli semplici, con un URL per riga) usato a suo tempo dal servizio Google Trends. All’epoca, era possibile cercare su Google Trends il nome di un qualsiasi dominio e ottenere un grafico con la stima dell’andamento del traffico sul dominio indicato. Questa funzionalità, figherrima, è stata successivamente rimossa perché, appunto, figherrima.

Ma durante il periodo in cui la funzionalità esisteva ancora, il team di Google Trends aveva pensato bene di creare dei file sitemap attraverso i quali indurre il motore di ricerca ad indicizzare quantità industriali di pagine di statistiche su una pletora di nomi di dominio.

Nello screenshot allegato ho evidenziato alcune pagine di Google Trends che contenevano le stime di traffico di domini di natura zozzereccia, per farvi vedere che l’elenco non era limitato a pagine dedicate a siti di alta qualità.

Si trattava quindi di pagine di risultati della ricerca di nomi di dominio su Google Trends, in pratica landing pages tematizzate su specifici nomi di dominio e che non ricevevano alcun link: venivano proposte a Google Search solo attraverso file sitemap.

Quanto appena descritto è uno spam engine. E possiamo controllare che tutti gli elementi identificatori di uno spam engine siano effettivamente presenti:

  • Pagine contenenti risultati di una ricerca. Check!
  • Quantità industriali delle suddette. Check!
  • Contenuti di bassa qualità. Check!
  • Creazione funzionale solo all’indicizzazione da parte di un motore di ricerca popolare. Check!

La faccenda, se non ci fosse da indignarsi, potrebbe passare quasi per una comica surreale. All’interno di un’azienda che ha combattuto per anni contro il danno prodotto dagli spam engine all’indice del proprio motore di ricerca, qualche frangia irrequieta ha creato uno spam engine interno per far indicizzare a Google Search una fracca di risultati di ricerca di Google Trends.

Quale spiegazione può essere trovata di fronte a tale scempio? Quella gente credeva davvero che far indicizzare centinaia di migliaia di pagine con le statistiche di siti della levatura di porcoporco.biz avrebbe incrementato la qualità dei risultati di ricerca su Google?

Ma forse l’aspetto più triste dell’intera vicenda è che nessuno di noi si sia reso conto di questo malaffare durante l’esistenza di tale funzionalità di Google Trends.

I file sitemap con le chilometriche liste di pagine da far indicizzare sono rimasti online per quasi due anni, per dimenticanza o incuria, anche dopo la rimozione da Google Trends della possibilità di fare ricerche sul traffico di nomi di dominio. Tutte le centinaia di migliaia di URL in quei file sitemap generavano uno stato HTTP 404.

Sapete quando Google ha finalmente fatto pulizia di quei file sitemap obsoleti, cancellandoli ed eliminando le ultime prove ancora esistenti del misfatto? Forse non la prenderete bene: è stata colpa mia. La reazione è avvenuta quando John Mueller ha letto il seguente post su Google+:

Il post di Google+ in cui segnavo le sitemap spammose

Insomma, tempo due giorni ed i file sitemap obsoleti sono stati cancellati e, con loro, le pistole fumanti. L’unica testimonianza storica rimasta dello spam engine creato da Google Trends attraverso i file sitemap è il mio screenshot.

La maxi-porcata passata inosservata: l’indagine

Il resoconto del fattaccio termina qua, ma magari possiamo fare di necessità virtù e sostituire la giustificata ma improduttiva indignazione con l’obiettivo di imparare qualcosa di concreto e utile da questa vicenda.

Ho dunque pensato di illustrarvi i passi che ho compiuto per rendermi conto della faccenda, anche per confermarvi che una delle caratteristiche indispensabili di un SEO dovrebbe essere una certa predisposizione a voler indagare, attitudine che viene sopratutto utile nel momento in cui bisogna analizzare la condizione di un sito e capire se, quanto e come il motore di ricerca ha digerito i suoi contenuti.

Il primo passo verso la strada che mi ha portato ad individuare il comportamento spammoso l’ho compiuto perché periodicamente do un’occhiata al file robots.txt di Google.com. Si tratta di un file ricchissimo di informazioni sulle directory usate da Google per i propri servizi web ed in un paio di occasioni si è rivelato prodigo di informazioni in anteprima o di contenuti interessanti non raggiungibili attraverso link dal sito di Google.

Nel caso in questione, tuttavia, la mia attenzione si è focalizzata per la prima volta in fondo al robots.txt, che ospita gli URL di alcuni file sitemap. C’è un po’ di tutto, ma quello che stonava di fronte a tutto il resto era un file sitemap index dedicato a Google Trends. Per quale motivo un servizio con così poche pagine necessitava di un file sitemap index?

Questo file non esiste più online ma viene ancora citato in fondo al robots.txt nel momento in cui scrivo, per quei soliti motivi di incuria che ho compreso essere non rari tra chi ha il compito di gestire questi aspetti.

Il primo file sitemap indicato palesava già il torbido giochino elucubrato da Google Trends: si trattava in maniera estremamente ovvia di URL di query di ricerca, come quelle dello screenshot che vi ho mostrato. Una lettura più approfondita ha reso evidente che la qualità dei domini oggetto delle query era anche estremamente bassa e questo chiudeva il cerchio sulle intenzioni e l’indole di chi aveva pianificato l’attività di spam.

Conclusioni

Spero di avervi trasmesso un’immagine di Google più distante da quella coscienza unica che molte persone gli attribuiscono erroneamente. Google è un’azienda composta da circa 50.000 dipendenti e più che considerare la compagnia una flotta informe di oggetti guidati da una regia comune, è più realistico considerare Google una piccola cittadina all’interno della quale molti abitanti non si conoscono o, più tristemente, si limitano a guardare il proprio orto senza troppi scrupoli nei confronti del Search Team.

Il mio suggerimento, quando si desidera valutare l’operato e le azioni di questa e di altre aziende molto grandi, è quello di definire innanzitutto di quale testa dell’idra si sta parlando.

Idra

P.S.
Pensavo che sarebbe interessante parlare di argomenti simili in qualche evento. Giusto per dire.

6 Responses to Quando Google spamma sé stesso: una malefatta passata inosservata

Leave a Reply

Your email address will not be published. Required fields are marked *