Commenti

Pubblicato da LowLevel in Just SEO

il 18 October 2011

Continuare a smontare Google: un’altra scoperta SEO

Questo post segue l’esempio di un articolo scritto un po’ di tempo fa assieme ai colleghi di SearchBrain: “Come ti smonto Google: una piccola scoperta SEO“, che vi suggerisco di leggere se non l’avete già fatto.

Chiave inglese su Google L’articolo esponeva una piccola ricerca che Giacomo Pelagatti ed io avevamo svolto e che aveva rivelato una caratteristica di Google nell’archiviare i testi dei link testuali.

Smanettando con le ricerche, ho individuato una nuova caratteristica del motore di ricerca e questo post ha l’obiettivo di presentare i risultati e di illustrare il processo logico seguito per arrivarci.

Il sottoscritto non riuscirà a garantire la precisione di esposizione che Giacomo aveva infuso all’articolo sopra citato e farò del mio meglio per esporre i risultati di questa nuova ricerca nella maniera più chiara possibile.

Introduzione ad un quesito SEO mai risolto

Per anni i SEO si sono chiesti quale fosse la quantità massima di caratteri di un tag TITLE indicizzata da Google, considerando la risposta utile per chi fa copywriting.

E’ un’informazione così essenziale? Non tanto. All’atto pratico, ha più senso decidere quanto testo scrivere in un titolo basandosi su considerazioni sull’usabilità (es: la quantità di testo visualizzata nelle SERP e nelle condivisioni sui social network) invece che sui limiti di archiviazione dei motori.

Tuttavia quando i SEO si incaponiscono su una cosa non c’è modo di distrarli: il web è pieno di articoli su test volti a cercare una risposta esatta al quesito. I risultati non tornavano mai ed una regola generale non è mai stata trovata.

Qual è la scoperta SEO?

Una regola generale non è stata mai trovata perché c’è un errore di fondo nella domanda: è stato dato sempre per assunto che l’unità di misura/indicizzazione di un testo fossero i caratteri, mentre la risposta esatta alla domanda è che Google indicizza al massimo le prime dodici parole di un tag TITLE.

C’è di più: nel processo che ho seguito per quantificare le parole indicizzate, le query svolte hanno fatto emergere alcuni comportamenti di Google finora sconosciuti e la cui diffusione potrà essere utile a SEO, copywriter e anche a progettisti di CMS che dovessero prendere decisioni sui titoli delle pagine web.

Tutti i test SEO che finora si sono sforzati di trovare una lunghezza massima in caratteri sono purtroppo fallati nelle premesse e fuorviati nelle conclusioni.

Il perché della ricerca

Le informazioni che ho ottenuto svolgendo la ricerca sono un esempio concreto dei benefici che si possono avere nel percorrere una strada anche quando il traguardo da raggiungere è apparentemente poco interessante.

Alla fine di un percorso si può scoprire che le cose imparate camminando sono di più o più interessanti/utili di quelle imparate arrivando a destinazione.

Che la lunghezza dei titoli fosse misurata in parole e non caratteri era intuibile, sopratutto dopo l’esperienza maturata durante il precedente test svolto con Giacomo Pelagatti, tuttavia il motivo che mi ha spinto a voler quantificare con precisione tale lunghezza è che sono consapevole che “smontando il giocattolo” vengono sempre fuori cose interessanti e inaspettate.

E infatti, come mostrerò, son venute fuori anche questa volta.

Più in generale, fare reverse engineering dovrebbe essere un’attività tipica dei SEO che vogliono comprendere meglio il funzionamento base dei motori di ricerca: oltre ad essere un eccellente esercizio di logica ed un allenamento per il proprio cervello, cercare di capire i criteri seguiti da un motore di ricerca costringe anche a ripassare tante nozioni SEO di base, per esempio quelle legate al funzionamento degli operatori di ricerca o degli spider o dei processi di indicizzazione.

A queste motivazioni generali, se ne aggiunge una circostanziale: alcuni giorni fa ho letto un articolo di SEOmoz che contribuiva a diffondere informazioni SEO errate proprio sulla lunghezza dei tag TITLE.

Oltre a commentare il loro articolo fornendo qualche indicazione sul perché dell’errore, ho pensato di cogliere l’occasione per fare qui su LowLevel.it un po’ di didattica, lanciando un quiz sull’argomento e scrivendo il presente post per chiarire nei dettagli come vengono gestiti i tag TITLE da Google.

Reverse engineering: ferri del mestiere

Per capire la strada che ho percorso per scoprire il limite che Google si impone sulla lunghezza dei titoli, è importante conoscere alcuni concetti base sul funzionamento di un motore di ricerca. Se siete SEO, dovreste già conoscerli:

Google non cerca realmente ciò che l’utente digita. Ogni query digitata può essere oggetto di modifiche prima di passare alla fase di ricerca negli archivi. Queste modifiche avvengono internamente e sono trasparenti all’utente, che vede solo la query digitata.
Ci sono operatori di ricerca che dicono a Google di limitare la ricerca a specifici elementi delle risorse. Per esempio, l’operatore “intext” limita la ricerca ai contenuti testuali della pagina e l’operatore “intitle” limita la ricerca ai contenuti del titolo delle risorse (nelle risorse HTML corrisponde al tag TITLE). Quando non si usa alcun operatore del tipo “inX”, Google restituisce risorse che “hanno a che fare” col testo digitato, a prescindere che lo contengano o meno.
L’operatore per cercare una frase esatta, ovvero le virgolette (“), non sempre induce Google a cercare esattamente il testo virgolettato. A seconda della frase scritta tra virgolette, Google può decidere di cercare piccole varianti del testo virgolettato.
Per forzare Google a cercare esattamente una parola, evitando sue espansioni o interpretazioni, si usa l’operatore “+” davanti alla parola stessa.

Tutti i testi delle ricerche che mostrerò nei prossimi paragrafi sono stati attentamente selezionati per essere certi che Google cercasse esattamente ciò che digitavo.

Reverse engineering: il metodo di base

Il metodo che ho seguito consiste nel cercare frasi abbastanza lunghe su Google, che per certo esistono nei titoli di alcune pagine web, usando l’operatore “intitle” per limitare la ricerca ai soli titoli di pagina.

Se Google ha archiviato una pagina che possiede un titolo molto lungo e se una ricerca dell’intero testo del titolo non restituisce tale pagina, ciò può solo significare che Google non ne ha indicizzato l’intero titolo.

A seguito di ricerche multiple di lunghezze diverse della stessa frase è possibile capire se un limite esiste e quale esso è.

Per tutti gli esempi che seguiranno ho dunque fatto ricerche con le seguenti caratteristiche:

Cercano frasi abbastanza lunghe, che ho accertato esistere come titoli di alcune pagine web archiviate da Google;
Fanno uso dell’operatore di ricerca esatta, ovvero delle virgolette;
Fanno uso dell’operatore “intitle”, che restringe la ricerca ai soli titoli delle risorse;
Sarebbe corretto che facessero anche uso dell’operatore “+” davanti a ciascuna parola della frase, tuttavia per obiettivi di leggibilità delle query che seguono io ho scelto le frasi da cercare in maniera che la presenza o assenza dell’operatore “+” fosse ininfluente sui risultati restituiti da Google.

Reverse engineering: l’esistenza di un limite

Proviamo innanzitutto a cercare pagine che contengono nel testo del proprio titolo i primi dodici numeri in lingua inglese:

[intitle:”one two three four five six seven eight nine ten eleven twelve”]

La ricerca restituisce diverse pagine che nel titolo hanno un testo che inizia con la frase cercata, come potete vedere nello screenshot che allego.

Adesso attenzione: diverse pagine restituite nella ricerca hanno titoli che non si fermano a “twelve” ma che continuano elencando i numeri inglesi successivi: thirteen, fourteen, ecc. Potete voi stessi visitare alcune delle pagine restituite e rendervi conto di persona della lunghezza reale delle frasi presenti nei titoli.

Logica vorrebbe che se Google non si imponesse alcun limite all’indicizzazione dei testi dei titoli, cercando fino a tredici dovrebbero venire restituiti ancora dei risultati:

[intitle:”one two three four five six seven eight nine ten eleven twelve thirteen”]

E invece non vien fuori alcunché, come mostrato dallo screenshot che segue. Non perché Google non possieda in archivio pagine con il titolo più lungo ma perché il motore si è imposto un limite.

A questo punto della ricerca siamo arrivati a concludere che esiste un limite alla quantità di testo dei tag TITLE che Google decide di indicizzare ma non abbiamo ancora determinato con precisione qual è il limite.

Reverse engineering: i caratteri non c’entrano

Accettiamo per un attimo la congettura che Google sia una gigantesca macchina da scrivere invece di un software che fa uso di indici e che la sua naturale unità di misura per i testi siano i caratteri.

Abbiamo appurato che Google arriva ad indicizzare la quantità di testo “one two three four five six seven eight nine ten eleven twelve”, pari a 62 caratteri. Non arriva invece ad indicizzare la quantità di testo “one two three four five six seven eight nine ten eleven twelve thirteen”, di 71 caratteri.

Se il limite di Google fosse misurato in caratteri, potremmo teorizzare che esso debba stare da qualche parte tra i 63 ed i 71 caratteri di testo, perché siamo certi che fino a 62 ci arriva e che a 71 già non je la fa.

Per dichiarare incorretta la suddetta teoria sarebbe sufficiente trovare un titolo di lunghezza superiore a 71 caratteri indicizzato da Google, no?

Beh, di titoli superiori a 71 caratteri e indicizzati da Google ce ne sono una quantità smodata, ma io ho voluto esagerare e mi sono messo a cercare una pagina archiviata da Google e che possedesse un titolo particolarmente lungo in caratteri.

La chilometrica query [intitle:”Pneumonoultramicroscopicsilicovolcanoconiosis Lung Disease : Causes, Symptoms, Diagnosis, Treatment, Cures and Remedies for Pneumonoultramicroscopicsilicovolcanoconiosis”] contiene una frase lunga la bellezza di 169 caratteri e restituisce una pagina. Segue screenshot.

Qualcosa non quadra con la nostra illuminata e modernissima teoria: eravamo convinti che ci fosse un limite in caratteri e che dovesse stare tra i 63 ed i 71 caratteri. Come si spiega l’indicizzazione di ben 169 caratteri?

Vale la pena osservare un po’ meglio la query appena proposta. Se contate quante parole ci sono nella frase, noterete che sono dodici. La pagina restituita, tuttavia, ha un titolo che va anche oltre le dodici parole. Che succede se proviamo a cercare quel titolo fino alla sua tredicesima parola?

[intitle:”Pneumonoultramicroscopicsilicovolcanoconiosis Lung Disease : Causes, Symptoms, Diagnosis, Treatment, Cures and Remedies for Pneumonoultramicroscopicsilicovolcanoconiosis / Pneumoconiosis”]

Google non restituisce più la pagina incriminata.

Qualcosa dunque non torna: la teoria che avevamo e che si basava su un limite misurato in caratteri è stata facilmente smontata con una semplice ricerca.

Reverse engineering: la regola finale

A questo punto i casi sono due: o Google è talmente scemo da definire limiti in caratteri che cambiano pagina per pagina secondo criteri complessi, oppure tutto sto carosello sui caratteri è fallato alla base e stiamo cercando di misurare quanti metri dura una giornata.

Quello che possiamo osservare è che sia nel primo esempio sia nel secondo, Google è arrivato a indicizzare le prime dodici parole dei titoli, ma non si è spinto fino alla tredicesima. Può significare qualcosa?

Taglio corto. Facendo molte altre ricerche simili noterete che il criterio è sempre lo stesso: Google indicizza al massimo le prime dodici parole di un tag TITLE. La lunghezza in caratteri non c’è mai entrata un fico secco.

Questa conclusione spiega anche perché i conti finora non tornavano mai a tutti i SEO che si sono cimentati in passato a calcolare una lunghezza massima in caratteri del testo indicizzato dal motore.

A volte sembrava che il limite stesse tra X e Y caratteri, altre volte sembrava che il limite esistesse tra Z e K caratteri. La ragione era che le conclusioni cambiavano a seconda delle frasi usate dai SEO per fare i test: chi aveva usato frasi con parole mediamente più lunghe aveva avuto l’impressione che Google indicizzasse più caratteri e chi aveva usato frasi con parole mediamente più corte aveva avuto l’impressione che Google indicizzasse meno caratteri. In realtà nessuno ha mai notato che la misura era in parole e che il limite era dodici.

Per sicurezza, mi sono preso la briga di andare a cercare i test SEO più conosciuti sull’argomento, anche quelli più vecchi, ed ho confermato che tutti i loro risultati incerti sono in realtà riconducibili al modello delle “dodici parole”. Ho anche scoperto che altri test abbastanza famosi erano fallati per altre ragioni (es: l’inutilizzo dell’operatore “intitle”) ma questo è un altro discorso.

Con queste ultime considerazioni chiudo l’argomento sulla lunghezza dei titoli e apro quello sulle informazioni inaspettate che sono venute fuori durante la ricerca della soluzione al quesito.

Query subdole ma rivelatrici

Se anche voi vorrete svolgere alcuni test e ricerche, sappiate che nel corso delle mie sono incappato in frasi subdole, che apparentemente non rispondevano alla regola delle dodici parole ma che in realtà sono anch’esse delle conferme alla regola.

Approfondendo il perché di certi strani risultati di ricerca e la natura delle query che facevo sono emerse però ulteriori informazioni su comportamenti di Google che finora non erano mai stati notati o che non erano mai stati spiegati nei dettagli.

Un primo consiglio che do a chi vorrà cimentarsi in test simili è quello di fare attenzione ai testi che cercate, specie se fate copia-e-incolla da titoli di pagine web già esistenti. Anche se tra virgolette, infatti, le frasi possono accidentalmente contenere degli operatori di ricerca che modificano il significato della query stessa e di conseguenza i suoi risultati.

Per esempio, sul web esiste una pagina del sito Centralpark.com che ha esattamente per titolo “Alice in Wonderland | Your Complete Guide to Central Park”.

La pagina è archiviata da Google ma cercando il suo titolo con le modalità seguite finora non vien fuori alcun risultato: [intitle:”Alice in Wonderland | Your Complete Guide to Central Park”]. Riuscite a vedere nel testo della frase qual è il problema che inficia la ricerca?

Il problema è che la frase contiene l’operatore di ricerca “OR”, ovvero il carattere “pipe” (“|”). Questo operatore dice a Google di restituire i risultati che contengono solo una delle due parole che stanno a fianco del simbolo. Applicato alla frase indicata sopra, tale operatore induce dunque Google a cercare due distinti titoli, nessuno dei quali esiste:
[intitle:”Alice in Wonderland Complete Guide to Central Park”]
[intitle:”Alice in Your Complete Guide to Central Park”]

Il consiglio che do a chiunque voglia smanettare con ricerche che contemplano frasi esatte (tra virgolette) è quello di fare attenzione a non introdurre nelle frasi degli operatori di ricerca perché essi vengono interpretati da Google in quanto tali e non cercati letteralmente, nonostante la frase sia tra virgolette.

I fenomeni inaspettati sono iniziati quando ho cercato di far restituire a Google la pagina eliminando dalla query il carattere “|”: [intitle:”Alice in Wonderland Your Complete Guide to Central Park”]. Google restituisce un risultato ma non si tratta della pagina del sito sopra citanto quanto di una pagina di un altro sito con un titolo molto simile, privo del carattere “|”.

Perché quella pagina non viene più fuori? Il fatto che eliminando il simbolo “|” dalla ricerca non venga restituita la pagina di Centralpark.com significa che, in fase di indicizzazione, Google non si è limitato ad ignorare quel carattere bensì ci ha fatto qualcosa. Ma che cosa?

Google divide i titoli in blocchi

Come forse già sapete, quando Google estrae testo dalle pagine web tiene conto della loro struttura e non si limita ad archiviare tutto il testo come se fosse una sequenza continua di parole.

L’esempio più semplice da fare è quello delle intestazioni (tag HTML Hx) e dei testi immediatamente successivi ad una di esse. Prendo come esempio una pagina di un mio vecchio sito web, Motoricerca.info, per dimostrare che cercando come frase il testo dell’intestazione H3 seguito dalle prime parole del paragrafo che gli succede, Google non restituisce la pagina di quel sito: [“Scegliere un host a misura di SEO Chi si avvicina per la prima volta al posizionamento”].

La pagina di Motoricerca.info viene invece mostrata se si inserisce l’operatore “*” tra il testo dell’intestazione e quello del paragrafo: [“Scegliere un host a misura di SEO * Chi si avvicina per la prima volta al posizionamento”].

Quello che avviene è che in fase di parsing e indicizzazione del testo della pagina, Google ha archiviato il testo dell’intestazione e quello del paragrafo che gli segue in due “blocchi” separati. Cercando i due testi come se fossero consecutivi e appartenenti ad un’unica frase, la pagina di Motoricerca.info non viene restituita mentre usando l’operatore “*” la ricerca della frase viene estesa a blocchi di testo differenti.

Google fa lo stesso con i titoli delle pagine, decidendo di separare il testo dei titoli in blocchi differenti quando incontra nel testo dei titoli dei caratteri speciali, uno dei quali è proprio il simbolo di “pipe” (“|”).

Tornando all’esempio della pagina del sito Centralpark.com, il cui titolo contiene per l’appunto un carattere di “|”, l’unico modo per farla venir fuori nei risultati della ricerca è cercare separatamente le due frasi che compongono il titolo: [intitle:”Alice in Wonderland” intitle:”Your Complete Guide to Central Park”] oppure usare l’operatore asterisco per attivare la ricerca tra blocchi diversi: [intitle:”Alice in Wonderland * Your Complete Guide to Central Park”].

Quando ho scoperto il fenomeno mi era anche venuto il dubbio che piuttosto che un separatore di blocchi, il simbolo “|” venisse trattato da Google come parola a sé e quindi indicizzata come le altre, tuttavia questo si è dimostrato falso. Non solo, intuitivamente, sarebbe inutile per il motore di ricerca gestire come parola un simbolo che non può essere cercato dall’utente in alcun modo, ma continuando a fare ricerche su altri titoli è emerso che la presenza di uno o più simboli “|” non induce Google a “scalare” la quantità di parole rimanenti dalle famigerate dodici. In sintesi, è certo che il simbolo non viene considerato una parola, lasciandoci solo con la risposta del separatore.

Che cosa cosa può implicare questa scoperta in termini SEO? Implica che nel decidere i simboli da utilizzare nei tag TITLE dei propri siti è opportuno fare attenzione a quali di essi sfruttiamo.

Se il nostro desiderio è quello di far percepire l’intero titolo come un’unica frase oppure se c’è l’obiettivo sfruttare tutte le parole/keyword presenti nel titolo, allora potrebbe essere un’idea evitare i simboli grafici particolari, sostituendoli con semplice punteggiatura.

Non ho fatto un elenco dei simboli grafici che inducono Google a separare i testi del titolo in blocchi diversi. Per certo, ho individuato delle situazioni abbastanza subdole e non facilmente intuibili. Per esempio, il semplice trattino “-” (carattere ASCII 45) non induce Google ad archiviare il testo in blocchi diversi mentre il molto simile trattino “–” (entirà HTML –) produce la separazione in blocchi.

Google accorpa i caratteri singoli

Provate a cercare [intitle:”a b c d e f g h i l m n o p q r s t u v z”] e vedrete che Google restituirà delle risorse nonostante le parole nella frase cercata siano più di dodici. Ma dei singoli caratteri possono essere considerati “parole”? Non secondo Google.

Quello che fa Google quando trova sequenze di singoli caratteri separati da uno spazio è accorparli in una o più parole multicarattere sia in fase di indicizzazione del testo sia in fase di trattamento della query dell’utente.

La ricerca sopra riportata non è composta dunque da molte parole ma viene interpretata da Google come se fosse “abcdefghilmnopqrstuvz” e restituisce titoli che contengono “abcdefghilmnopqrstuvz” oppure “a b c d e f g h i l m n o p q r s t u v z”.

Mi son chiesto se questo accorpamento influisse in qualche modo sul limite massimo di dodici parole e la risposta è no. Occhio ai fraintendimenti, però!

Se provate a cercare un titolo di apparentemente undici parole quale [intitle:”a b c d e f g h i j k l m n o p q r s t u v w x y z now i noe my abc nxt tym wnt u sng”] verrà fuori una pagina web che in realtà contiene un titolo più lungo della frase cercata. Aggiungendo la dodicesima parola del titolo (“wid”) Google non restituirà più la pagina, come se il limite massimo di parole indicizzabili si fosse abbassato ad undici parole.

In realtà Google ha indicizzato la sequenza “a b c d e f g h i j k l m n o p q r s t u v w x y z” in due parole diverse e potete notarlo cercandole accorpate: [intitle:”abcdefghijklmnopqrstu vwxyz now i noe my abc nxt tym wnt u sng”], constatando che il limite di dodici parole è stato rispettato.

Perché Google ha deciso di accorpare quella sequenza di caratteri in due parole separate invece che in un’unica parola corrispondente all’intero alfabeto? Mistero. Non ho trovato giustificazioni tecniche di alcun genere e non escludo che i criteri dell’accorpamento dei caratteri possano seguire valutazioni fatte sul contenuto dell’intero indice (es: l’esistenza di acronimi popolari potrebbe favorire alcuni accorpamenti piuttosto che altri).

Riassunto dei risultati

Riassumo di seguito quanto è stato scoperto con questa piccola ricerca.

E’ stato dimostrato che Google indicizza un massimo di dodici parole estratte dal tag TITLE delle pagine web;
E’ stato osservato che il testo del tag TITLE può essere archiviato in blocchi separati così come avviene per il testo del corpo delle pagine HTML;
E’ stato osservato che in presenza di sequenze di singoli caratteri separati da spazio, Google indicizza parole create accorpando i caratteri stessi secondo criteri non ancora chiari. Il limite delle dodici parole viene comunque sempre rispettato.

Quanto stiamo messi male?

Se i risultati di questa ricerca insegnano qualcosa al di là degli aspetti tecnici, è che noi SEO stiamo messi piuttosto male.

Il divario tra le nostre conoscenze/supposizioni e la realtà di un motore di ricerca è così vasto che per tredici anni abbiamo brancolato nel buio chiedendoci qualcosa a cui poteva essere data risposta in qualsiasi momento, in pochi minuti.

La prima osservazione che mi viene spontaneo fare è che le modalità di archiviazione dei testi in parole, tipica di in un motore di ricerca, dovrebbe risultare palese a qualunque progettista di database che abbia affrontato il compito di creare un piccolo indice fulltext.

Il fatto che questa conoscenza, molto semplice e sicuramente banale agli occhi di un progettista di database, non appartenga alla comunità SEO è purtroppo un segnale chiaro su quanto poco ne sappiamo di come un motore di ricerca è fatto e di come funziona.

La seconda considerazione che mi viene spontaneo fare è che il valore aggiunto di queste pratiche di reverse engineering risiede sicuramente nella possibilità di acquisire un metodo di indagine.

Fin troppe volte i SEO vengono lasciati privi di informazione da parte dei progettisti dei motori di ricerca: gli algoritmi devono rimanere segreti per ovvie ragioni ma questa carenza di informazioni può trasformarsi in un’opportunità di crescita nel momento in cui inducesse i SEO a far pratica di logica e a sviluppare una forma mentis capace di pensare come chi i motori di ricerca li crea.

67 Responses to Continuare a smontare Google: un’altra scoperta SEO

Pingback: Quiz SEO bastardo numero 4: lunghezza massima del TITLE - LowLevel’s blog

Pingback: Netafim: Un Blog Sui Sistemi Di Irrigazione [Case Study]
Pingback: Storia di Google: Brandy (2004) « Seo
Pingback: How to write titles that “kill” for posts that drive traffic | Dofollow24.org
Pingback: » Titolo lungo
Pingback: SEO on page: 3 regole per scrivere titoli di qualità | alVerde.net

Pingback: Tag Title: 3 SEO Test per fare i Raggi X | AppuntiSEO.it