Post recenti
Commenti recenti
- I Principali Test per un Sito Web in Ottica SEO - Ingegnerealbano.com on Come calcolare la distribuzione del “PageRank” tra le pagine di un sito
- SEO e keywords: esistono strategie e tecniche efficaci? | SERIAL EYE on Benedetta SEO, maledetta SEO
- LowLevel on Continuare a smontare Google: un’altra scoperta SEO
Tutti i post
-
Questa opera di Enrico Altavilla è concessa in licenza sotto la Licenza Creative Commons Attribuzione - Non commerciale - Non opere derivate 3.0 Unported.
“Googleù” e l’errore di battitura che confonde Google
Trovo affascinante notare come i motori di ricerca si adattino ai cambiamenti.
Con l’obiettivo di essere uno specchio quanto più obiettivo possibile del mondo circostante, sono progettati per reagire a nuovi fenomeni e ad imparare automaticamente da essi, senza che qualche omino sia costretto a riscrivere nuove regole per gestire situazioni e scenari non esistenti né prevedibili in passato.
Da quando è nato Google+, un brand poco amichevole nei confronti degli algoritmi usati dai motori di ricerca per l’analisi della sintassi, mi sono chiesto come avrebbe reagito il motore di ricerca Google di fronte a quel carattere “+” che nel tempo sarà destinato a diffondersi sempre più.
Inizio con una breve trattazione dell’argomento dei caratteri speciali e dei sistemi adattivi, per poi farvi notare un fenomeno molto raro da osservare e legato alla nascita inaspettata di una nuova parola.
I caratteri non alfanumerici
Il carattere “+”, assieme a diversi altri, è gestito in maniera particolare dai motori di ricerca.
Innanzitutto viene usato da diversi motori come un operatore speciale che, anteposto ad una parola o frase, impone al motore di ricerca di restringere i risultati alle risorse in cui la parola o frase appare in forma esplicita esattamente per come è stata digitata dall’utente.
L’uso del “+” è utile in tutti quei casi in cui il motore di ricerca preferisce “espandere” una parola scritta dall’utente e dare maggior peso ad essa una sua variante (sinonimo, cambio di genere, termine correlato, ecc.). Con la sintassi “+parola” si è invece certi che la parola sia associata alle risorse restituite dalla ricerca esattamente nella forma digitata.
Al di là dei casi in cui il carattere “+” viene usato come operatore speciale, tuttavia, la sua gestione da parte dei motori si complica.
Nella stragrande maggioranza dei casi i caratteri di punteggiatura, o più genericamente i simboli non alfanumerici, vengono semplicemente rimossi dalla query dell’utente prima che il motore effettui la ricerca…
…tuttavia, la loro gestione da parte dei motori cambia nel momento in cui la loro presenza modifica il senso della query o ne cambia il contesto.
L’esempio tipico che si fa in questi casi è la differenza di risultati che si osserva comparando la ricerca [c] con la ricerca [c++] (che è il nome di un linguaggio di programmazione).
Nonostante nel secondo caso siano presenti due caratteri “+”, la loro presenza cambia completamente l’oggetto della ricerca e pertanto i motori non ignorano più tali caratteri.
Un altro esempio tipico è il simbolo del dollaro “$”, che quando è associato a numeri cambia del tutto il senso della query nel suo complesso, avvicinandola ad un contesto monetario. Anche in tal caso il motore di ricerca può decidere di non ignorare il simbolo.
La domanda più interessante però è: “Come fanno i motori di ricerca a gestire queste eccezioni? C’è un omino che le individua e le aggiunge a mano ad un elenco di eccezioni?”.
Sistema adattivo o eccezioni esplicite
Come già detto, uno degli obiettivi di un buon motore di ricerca è quello di evitare di creare regole per la gestione di specifiche eccezioni. Il risultato ottimale sarebbe quello di ottenere un sistema in grado di comprendere da sé quando è il caso di ignorare un carattere speciale e quando invece la sua presenza modifica il senso della ricerca così tanto da rendere opportuna, in alcuni specifici contesti, una gestione speciale del simbolo.
Purtroppo non sempre questo risultato è conseguibile. I motori di ricerca che possiedono un corpus (l’archivio delle risorse indicizzate) molto grande possono sfruttare le analisi statistiche dei contenuti dei documenti e delle query degli utenti per rendersi conto quando la presenza o assenza di un simbolo associato ad un’espressione ne cambia il significato o il contesto.
Al contrario, i motori di ricerca che possiedono corpus piccoli o molto specializzati non sempre trovano nelle analisi statistiche del proprio archivio una soluzione all’obiettivo di ottenere un sistema adattivo. In tali casi, ripiegano su liste di eccezioni e casi speciali, redatte a mano da personale umano.
Questo scenario non si applica solo alla gestione dei caratteri speciali ma anche alla gestione di intere parole, come nel caso delle stopword. Non è un caso che tutti i motori di ricerca progettati per gestire piccoli corpus (compreso il Google Search Appliance per la ricerca di intranet o siti web) prevedano la possibilità per l’operatore di specificare un elenco di parole da ignorare.
A prima vista sembrerebbe che la presenza di un grande e non specialistico archivio di contenuti e di query sia la soluzione definitiva alle necessità di adattamento del motore di ricerca, ma le cose non sono così semplici quando un nuovo termine prende vita.
La nascita di una parola non prevista: “googleù”
Prima della nascita di Google+, una ricerca per [google+] su Google restituiva esattamente gli stessi risultati della ricerca [google].
La ragione, come spiegato, è che l’aggiunta del carattere non modificava il senso della ricerca, in quanto in quel momento non c’era evidenza statistica nel corpus o tra le query degli utenti che la presenza di quel simbolo fosse volontaria e destinata ad identificare un oggetto diverso dal semplice “google”.
Le cose sono ovviamente cambiate nel momento in cui Google+ è nato. Nel corso dei giorni successivi al suo lancio sono aumentate sia le risorse sul web che facevano riferimento al suo nome sia le ricerche degli utenti che contenevano tale nuova parola.
Le evidenze statistiche hanno prodotto il risultato voluto: il motore di ricerca si è reso conto della nascita di un termine del tutto nuovo, da gestire come parola a sé, e i risultati della ricerca [google+] sono di conseguenza cambiati nelle settimane successive al suo lancio.
In Italia è però successa una bellissima cosa. Beh, bellissima dal punto di vista di chi ha interesse a smontare il giocattolo Google per capire come funziona: la vicinanza dei tre tasti invio, “+” e “ù” sulle tastiere italiane ha indotto la nascita di tanti errori di battitura.
Alcune delle persone che desiderano cercare [google+] si ritrovano a inviare involontariamente a Google la ricerca [googleù] ed il fenomeno è quantitativamente così ampio che Google è incerto su come gestire quella che ai propri occhi appare come una nuova e sconosciuta parola.
Gestione della parola googleù e prime analisi
Nel momento in cui scrivo, 6 agosto 2011, cercare su Google [google+] produce correttamente una SERP incentrata sul nuovo social network di Google ma, cosa più importante, riporta in fondo il classico riquadro delle ricerche correlate, che mostra in tutto il suo splendore la ricerca [googleù], come evidenziato dallo screenshot incluso.
Cercando invece volontariamente [googleù], Google mostra la classica SERP che vien fuori nei casi di incertezza da parte del motore di ricerca: in cima appare il messaggio “Forse cercavi: google” con un paio di risultati per tale query ed il resto dei risultati è invece dedicato a quello che effettivamente ha cercato l’utente, ovvero “googleù”.
Analisi del fenomeno lato utente:
- l’utente ha l’obiettivo di cercare [google+] ma cerca involontariamente [googleù]
- Google gli presenta una SERP che propone un “forse cercavi google” (assieme a due risultati di anteprima) e a seguire i risultati per la ricerca [googleù]
- l’utente è insoddisfatto perché non gli è stato proposto nulla che soddisfacesse ciò a cui era interessato, Google+, e quindi è costretto ad effettuare una seconda ricerca, correggendo il proprio errore di battitura e inviando finalmente la query corretta: [google+]
Analisi del fenomeno lato motore di ricerca:
- Google osserva la nascita di tante ricerche [googleù] ma non una proporzionale crescita delle risorse sul web che contengono tale nuova parola
- tante ricerche [googleù] vengono sicuramente aggiustate dagli utenti nella ricerca [google+] e questo induce Google a considerare [googleù] una ricerca correlata a [google+], indicandolo esplicitamente all’utente che cerca [google+]
- il motore non solo non ha compreso pienamente che [googleù] è un mistyping (mostra ancora una ricerca con i risultati di entrambe le query) ma non è nemmeno in grado di associare il mistyping alla parola corretta
Apparentemente esistono dunque due sistemi che in questo specifico caso non stanno (ancora) scambiando informazioni tra loro.
Il primo sistema è quello che propone le ricerche correlate a fondo SERP e che apparentemente si nutre anche degli affinamenti delle ricerche. Il risultato è che coloro che cercano il termine corretto trovano come ricerca correlata il termine con l’errore di battitura.
Il secondo sistema è quello della gestione degli errori di battitura: Google è attualmente incerto che [googleù] sia effettivamente un errore di battitura e propone quindi una SERP con due insiemi di risultati: quello che lui congettura sia la correzione giusta, [google], e i risultati di quanto l’utente ha effettivamente digitato, [googleù].
Per completare il quadro, è necessaria però un’ultima ed essenziale informazione, ovvero che cosa accadeva cercando [googleù] prima che nascesse Google+. Prima che nascesse Google+, la ricerca [googleù] veniva automaticamente corretta da Google nella ricerca [google], senza incertezze. Le incertezze sono nate con la nascita della parola “Google+” e solo su Google.it.
Conclusione dell’analisi
Seguendo un filo cronologico è facile intuire quanto stia succedendo: il sistema di correzione delle query si basa sia su analisi testuali del corpus sia su analisi delle query degli utenti.
Nei casi in cui il motore si trova di fronte ad un fenomeno minimo di errori di battitura nelle query, propone all’utente una SERP contenente esclusivamente i risultati per il termine corretto. E’ quanto è successo per tanto tempo cercando [googleù].
Nel momento in cui il motore osserva una crescita consistente di errori di battitura nelle query, non associata ad un proporzionale incremento degli stessi errori nel corpus, passa da una condizione di “quasi certezza” ad una condizione di “dubbio”: “googleù” potrebbe essere diventato un termine vero e proprio, nonostante dalle analisi del corpus non vi siano indizi di ciò.
In conseguenza di tale nuovo dubbio, il motore cambia idea e inizia a proporre una SERP ibrida, che contiene principalmente i risultati per l’errore di battitura ma anche un paio di risultati per il termine che fino a quel momento era considerato la giusta correzione all’errore dell’utente.
In questo contesto, il motore osserva che una parte degli utenti che digitano [googleù] cliccano sul suggerimento [google], magari perché intendevano scrivere effettivamente la parola “google”, e che un’altra parte degli utenti non clicca sul suggerimento [google] ma modifica la query in [google+].
Questa seconda classe di utenti è aumentata di numero e percentualmente in maniera significativa, visto che fino ad alcune settimane fa Google+ non era ancora conosciuto e quasi nessuno cercava [google+].
E’ giusto chiedersi quanto essa sia aumentata e l’impressione è che sia aumentata abbastanza da indurre il motore a proporre [googleù] come ricerca vera e propria, correlata alla ricerca [google+].
La situazione è dunque questa: Google in questo momento non ha modo di sfruttare uno strumento principe per la comprensione e gestione degli errori di battitura: il click sul suggerimento stesso. Fino a quando chi intende cercare Google+ si ritroverà proposto il suggerimento errato, nessuno cliccherà sul suggerimento e Google non avrà modo di imparare.
Che lezioni SEO utili se ne ricavano?
La lezione principe che si trae dall’analisi è che una modifica consistente nelle abitudini di ricerca degli utenti può cambiare le certezze di Google sull'(in)esistenza di un termine anche nel caso in cui non vi sia una riprova di ciò analizzando il corpus di documenti.
La seconda lezione che se ne ricava ma che i SEO già conoscono, è che nel momento in cui un utente non trova ciò che intendeva (cercando erroneamente [googleù]) e corregge la query, crea nella testa di Google un legame tra le due ricerche. Almeno fino a quando una delle due non viene classificata come errore di battitura, che non appaiono mai tra le ricerche correlate.
Ma molte altre lezioni potrebbero essere imparate spingendosi un po’ oltre…
Come giocare con la mente di Google
Forse un giorno scriverò un articolo intitolato “How to fuck up Google’s mind with statistical attacks” (prendere termini competitivi e trattarli come se fossero brand o acronimi è divertente) ma per il momento mi limiterò a proporre una semplice tecnica per approfittare della confusione del motore e trarre nuove informazioni utili per il SEO.
In presenza di un nuovo fenomeno di ricerca che apparentemente dichiara l’esistenza di una nuova parola (googleù) e nella condizione in cui Google ha le idee confuse tanto da proporre una query “ibrida”, una semplice azione SEO potrebbe trasformare una situazione di dubbio in una certezza: per fargli credere che “googleù” sia una parola vera e propria sarebbe sufficiente comprovare la sua esistenza pubblicando sul web un po’ di documenti che la usano.
Come questo che state leggendo.
Se la teoria fosse valida, i risultati per la ricerca [googleù] dovrebbero presentare semplicemente i documenti correlati al nuovo termine e il suggerimento di una ricerca alternativa dovrebbe quantomeno ridursi ad una semplice proposta in cima alla pagina, come avviene per diverse query.
Le lezioni SEO acquisibili sarebbero molteplici:
- si avrebbe conferma del sistema di “reciproca conferma” tra contenuti del corpus e ricerche degli utenti
- si potrebbe approfondire la comprensione del sistema di gestione degli errori di battitura, osservando eventuali variazioni nella SERP della ricerca [googleù]
- nel caso in cui Google comprendesse comunque che “googleù” è un termine inesistente, si cercherebbe di comprendere quali altri segnali potrebbe aver preso in considerazione oltre a l’analisi di query e testi del corpus
Espongo tale tipologia di attacco come scenario ipotetico, senza la pretesa che qualcuno decida di concretizzare l’idea in un test vero e proprio.
16 Responses to “Googleù” e l’errore di battitura che confonde Google