Post recenti
Commenti recenti
- I Principali Test per un Sito Web in Ottica SEO - Ingegnerealbano.com on Come calcolare la distribuzione del “PageRank” tra le pagine di un sito
- SEO e keywords: esistono strategie e tecniche efficaci? | SERIAL EYE on Benedetta SEO, maledetta SEO
- LowLevel on Continuare a smontare Google: un’altra scoperta SEO
Tutti i post
-
Questa opera di Enrico Altavilla è concessa in licenza sotto la Licenza Creative Commons Attribuzione - Non commerciale - Non opere derivate 3.0 Unported.
Tag Archives: Instant Preview
Ciò che realmente Google vede
Per anni i SEO hanno ottimizzato le pagine web sapendo che certi elementi, che fossero testi o link, era valutati maggiormente dai motori di ricerca se inseriti in cima alla pagina.
In realtà, tuttavia, piuttosto che “in cima alla pagina” si è sempre detto “in cima al codice HTML”, perché si è sempre creduto che la comprensione dei motori di ricerca fosse basilare e che per un algoritmo il concetto di “posizione di un elemento all’interno della pagina” dovesse essere necessariamente semplificato in “posizione all’interno del codice”.
Però adesso siamo nel 2011 (beh, per essere precisi sto scrivendo questo post nel 2011) ed è opportuno rivedere le convinzioni che ci siamo portati dietro per anni. Forse c’è una sorpresa.
Instant Preview
Instant Preview è il nome che Google ha scelto per il proprio servizio di miniature (thumbnail) che affiancano i risultati delle ricerche.
Cliccando su una icona a forma di lente di ingrandimento posta a fianco di ciascun risultato, appare uno screenshot della pagina a cui il risultato fa riferimento. La cosa più interessante, però, è che Google riesce ad evidenziare in tempo reale all’interno dello screenshot la zona della pagina web che contiene le parole cercate dall’utente, usando un rettangolo arancione.
Come fa Google a conoscere la posizione del testo cercato dall’utente all’interno della miniatura? E come fa ad evidenziare questa informazione in tempo reale?
Va escluso a priori che venga usato in tempo reale un sistema di riconoscimento dei caratteri (OCR) all’interno dell’immagine, in quanto eccessivamente lento e poco adattabile alla mole di ricerche operate dal motore.
E’ invece molto più probabile che solo in fase di creazione dello screenshot Google provveda ad usare un algoritmo di OCR, per poi conservare in archivio la posizione (X e Y) delle parole visibili sulla pagina.
Ricordate questo punto: la reale posizione delle parole potrebbe essere archiviata.
In fase di visualizzazione all’utente Google mostra l’immagine e, partendo dalle posizioni delle parole all’interno dello screenshot (che deve conoscere già), calcola la posizione e la dimensione che il rettangolo dovrà avere e lo sovraimpone all’immagine attraverso una funzione JavaScript.
La precisione del calcolo delle posizioni
Da qualche evidenza, ho l’impressione che le posizioni memorizzate non facciano riferimento alle singole parole ma ad intere frasi o paragrafi. Avrebbe anche un senso in termini di ottimizzazione delle risorse a disposizione del motore di ricerca.
Vi invito a dare un’occhiata all’immagine che segue. Nel mio articolo sul funzionamento dell’algoritmo Panda, è presente in cima l’immagine di un Panda accompagnata da una didascalia che recita “Never say no to Panda!”. Questo testo è in cima al codice HTML (sopra il primo paragrafo di testo del post) ma visivamente mostrato sotto l’immagine, ovvero più in basso e a destra rispetto all’inizio del testo dell’articolo.
Cercando su Google [site:www.lowlevel.it “never say no to panda”], il rettangolo che evidenzia la posizione del testo all’interno della pagina racchiude correttamente la frase cercata e anche i primi paragrafi di testo che, nel codice, la seguono.
La precisione con la quale il rettangolo racchiude i testi cercati è notevole e la differenza di posizione (fisica e visuale) viene gestita bene.
La gestione dei testi nascosti
Il prossimo passo per comprendere dove possa arrivare la bontà del sistema di riconoscimento di Google è quello di tentare di capire come si comporta nei confronti dei testi invisibili, anche quelli semplicemente “a comparsa” che popolano il web (si pensi a menu di navigazione o a testi mostrati attraverso effetti AJAX).
La ricerca [site:www.plus2net.com/javascript_tutorial/hide-layer2.php “message box”] mostra un Instant Preview di una pagina nella quale il testo “Message Box” è presente ma invisibile di default.
La miniatura prodotta da Instant Preview è ritagliata in modo tale da indurre a credere che il testo invisibile non concorra a definire il perimetro dello screenshot da effettuare. Altre ricerche hanno mostrato che la zona in cui risiede un testo invisibile di default non viene mai evidenziata col rettangolo arancione, a far intendere che il riconoscimento dei testi avviene tenendo conto di eventuali layer non visibili.
Una riprova della bontà del sistema giunge dall’analisi della ricerca [site:www.easywayserver.com/blog/javascript-show-hide-layers-in-html/ “demo” “layer 1” “layer 2” “layer 3”], che mostra il testo cercato in quanto visualizzato di default sulla pagina, benché teoricamente nascondibile dall’utente cliccando su alcuni pulsanti.
Congetture finali
A quanto pare Google possiede la tecnologia per sapere in tempo reale (durante una ricerca) se i testi cercati dall’utente sono visivamente presenti sulla pagina, facendo uso di un algoritmo di riconoscimento e, con tutta probabilità, di un sistema che prevede l’immagazzinamento di informazioni sulla reale visibilità e posizione dei testi.
Quanto diffusamente potrebbe essere applicato questa analisi ai miliardi di pagine web perlustrate dal motore di ricerca? A questa domanda risponde Google stesso su questa pagina dedicata ad Instant Preview:
In general, Google updates the Instant Preview snapshot as part of our web crawling process. When we don’t have a cached preview image (which primarily happens when we can’t fetch the contents of important resources), we may choose to create a preview image on-the-fly based on a user’s request.
Per quanto non si possano trarre conclusioni certe, a mio parere si rafforza l’idea che la tecnologia per dare peso a ciò che realmente viene mostrato agli utenti esista e possa essere già applicata in maniera estesa.