Post recenti
Commenti recenti
- I Principali Test per un Sito Web in Ottica SEO - Ingegnerealbano.com on Come calcolare la distribuzione del “PageRank” tra le pagine di un sito
- SEO e keywords: esistono strategie e tecniche efficaci? | SERIAL EYE on Benedetta SEO, maledetta SEO
- LowLevel on Continuare a smontare Google: un’altra scoperta SEO
Tutti i post
-
Questa opera di Enrico Altavilla è concessa in licenza sotto la Licenza Creative Commons Attribuzione - Non commerciale - Non opere derivate 3.0 Unported.
Tag Archives: Indicizzazione
Come funziona Google (sul serio) – Il corso SEO
Aggiornamento IMPORTANTE: questo è un vecchio post che promuoveva il corso e che contiene informazioni ormai obsolete. Dovreste leggere la pagina dedicata al corso sul mio nuovo sito di lavoro.
Quello che segue è il post vecchio, che tengo pubblicato solo per ragioni storiche.
Questo post è una marketta. Chi vuole, cambi canale. I curiosi, proseguano.
Per oltre un anno, in fondo a tutti gli articoli divulgativi di questo blog ho aggiunto un enigmatico post-scriptum: “Pensavo che sarebbe interessante parlare di argomenti simili in qualche evento. Giusto per dire.”
Adesso è arrivato il momento di annunciarvi un primo “qualche evento” e spero che ne apprezzerete la particolarità.
Ieri ho pubblicato un articolo sul funzionamento di Google ed ho scritto che in alcuni casi la forma scritta non è adatta a spiegare per bene le cose. Per fare chiarezza sul funzionamento di Google e per darvi tanti dettagli, è necessario spiegare le cose di persona. E, sfortunatamente per voi, stavolta non sarà gratis.
Come funziona Google (solo un antipasto…)
Vi chiedo di prestare attenzione. Non l’ho mai fatto finora ma stavolta si tratta di un’occasione molto particolare.
Quanto segue è un assaggio di quello che stava diventando un mastodontico e ingestibile articolo sullo scibile tecnico di Google, iniziato a scrivere diverso tempo fa.
Sono arrivato ad un punto in cui ho dovuto realizzare che un post in un blog non è più il contesto e metodo giusto col quale fornire questo tipo (e questa quantità) di informazioni. Per tante ragioni.
In un certo senso, mi sono arreso. Ma da un’altra prospettiva ne è nato qualcosa di molto molto più interessante.
Quindi ho deciso di proporvi oggi questa “opera incompiuta” e vi chiedo di fare un salto sul blog domani, 10 ottobre 2013, per darvi una notizia e per mostrarvi in che cosa ho trasformato questo articolo.
Se mi seguite da un po’ di tempo, sono certo di poter stuzzicare il vostro interesse.
A domani!
Aggiornamento: il 10 ottobre 2013 è arrivato e potete leggere la novità: Come funziona Google (sul serio).
Lo strumento di rimozione URL di GWT è una piaga da non usare
(a grande richiesta, un articolo breve per far riprendere fiato ai lettori)
Questo articolo dovrebbe in teoria essere parte di un più vasto argomento che potrei intitolare “Google Webmaster Tools non è Google”.
Nel corso del tempo ho infatti osservato diversi casi in cui alcune persone reagivano alle informazioni pubblicate su GWT come se esse fossero valutazioni sul sito svolte dal motore di ricerca.
In realtà le cose non stanno proprio così e non mancherà l’occasione di affrontare l’equivoco più ampio, tuttavia questo post è dedicato ad una piaga specifica: il tool per la rimozione delle pagine dai risultati di ricerca di Google, che nella versione inglese di GWT viene chiamato “Remove URLs”.
Lascia perplessi quanto la finalità di questo tool sia stata incompresa da webmaster e SEO: in tutti gli episodi che ho valutato tale funzionalità di rimozione URL è stata infatti usata in modo errato, rendendo la vita a Google un po’ più difficile.
La confusione attorno allo strumento di rimozione URL è talmente grande e diffusa che questa funzionalità mi risulta essere l’unica per la quale Google si sia spinto a creare un’apposita pagina di supporto che spiega quando non usare il tool di rimozione URL.
Vale dunque la pena di capire come stanno effettivamente le cose per evitare errori futuri.
L’analisi SEO del sito attraverso i log del web server
Quanti di voi si sono dedicati almeno una volta all’analisi dei log del web server nel tentativo di capire come gli spider dei motori perlustrano un sito web?
La mia impressione è che questo genere di analisi fosse più comune in passato che non oggi, eppure osservando i comportamenti degli spider è possibile osservare possibili criticità e persino trarre informazioni sull’opinione che un motore di ricerca si è fatto di un sito web. I log sono utili anche per altri scopi, per esempio di web analysis, ma questo esula dal tema del presente post.
Questo articolo nasce da un breve post sull’argomento scritto tempo addietro su Google+. Martino Mosna mi chiedeva perché non ne facevo un articolo per il blog ed io non ritenevo che i contenuti fossero particolarmente interessanti.
Di conseguenza ho deciso di riscriverli e arricchirli, aggiungendo anche i risultati di una reale analisi SEO che ho svolto qualche mese fa, penso che alla fine sia venuto fuori qualcosa di potenzialmente utile.
Tutto ciò che segue fa riferimento al motore di ricerca Google e allo spider Googlebot dedicato all’indice Web. Alcune delle considerazioni fatte possono essere estese attraverso il (vostro) sano buonsenso anche agli spider di altri motori di ricerca.
Quiz SEO bastardo numero 6: indicizzazione impossibile
NOTA IMPORTANTE: questo post era stato cancellato per errore e l’ho quindi ricreato manualmente. Purtroppo si son persi i commenti e me ne scuso con gli autori. Potete leggere una copia di questo post comprensiva dei commenti su Archive.org
Il quiz SEO che mi appresto a presentarvi è davvero subdolo e se non siete abituati a questo genere di quiz bastardi vi suggerisco prima di farvi un po’ le ossa con i quiz precedenti.
A differenza dei quiz del passato, stavolta ho pensato di creare una risorsa da usare appositamente come cavia per il quiz e che potrà essere quindi oggetto del vostro studio.
Il quiz
Si afferma che è impossibile che la risorsa all’URL https://www.lowlevel.it/quiz-6/ venga indicizzata da Google Web (l’indice generico web, quindi). In altre parole, la risorsa non verrà aggiunta a tale indice nemmeno in forma parziale e di conseguenza non potrà essere estratta da esso per essere presentata all’utente come risultato di una ricerca. Si chiede al partecipante di determinare se la suddetta affermazione è vera o falsa e, a prescindere dalla risposta data, motivarla.
Le risposte al quiz sono aperte e possono essere date semplicemente commentando questo post. L’obiettivo del quiz è quello di indurre i partecipanti a svolgere un po’ di analisi, che potrebbero costituire un buon ripasso delle tecniche di indicizzazione di Google.
Come di consueto, tra alcuni giorni il quiz verrà chiuso e questo post verrà modificato aggiungendo la risposta esatta e il nome del vincitore/trice.
Buona analisi a tutti! 🙂
La risposta è…
In base ai protocolli esistenti e in particolare al Robots Exclusion Standard e a come e quanto Google vi aderisce, è vero che la risorsa all’URL www.lowlevel.it/quiz-6/ non verrà indicizzata da Google e che non apparirà nelle SERP nemmeno in forma parziale grazie ad una semplice direttiva noindex presente nelle intestazioni HTTP, che viene inviata a tutti i client che mostrano un user-agent contenente il testo “googlebot”.
Ho creato la risorsa in modo che solo i client che si dichiarano Googlebot ricevano il noindex. Si tratta quindi di una forma di erogazione condizionale che si basa sull’user-agent, ovvero una forma di cloaking (che può essere usato anche per finalità diverse dallo spam).
Ecco un esempio di intestazioni HTTP di richiesta della risorsa e di risposta del server:
GET /quiz-6/ HTTP/1.1
User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Host: www.lowlevel.it
Accept: */*
HTTP/1.1 200 OK
Date: Mon, 09 Jul 2012 01:11:32 GMT
Server: Apache
X-Powered-By: PHP/5.2.17
X-Robots-Tag: noindex
Cache-Control: max-age=3600
Expires: Mon, 09 Jul 2012 02:11:32 GMT
Vary: User-Agent,Accept-Encoding
Transfer-Encoding: chunked
Content-Type: text/html
N.B.: l’indicizzazione è un processo complesso e le fasi in cui si divide sono molteplici e variano da motore a motore. In funzione di ciò, una definizione di “indicizzazione” applicabile a tutti i motori di ricerca non esiste e sarebbe anche corretto fare una distinzione tra “indicizzare i contenuti di una risorsa” e “indicizzare i riferimenti ad una risorsa”, che sono due cose diverse. Per semplicità di cose, il quiz ha usato l’espressione “indicizzare una risorsa” nella sua accezione letterale e generica, ovvero inserire i suoi contenuti in un indice.
Depistaggi
Considero il cloaking la prima forma di depistaggio di questo quiz, in quanto la direttiva noindex non è percepibile se non richiedendo la risorsa con user-agent Googleblot.
Il riferimento ad unavailable_after all’interno di un commento nel codice HTML della pagina è ovviamente ininfluente ai fini del processo di indicizzazione e quindi del quiz, perché non si tratta di una vera direttiva unavailable_after ma solo di un commento. Anche in questo caso, la documentazione ufficiale di Google spiega come erogare correttamente un’informazione unavailable_after.
Francamente non mi aspettavo che una percentuale così alta di risposte facessero riferimento ad unavailable_after, pensavo che la natura di commento, la sintassi errata e la data farlocca inducessero l’esaminatore/trice ad un immediato scarto di quel codice. Nei quiz passati i depistaggi sono stati sicuramente più bastardi, almeno dal mio punto di vista.
Come ci si poteva arrivare
Penso che il raggiungimento della risposta corretta sia stato ottenuto solo da coloro che hanno svolto le proprie analisi cercando di simulare il più possibile uno spider di Google, prendendo atto di quello che viene effettivamente erogato al motore di ricerca.
Simulare uno spider di Google è un’attività che mi è capitato di svolgere abbastanza frequentemente nelle analisi di siti web, perché a volte capita che un IT abbia implementato soluzioni dedicate agli spider senza però mantenere una traccia formale di tali implementazioni. Col passare del tempo e l’avvicendarsi di dipendenti diversi, è possibile che si perda traccia di come un sito/CMS gestisce le richieste degli spider e quindi può essere opportuno svolgere analisi in tal senso.
Per richiedere una risorsa presentando un user-agent diverso da quello del proprio browser, si possono usare estensioni e plugin per i propri browser (cercando, ne troverete a bizzeffe) oppure dei tool online che consentono di effettuare richieste HTTP specificandone le caratteristiche. Le intestazioni HTTP riportate nella sezione precedente sono state ottenute usando questo tool di SearchBrain ma ne esistono moltissimi altri e nei commenti al presente articolo è venuto fuori anche questo.
Note su indicizzazione e altro
Al di là dell’unavailable_after, nelle risposte sono emersi alcuni temi che vorrei commentare.
Expires
Le intestazioni Expires non influiscono sulla presenza o assenza di una risorsa in un indice di un motore, al massimo possono influire su quanto aggiornata è la versione che il motore ha indicizzato. Uno dei documenti che in passato mi ha aiutato a fare chiarezza sul funzionamento dei sistemi di caching è questo e vi invito a leggerlo. Ma ricordate che niente batte per dettaglio e completezza le relative RFC.
Direttiva noindex
Il noindex è una direttiva che viene seguita da tutti i motori di ricerca e che induce Google a non presentare la risorsa nelle SERP. Se una risorsa con noindex è presente nelle SERP di Google, i casi sono due: 1) il motore non si è (ancora) reso conto del noindex oppure 2) il processo di indicizzazione è buggato.
Per farvi una veloce statistica, sappiate che tutte le perplessità che ho letto in oltre dieci anni riguardo il mancato rispetto della direttiva noindex da parte di un qualsiasi motore di ricerca erano riconducibili al fatto che il webmaster 1) credeva erroneamente di aver erogato correttamente tale direttiva agli spider oppure 2) credeva che la risorsa fosse indicizzata in quanto appariva nelle SERP.
Un errore comunissimo è un errore di tipo logico: si chiede agli spider di non scaricare la risorsa attraverso un Disallow nel robots.txt, impedendogli in questo modo di rendersi conto dell’esistenza del noindex. Ho discusso questo errore di logica in un precedente articolo.
Esiste anche la diffusa convinzione che “se una risorsa appare nelle SERP allora è indicizzata“, assunzione in realtà errata perché non è strettamente necessario indicizzare i contenuti di una risorsa per poter mostrare un suo riferimento nelle SERP: il riferimento può apparire anche in funzione di informazioni esterne alla risorsa stessa.
And the winner should be…
La prima persona a beccare la causa dell’impossibilità di indicizzazione è stata Yagni, la prima persona che ha evidenziato l’esistenza di un cloaking è stata Francesco (Boschian) e la prima persona che ha risposto formalmente (“vero o falso”) dandone motivazione è stata Vanny Rosso.
Li cito tutti e tre e vi invito a ripartire il merito tra loro a seconda di quanto volete premiare la velocità di risposta o il rispetto formale della domanda. 🙂 Dal prossimo quiz darò priorità alla presenza di una risposta formale e completa oltre che corretta.
Il 55% delle risposte è stato errato, di queste un 54,55% è stato fuorviato dal commento sull’unavailable_after. Il 5% dei partecipanti non ha capito la domanda (nel senso che ha dato una risposta su un argomento completamente diverso dall’indicizzazione).
Congratulazioni a chi ha risposto correttamente! Ci si rivede ad un prossimo quiz. 🙂
P.S.
Pensavo che sarebbe interessante parlare di argomenti simili in qualche evento. Giusto per dire.