Post recenti
Commenti recenti
- I Principali Test per un Sito Web in Ottica SEO - Ingegnerealbano.com on Come calcolare la distribuzione del “PageRank” tra le pagine di un sito
- SEO e keywords: esistono strategie e tecniche efficaci? | SERIAL EYE on Benedetta SEO, maledetta SEO
- LowLevel on Continuare a smontare Google: un’altra scoperta SEO
Tutti i post
-
Questa opera di Enrico Altavilla è concessa in licenza sotto la Licenza Creative Commons Attribuzione - Non commerciale - Non opere derivate 3.0 Unported.
Tag Archives: Indicizzazione
La mappa dell’indicizzazione: quanto ne sappiamo?
In attesa di ritrovare un po’ di tempo per completare un articolo sulla web analytics dal quale sono molto ispirato, ho pensato di scrivere un post quick-and-dirty sulla crescente complessità del fenomeno dell’indicizzazione.
Se c’è un obiettivo che i motori di ricerca hanno finora mancato, è proprio quello della semplificazione dei sistemi di indicizzazione messi a disposizione dei gestori dei siti web. Nel corso degli anni, invece di andare incontro ad una progressiva riduzione degli strumenti e dei metodi a supporto di una corretta indicizzazione dei contenuti dei siti, la complessità è aumentata e a volte gli strumenti diversi fanno pure a cazzotti tra loro.
Ho allora voluto creare velocemente una mappa mentale dei principali strumenti legati alla scoperta delle risorse, alla loro archiviazione da parte dei motori e ai fenomeni direttamente connessi, come la canonizzazione.
Continuare a smontare Google: un’altra scoperta SEO
Questo post segue l’esempio di un articolo scritto un po’ di tempo fa assieme ai colleghi di SearchBrain: “Come ti smonto Google: una piccola scoperta SEO“, che vi suggerisco di leggere se non l’avete già fatto.
L’articolo esponeva una piccola ricerca che Giacomo Pelagatti ed io avevamo svolto e che aveva rivelato una caratteristica di Google nell’archiviare i testi dei link testuali.
Smanettando con le ricerche, ho individuato una nuova caratteristica del motore di ricerca e questo post ha l’obiettivo di presentare i risultati e di illustrare il processo logico seguito per arrivarci.
Il sottoscritto non riuscirà a garantire la precisione di esposizione che Giacomo aveva infuso all’articolo sopra citato e farò del mio meglio per esporre i risultati di questa nuova ricerca nella maniera più chiara possibile.
Quiz SEO bastardi a cui credete di saper rispondere (1)
Alla luce dell’inevitabile confusione che alberga nel mondo empirico del SEO, ove tutto sembra opinabile, mi è venuta l’idea di proporre qualche post “didattico” sfruttando quell’infido stratagemma che è il quiz.
Con questo articolo inauguro dunque una serie di quesiti che vi verranno posti attraverso semplici sondaggi.
Come funziona: voi rispondete al quiz e poi tornate dopo qualche giorno per vedere se ci avete azzeccato o se sono riuscito a fregarvi in qualche modo. I commenti saranno a vostra disposizione per eventuali reclami e linciaggi.
Una nota alla quale tengo molto: i quiz saranno bastardi, perché metterò le dita nelle piaghe più doloranti della cultura SEO e perché potrei anche fuorviarvi tendendovi volutamente dei trabocchetti.
Adesso bando alle ciance e rispondete al seguente quiz!
Il quiz
A cosa serve l'istruzione Disallow nel file robots.txt?
- A chiedere allo spider di non effettuare richieste di una o più risorse (52%, 37 Voti)
- A non far indicizzare una o più risorse (24%, 17 Voti)
- A chiedere al motore di non effettuare richieste HTTP GET di una o più risorse, consentendo però le richieste di tipo HEAD (20%, 14 Voti)
- A chiedere al motore di rimuovere una o più risorse dall'indice (3%, 2 Voti)
- A non far apparire nelle SERP una o più risorse (1%, 1 Voti)
Votanti totali: 71
Avete votato? Tra qualche giorno, quando saranno stati accumulati un po’ di voti, potrò rendere pubblici i risultati e la risposta esatta.
Nel frattempo fatemi sapere se l’iniziativa è di vostro gradimento. 🙂
La risposta al quiz
Dopo una settantina di risposte, ho deciso che il quiz poteva essere chiuso. Ecco di seguito i risultati.
La maggioranza ha risposto “A chiedere allo spider di non effettuare richieste di una o più risorse” e ha dato risposta esatta! 🙂
Detta in parole più spicce ma non proprio precise, il Disallow serve solo a chiedere agli spider di non scaricare una risorsa. E questo non produce affatto una “non indicizzazione”, come spiegherò tra poco.
La gogna pubblica e le spiegazioni
Passo adesso alla pubblica gogna, fortunatamente anonima nei confronti di tutti i votanti, e spiego perché nessuna delle altre risposte andava bene.
“A chiedere al motore di non effettuare richieste HTTP GET di una o più risorse, consentendo però le richieste di tipo HEAD” è una risposta che mi sono inventato di sana pianta per introdurre un’opzione affascinante per i geek in vena di tecnicismi.
Ho fatto di più: ho volutamente votato questa risposta errata subito dopo la pubblicazione del sondaggio, nella speranza di creare qualche dubbio ai votanti successivi e incentivare indirettamente congetture e approfondimenti.
In realtà l’istruzione Disallow chiede allo spider di non accedere ad alcuna risorsa prescindendo dalla modalità HTTP: che sia GET, HEAD, POST o altro, il divieto vale sempre.
Se beccate uno spider ad accedere ad una risorsa in Disallow con un metodo HEAD, sappiate che lo sta facendo perché ha deciso di fregarsene del robots.txt e non perché l’accesso di tipo HEAD sia contemplato o accettabile o previsto dal Robots Exclusion Standard.
Nota utile per eventuali quiz futuri: il fatto che un Disallow non consenta nemmeno le richieste via HEAD significa che una risorsa bloccata non permette agli spider di sapere nemmeno che intestazioni HTTP essa restituisce (redirect 30X, 404, ecc.).
“A non far indicizzare una o più risorse” si è beccata ben 17 voti e si è piazzata al secondo posto dopo la risposta esatta.
Quando scrivevo di “le piaghe più doloranti della cultura SEO” pensavo proprio all’ambiguità del termine “indicizzazione” e all’incredibile confusione che esiste nel settore attorno a questo termine. Un secondo posto non dovrebbe dunque sorprendere.
La spiega: ogni risorsa è identificata da un URL e quando un motore di ricerca viene a conoscenza di un nuovo URL, può già considerarlo una risorsa a propria disposizione. A questo punto inizia ad associare alla risorsa e ad inserire in un indice (questo significa indicizzare) quante più informazioni riesce a trovare.
Nel caso in cui lo spider abbia accesso alla risorsa, sarà possibile associare ad essa (indicizzare) anche i suoi contenuti, per esempio il testo nel corpo di una pagina HTML.
Nel caso in cui lo spider non possa accedere alla risorsa a causa del Disallow, sarà possibile associare ad essa (indicizzare) solo informazioni esterne alla risorsa, per esempio il testo dei link che puntano ad essa.
In entrambe i casi, la risorsa è presente nell’indice, solo che nel caso in cui essa sia in Disallow la quantità di informazioni nell’indice sarà inferiore, perché non saranno presenti i suoi contenuti.
Questa è la ragione per la quale una risorsa in Disallow può apparire in una SERP: di fatto è indicizzata, sebbene con meno dati rispetto ad una risorsa a cui lo spider può accedere.
La risposta “A chiedere al motore di rimuovere una o più risorse dall’indice” è errata per quanto appena spiegato: il Disallow non impedisce al motore di indicizzare la risorsa.
Risposta “A non far apparire nelle SERP una o più risorse“: vedi sopra.
Conclusioni
Arrivare alla risposta esatta è facile se si conoscono un po’ le basi del robots exclusion standard e come il motore indicizza le risorse. Inoltre la risposta era già presente nel flow chart sull’indicizzazione che vi avevo proposto in un post precedente.
Spero che questo primo quiz SEO bastardo vi sia piaciuto, perché ne ho in cantiere già un altro paio ed uno in particolare sarà davvero meschino.
Per approfondimenti e discussioni i commenti sono sempre a vostra disposizione. 🙂
Quiz sull’indicizzazione e cose imparate a pappagallo
Craaak! Polly vuole un biscotto!
Un argomento ricorrente nei discorsi tra colleghi e amici SEO è legato a quanta confusione vi sia sul tema dell’indicizzazione.
Il fatto stesso che il termine “indicizzazione” venga spesso usato in contesti che non hanno niente a che fare con un indice, la dice lunga sul generale stato di confusione nella cultura SEO: non essendoci una definizione unanimemente condivisa del termine, ognuno di noi lo può usare (e lo usa) come gli pare.
Magari voi penserete che le tecniche di indicizzazione siano di facile comprensione a tutti, eppure vi posso assicurare che in tanti anni ho visto moltissimi SEO, anche di grande esperienza, fallire miseramente se messi alla prova con un semplicissimo quesito.
Il quesito
“Possiedo un sito web le cui pagine sono già indicizzate da Google. Nasce l’esigenza di non far apparire più una specifica pagina nei risultati di ricerca del motore. Allora inserisco in quella pagina un meta tag ROBOTS con direttiva NOINDEX e, per sicurezza, aggiungo anche nel file robots.txt una riga DISALLOW dedicata a quella specifica pagina. Che cosa c’è di illogico (e sbagliato) in questo procedimento?”
La risposta è, ovviamente, che se desideriamo impartire un’istruzione allo spider scrivendola nel codice della pagina HTML, non dobbiamo impedire allo spider di scaricare la pagina e quindi non dobbiamo usare il disallow nel file robots.txt
Immagino che la stragrande maggioranza dei frequentatori/trici di questo blog non dovrebbero avere avuto grandi difficoltà a rispondere alla domanda, però sono certo che rimarreste sorpresi nel sapere quanti SEO, nel corso degli anni, non sono riusciti a trovare facilmente la risposta. Una risposta che dovrebbe essere immediata, per chi ha appreso l’ABC del SEO.
La domanda che mi pongo è: “Perché ho osservato tutte queste difficoltà?” e la risposta probabilmente è: “Perché spesso si apprende l’ABC meno utile.”
Memorizzare un protocollo o memorizzare tutte le possibili combinazioni?
Il fenomeno che ho osservato nel corso degli anni tra coloro che si interessano di SEO è che diverse persone sono poco propense a studiare le regole di base del funzionamento di un sistema.
Al contrario, ho notato che l’approccio di apprendimento che va per la maggiore è quello di imparare il maggior numero di combinazioni che possono scaturire dall’applicazione e dall’interazione di un insieme di diverse regole ed elementi.
E’ come se invece di capire come funziona l’operazione aritmetica dell’addizione si cercasse di imparare a memoria i risultati di tutte le possibili somme di due numeri.
Il fenomeno si presenta con maggiore evidenza proprio sul tema dell’indicizzazione, perché i motori di ricerca hanno sfornato nel corso degli anni sempre più strumenti per aiutare i webmaster a gestire al meglio l’archiviazione delle risorse. Il risultato è che ad ogni introduzione di un nuovo strumento nascono dubbi su cosa farci e in quali occasioni può essere deleterio usarlo.
Dal mio punto di vista, l’ABC SEO legato ai fenomeni di indicizzazione consiste nelle seguenti informazioni:
- le basi del protocollo HTTP
- il funzionamento del modello client/server
- il funzionamento di uno spider
- a che cosa serve un file robots.txt e il robots exclusion standard
- il diverso significato dei termini “indicizzazione”, “archiviazione” e “richiesta”
Una volte apprese le suddette basi, che rimangono pressoché immutabili nel tempo, è possibile crearsi una visione chiara del protocollo che gestisce il variopinto mondo dell’indicizzazione e dell’archiviazione.
Combinazioni esotiche tra robots.txt, intestazioni HTTP, meta tag, e attributi rel=canonical troveranno subito posto all’interno del paradigma che ci siamo costruiti e non sarà necessario imparare a pappagallo gli effetti di ogni possibile interazione tra questi ed altri elementi.
Ogni futuro strumento, inoltre, può essere inserito all’interno dello scenario per avere subito chiaro come può interagire con gli strumenti preesistenti.
Un flusso parziale
Solo per esercizio, ho creato un semplice diagramma di flusso che illustra un semplice protocollo di indicizzazione limitatamente agli elementi: direttiva noindex, robots.txt e indexer.
Il flow chart dipinge solo un processo di base e tiene conto solo di un paio di strumenti di indicizzazione, però dovrebbe fornire già qualche indicazione importante sull’interazione tra lo spider e l’indexer.
Per esempio, seguendo il flow chart dovrebbe essere possibile rispondere facilmente a domande quali “Quali testi associabili ad una risorsa non possono finire nella SERP se il robots.txt chiede di non accedervi?”, o anche “Che ruolo deve avere il file robots.txt nel caso in cui non si desideri far indicizzare una risorsa?”.
Il flusso di indicizzazione-fine-di-mondo
Un flow chart completo che mostri l’interazione di tutti gli strumenti di indicizzazione esistenti sarebbe decisamente più complesso da realizzare, ma non certo impossibile. Ma sicuramente strafigo!
Partire dalla redazione di un elenco di tutti gli strumenti sarebbe il primo passo da fare.
C’è qualcuno tra di voi che se la sente? 🙂
Se vi può servire, il software che ho utilizzato per produrre il diagramma di flusso è gratuito e si chiama yED.
Buona analisi del flusso!
Migliorare l’indicizzazione con le priorità delle sitemap
Se c’è uno strumento SEO che a mio parere viene spesso sottovalutato è quello dell’attributo priority delle sitemap XML.
In tanti anni ho osservato una gestione dei file sitemap poco interessata, forse perché è più comodo far fare tutto a qualche plugin o automatismo software che si occupa di creare i file sitemap sollevando webmaster e SEO da un’attenta progettazione.
Il problema con questo approccio è che molti file sitemap non sfruttano appieno le proprie potenzialità; ho quindi pensato di fornire qualche dritta.
L’importanza del priority
Secondo il protocollo sitemap, l’attributo priority va usato per indicare al motore di ricerca quali pagine vorremmo che finissero ben visibili in SERP.
In un certo senso, il valore contenuto nell’attributo priority di ciascun URL può essere considerato un indice di quanto l’URL è per noi importante o strategico.
Quando si parla di “importanza” la memoria va al buon caro vecchio PageRank, che ormai va di moda tacciare di inutilità generica, quando invece ne ha molta se ci si focalizza sul fenomeno dell’indicizzazione.
La relazione tra PageRank e l’attributo priority appare azzeccata perché entrambe gli elementi hanno sicuramente influenza sulle decisioni degli spider riguardanti quanti e quali URL richiedere e, conseguentemente, quanti e quali URL conservare in archivio.
Il primo contributo importante dell’attributo priority consiste dunque nell’aiutare il SEO a far archiviare un maggior numero di pagine del sito, fenomeno che è strategico sopratutto per quei siti grandi che vivono di long tail e pageview.
Sinergia col PageRank
La relazione tra attributo priority e PageRank è ulteriormente cementificata dal fatto che i due elementi possono essere sfruttati in maniera complementare, sinergica.
Quando per ragioni tecniche o di design non è possibile modificare le strutture di navigazione di un sito per conferire maggiore importanza/PageRank ad alcune sezioni o tipologie di risorse, un valore più alto nell’attributo priority di quelle risorse può venire in aiuto sopperendo a quanto non riusciamo a fare attraverso il grafo dei link del sito.
E’ vero anche il contrario: in condizioni in cui non è possibile gestire nel dettaglio i valori che andranno a finire negli attributi priority dei file sitemap, diventa più strategico sfruttare al meglio i link sul sito per assegnare importanza alle risorse che realmente ci interessano.
Per queste ragioni già da tempo io sfrutto le priorità nelle sitemap e la distribuzione del PageRank sul sito come due strumenti sinergici attraverso i quali gestire nel migliore dei modi il concetto di “importanza” da associare alle risorse.
Approccio base
In linea puramente teorica, con un sito che sfrutta i link interni per distribuire importanza alle proprie risorse in perfetta aderenza con gli obiettivi di visibilità e traffico, l’attributo priority delle sitemap XML potrebbe anche non servire.
All’atto pratico, un sito dal linking interno “perfetto” non può esistere e dunque si rendono necessarie le pratiche sopra accennate. Questa affermazione è ancora più vera per quei siti che beneficiano di contenuti generati da utenti e che sono soggetti a modifiche del grafo dei link sul sito operate dagli utenti stessi.
Un buon modo per iniziare a progettare bene dei valori di priorità adeguati consiste nel fare un elenco delle risorse più strategiche del sito e metterle in ordine di importanza.
Per i siti grandi non è ovviamente possibile produrre un elenco esaustivo ma in tal caso è sufficiente elencare in ordine di importanza le categorie in cui le risorse vengono classificate.
L’obiettivo finale è quello di operare una selezione ragionata di quanto il sito contiene e chiarirsi bene le idee su quali risorse beneficerebbero di più di una maggiore visibilità nelle SERP.
Un’obiezione che mi sento fare spesso è: “le risorse sono tutte importanti” ma sicuramente le risorse non sono tutte importanti allo stesso modo.
Il mio consiglio è, in questo contesto, di farvi guidare dal denaro: se avete un e-commerce chiedetevi quali (categorie di) prodotti avete un interesse a vendere più di altre tenendo in considerazione i volumi di ricerche sul web; se avete un sito di news che vende spazi pubblicitari chiedetevi quali temi e tipologie di contenuti vi permettono di intercettare un target ampio o che per propria natura è più propenso a fare più pageview sul sito.
Per dirla tutta, queste considerazioni di importanza dovrebbero essere fatte a monte, prima ancora della fase di progettazione del sito e dell’architettura delle informazioni, che influisce direttamente sul linking interno e quindi sull’assegnazione di importanza alle risorse. Ma questa è fantascienza.
Tornando con i piedi per terra, che ci si fa con l’elenco delle risorse più strategiche ordinate per importanza? Semplice, si usano come base per scegliere quanti e quali URL inserire nella sitemap XML e che priority attribuire loro.
Se tutto è importante, niente è importante
I valori dell’attributo priority vanno da zero a uno, che è il massimo. In mezzo ci sono tanti numeri con virgola che potete sfruttare per stabilire quanto ciascuna risorsa è importante rispetto alle altre.
Queste ultime parole ve le ripeto perché sono determinanti: “quanto ciascuna risorsa è importante rispetto alle altre“. Ho aggiunto anche il neretto, visto?
Se stresso tanto su questo punto è perché a volte ho osservato la tendenza ad attribuire il priority di una risorsa ragionando esclusivamente sulla risorsa stessa e dimenticandosi della sua importanza relativa rispetto a tutto il resto del sito.
Vi faccio un esempio pratico prendendo dei dati reali gentilmente fornitimi da un cliente, che ringrazio.
Quello che segue è un grafico della distribuzione delle priorità in una sitemap XML sottopostomi dal cliente.
Come potete notare, la stragrande maggioranza degli URL presenta una priorità molto alta e solo una piccola parte possiede una priorità bassa.
Il problema con questo tipo di struttura è che asserire “la maggioranza delle risorse ha priorità identica o simile” non consente di far emergere quelle risorse realmente strategiche rispetto alle altre.
Al mio consiglio di ottenere una curva di distribuzione più “morbida” e che mettesse in risalto un gruppo principale di risorse più importanti di altre, il cliente ha proposto una nuova distribuzione, che è decisamente migliore rispetto alla precedente e che potete osservare nel prossimo grafico.
Vi consiglio dunque di porvi sempre le domande: “quanto sono stato selettivo?” o “sto mettendo in risalto ciò che realmente è più importante?”.
Pubblicare e migliorare
Una volta abbozzate le priorità come si può essere sicuri che vadano bene? Il metodo migliore è quello di pubblicare il file sitemap XML, eventualmente segnalandolo attraverso il pannello di Google Webmaster Tools, e osservare come reagisce Google nei giorni successivi.
E’ aumentata la quantità giornaliera di pagine richieste dallo spider? Chiede sempre le stesse risorse o risorse diverse (consiglio di dare un’occhiata ai log del web server)? Vi sono modifiche alle posizioni delle pagine strategiche per le keyphrase di riferimento? E’ aumentata la quantità di pagine archiviate da Google? E’ aumentato il numero di differenti landing page dai motori di ricerca? Son salite di posizione le pagine giuste (consiglio di valutare come son cambiati gli indici di apprezzamento da parte degli utenti)?
Se c’è la percezione che qualche risorsa “arranchi” o che le nuove priorità attribuite attraverso la sitemap XML abbiano comportato effetti negativi su specifiche risorse, potrebbe essere una buona idea aumentare leggermente la loro priorità oppure svalutare ulteriormente i gruppi di risorse meno strategiche.
Al di là di questo consiglio chiave, ricordate che giocare con le priorità è nella stragrande maggioranza dei casi un’attività sicura perché, a differenza della modifica di link interni del sito, modificare le priority consente di tornare facilmente e velocemente sui propri passi o di fare test ed esperimenti sui valori che producono risultati migliori.
Benefici conseguibili
In particolare per i siti di una certa grandezza ed in grado di farsi perlustrare in lungo ed in largo da Google, ho osservato in più di un caso che accorte modifiche degli attributi priority hanno condotto ad un crawling più approfondito, ad una quantità maggiore di pagine indicizzate e a più accessi sul sito.
E anche per coloro che non hanno siti particolarmente corposi, un sano tweaking delle priorità basato su ciò che vi sta più a cuore potrebbe portare risultati gradevoli.
Come al solito, vi invito a sperimentare. 🙂