Post recenti
Commenti recenti
- I Principali Test per un Sito Web in Ottica SEO - Ingegnerealbano.com on Come calcolare la distribuzione del “PageRank” tra le pagine di un sito
- SEO e keywords: esistono strategie e tecniche efficaci? | SERIAL EYE on Benedetta SEO, maledetta SEO
- LowLevel on Continuare a smontare Google: un’altra scoperta SEO
Tutti i post
-
Questa opera di Enrico Altavilla è concessa in licenza sotto la Licenza Creative Commons Attribuzione - Non commerciale - Non opere derivate 3.0 Unported.
L’analisi SEO del sito attraverso i log del web server
Quanti di voi si sono dedicati almeno una volta all’analisi dei log del web server nel tentativo di capire come gli spider dei motori perlustrano un sito web?
La mia impressione è che questo genere di analisi fosse più comune in passato che non oggi, eppure osservando i comportamenti degli spider è possibile osservare possibili criticità e persino trarre informazioni sull’opinione che un motore di ricerca si è fatto di un sito web. I log sono utili anche per altri scopi, per esempio di web analysis, ma questo esula dal tema del presente post.
Questo articolo nasce da un breve post sull’argomento scritto tempo addietro su Google+. Martino Mosna mi chiedeva perché non ne facevo un articolo per il blog ed io non ritenevo che i contenuti fossero particolarmente interessanti.
Di conseguenza ho deciso di riscriverli e arricchirli, aggiungendo anche i risultati di una reale analisi SEO che ho svolto qualche mese fa, penso che alla fine sia venuto fuori qualcosa di potenzialmente utile.
Tutto ciò che segue fa riferimento al motore di ricerca Google e allo spider Googlebot dedicato all’indice Web. Alcune delle considerazioni fatte possono essere estese attraverso il (vostro) sano buonsenso anche agli spider di altri motori di ricerca.
I vantaggi di reinventare la (SEO) ruota
Molti anni fa su un gruppo di discussione su Internet lessi un informatico che stava cercando di progettare un nuovo algoritmo di ricerca di pattern nei testi. Un secondo informatico gli chiese: “Esistono già molti buoni algoritmi di ricerca. Perché reinventare la ruota?” ed il primo rispose: “Perché a me serve un razzo.“.
A distanza di tanti anni ricordo ancora distintamente quella discussione perché in poche parole riusciva a dipingere uno scenario piuttosto comune tra quelle comunità che dovrebbero investire parte del proprio tempo in ricerca e sviluppo e che invece preferiscono adagiarsi alla comodità di quanto già esiste, persino quando non opportuno o non conveniente.
L’espressione “reinventare la ruota” è stata sempre sfruttata per evidenziare esclusivamente l’apparente perdita di tempo (e denaro) nel cercare di ottenere qualcosa che esiste già.
Se da un lato questo tentativo di dissuasione appare figlio del buonsenso e del tutto giustificato, dall’altro però è necessario precisare che il tempo speso nel reinventare una ruota va considerato un investimento azzardato esclusivamente quando si tenta di ottenere esattamente la stessa ruota.
Dunque mi chiedo: che effetti negativi possono scaturire da questi tentativi di dissuazione se poi bloccano sul nascere anche quei percorsi di ricerca che potrebbero far emergere soluzioni migliori a problemi apparentemente già risolti in via definitiva?
Avete mai avuto l’impressione che l’ambiente attorno a voi preveda che la ruota debba girare in un preciso modo ma che nessuno sappia esattamente il perché?
Questo articolo è dedicato alle ruote che nessuno vuole reinventare e a quelle dentate degli ingranaggi industriali, tra le quali si rimane incastrati quando si decide di seguire ciecamente i binari tracciati da altri. Compresi i binari della SEO.
La svolta semantica di Google tra bufale e verità
Ultimamente si è fatto un gran parlare di semantica applicata all’information retrieval ed in particolare a Google.
La semantica è un argomento che periodicamente torna ad essere protagonista delle news dedicate ai motori di ricerca. Durante una decina di anni di osservazione e tenendo conto degli sviluppi concreti in questo ambito, la mia impressione è che il più delle volte la parola “semantica” venga usata prevalentemente come specchietto per le allodole.
Da un lato mi sorge il dubbio che per i motori di ricerca si tratti di una carta jolly da tirar fuori in periodi di magra e di penuria di significative evoluzioni della tecnologia.
Dall’altro noto che molte volte gli utenti (SEO compresi) tendano a confondere per semantica dei risultati che possono essere prodotti senza scomodare tale concetto.
Vale dunque la pena di fare il punto della situazione e di cercare di capire che cosa ci si può aspettare realmente per il futuro.
Cosa non fare col rel=canonical
Ho scoperto con un po’ di ritardo che le specifiche del rel=canonical sono state pubblicate in una RFC, la numero 6596.
Per chi non fosse pratico di Internet, basti sapere che le RFC sono i documenti che, tra le altre cose, definiscono il funzionamento di protocolli e standard usati sulla rete.
Nel caso del canonical, non si è arrivati a considerarlo un vero e proprio standard ma la RFC pubblicata di recente è la cosa che si avvicina di più ad un documento di linee guida ufficiali/ufficiose.
Io vi invito a leggere l’intero documento e mi limiterò ad evidenziare in questo breve post solo alcune delle cose che la RFC suggerisce di non fare col canonical.
Per comodità userò l’espressione informale “rel=canonical”, do per scontato che sappiate bene di che si tratta e di come tale relazione va esplicitata nel codice delle pagine HTML o nelle intestazioni HTTP.
Niente redirezioni permanenti
L’URL indicato come canonico non dovrebbe restituire un codice HTTP 301 o 300, in altre parole non dovrebbe essere una redirezione di tipo permanente.
Niente catene di rel=canonical
L’URL indicato come canonico non dovrebbe a sua volta presentare un altro rel=canonical indicante un URL diverso.
Nota mia: i rel=canonical non sono redirezioni lato server e quindi è sconsigliato creare catene di rel=canonical così come invece accade di creare catene di redirezioni.
Niente status di errore
L’URL indicato come canonico non deve restituire uno status HTTP della famiglia 4xx. Ovvero, la risorsa indicata non deve essere un errore 404 o di altro genere.
Paginazione
In caso di paginazioni, le pagine successive alla prima non dovrebbero presentare nel proprio rel=canonical l’URL della prima pagina dell’elenco.
La ragione è che l’URL indicato come canonico dovrebbe ospitare i contenuti degli URL che lo indicano come canonico.
Nota mia: per le paginazioni è corretto usare le relazioni di tipo “next” e “prev”.
P.S.
Pensavo che sarebbe interessante parlare di argomenti simili in qualche evento. Giusto per dire.
Aumentare il CTR sulle SERP usando titoli alternativi
Già da diversi anni si è persa corrispondenza tra i testi che i gestori dei siti inseriscono nel tag TITLE delle pagine web ed i testi che Google poi pubblica nelle SERP per titolare i risultati in elenco.
In passato e per molti anni Google e gli altri motori di ricerca si sono limitati a mostrare il testo trovato in tale tag; la corrispondenza era così rigida che webmaster e proprietari dei siti arrivarono a dedurre che quella riga di testo sulla SERP fosse uno spazio proprio, da gestire liberamente e attraverso il quale mostrare agli utenti dei motori ciò che preferivano.
Ovviamente si trattava di un’illusione: ogni spazio sulle SERP appartiene solo ed esclusivamente al motore di ricerca e non esistono accordi con i proprietari dei siti o standard da rispettare riguardo quali testi il motore deve o non deve pubblicare nei risultati delle ricerche.
Per tale ragione, quando Google iniziò a mostrare risultati intitolati con testi diversi da quelli estratti dai tag TITLE, nacque un po’ di malumore tra i proprietari dei siti che non gradivano il fatto che Google cambiasse i “loro” titoli.
In realtà la possibilità di mostrare sulle SERP titoli diversi a seconda dei contesti è solo positiva e può essere anche sfruttata dai proprietari dei siti per aumentare il CTR sui propri risultati.