Post recenti
Commenti recenti
- I Principali Test per un Sito Web in Ottica SEO - Ingegnerealbano.com on Come calcolare la distribuzione del “PageRank” tra le pagine di un sito
- SEO e keywords: esistono strategie e tecniche efficaci? | SERIAL EYE on Benedetta SEO, maledetta SEO
- LowLevel on Continuare a smontare Google: un’altra scoperta SEO
Tutti i post
-
Questa opera di Enrico Altavilla è concessa in licenza sotto la Licenza Creative Commons Attribuzione - Non commerciale - Non opere derivate 3.0 Unported.
Tag Archives: Datacenter
Whatsup 0.3: gestione dei datacenter e fermento sul web
Nel precedente post dedicato a Whatsup avevo accennato alla versione 0.3, che tra le altre cose introduce la produzione automatica delle mappe mentali.
Prima di affrontare l’esportazione dei cluster in formato FreeMind, però, penso che sia opportuno dare piorità ad un aspetto più critico e che durante la sua gestione mi ha permesso di sviluppare una nuova idea sul genere di informazioni che Whatsup potrebbe fornire.
La gestione dei datacenter
Ogni software di ranking, nell’interrogare Google o qualsiasi altro motore di ricerca, si pone come obiettivo quello di acquisire informazioni sulla posizione dei siti, che vengono solitamente comparate con quelle acquisite precedentemente per comprendere se la visibilità dei siti migliora o peggiora nel tempo.
In linea teorica, converebbe interrogare sempre uno stesso datacenter, per essere certi che le informazioni acquisite sulle posizioni non siano sporcate dal tipico fenomeno di disallineamento dei dati che i datacenter solitamente mostrano. Nella pratica esistono ragioni per evitare l’interrogazione di un solo datacenter, ma in teoria la maggiore consistenza dei dati si otterrebbe evitando di interrogare datacenter diversi.
L’acquisizione di dati fatta da Whatsup si pone però obiettivi diversi da quelli che si pongono i software di ranking. L’interrogazione di un solo datacenter, infatti, non consentirebbe di acquisire tutte le ricerche “hot” del momento ma solo le ricerche hot conosciute dal datacenter interrogato. A causa del disallineamento dei dati, datacenter diversi possono ospitare ricerche leggermente diverse.
Che cosa conviene fare a Whatsup? Conviene porsi come obiettivo la completezza delle informazioni e acquisire tutte le ricerche facendo richieste multiple a datacenter diversi.
Interrogare più datacenter implica che si acquisiranno sia ricerche appena introdotte da Google nella categoria delle ricerche del momento, sia ricerche ormai meno attuali ma che rimangono ancora per un po’ di tempo nei datacenter aggiornati per ultimi. Questa non è una reale criticità, tuttavia, perché la frequenza di aggiornamento dei datacenter è così alta che anche le ricerche “vecchie” hanno vita breve e scompaiono da tutti i datacenter abbastanza velocemente, dietro la spinta delle query più nuove.
Datacenter non vuol dire IP
Molti SEO credono che un datacenter di Google venga identificato da uno specifico indirizzo IP o, per essere più precisi, che vi sia una corrispondenza biunivoca tra un datacenter e un indirizzo IP. Almeno relativamente ai servizi di Google che interrogo per estrarre le ricerche hot, questa convinzione pare essere errata.
Anche interrogando Google allo stesso indirizzo IP, l’insieme di query restituito può variare da utente a utente, che in termini di protocollo si traduce in “da connessione a connessione”. Quindi magari ad un IP corrisponderà pure una specifica struttura tecnologica, però sicuramente non corrisponde un unico centro di dati o archivio.
Per questa ragione, piuttosto che fare interrogazioni a IP diversi, Whatsup mantiene inalterato l’IP interrogato e fa di tutto per presentarsi sotto spoglie diverse cambiando user-agent, cookie e ovviamente aprendo ogni volta una nuova connessione HTTP. La quantità di richieste è modesta e non c’è rischio di incorrere in contromisure anti-flood di Google.
Diversi test testimoniano che questo approccio permette di ottenere ad ogni interrogazione un insieme di query leggermente diverso da quello dell’interrogazione precedente. Whatsup fa un po’ di tali richieste e poi mette assieme tutte le query raccolte. Ho anche svolto inoltre delle prove che dimostrano che, sfruttando la tecnica indicata, cambiere l’IP interrogato non porta ulteriori benefici in termini di nuove query acquisite.
Sfruttare il disallineamento
Nel fare query ai servizi di Google che erogano le informazioni sulle query più cercate del momento, ho notato un fenomeno interessante che riguarda l’allineamento dei datacenter.
Durante le ore diurne il disallineamento è maggiore, probabilmente perché l’aggiornamento dei dati avviene dietro la spinta delle ricerche effettuate dagli utenti e un volume maggiore di ricerche o la nascita di picchi su temi nuovi comporta un maggiore e più frenetico avvicendamento delle query vecchie/nuove. Al contrario, le ore notturne non mostrano quasi mai datacenter dai contenuti disallineati.
Ho allora pensato che il grado di disallineamento dei datacenter potrebbe essere usato come un indice indiretto del volume di query in un dato istante o, più precisamente, del “fermento” delle ricerche degli utenti.
Si tratterebbe di un indice molto approssimativo e difficile da estrarre (anche durante il giorno i datacenter non appaiono disallineati costantemente) ma se l’intuizione sulla relazione “attività umana – disallineamenti” si dovesse dimostrare azzeccata, si potrebbe ottenere per la prima volta uno strumento in grado di dare visibilità del fermento esistente in rete durante l’arco di una giornata. 🙂