logo grande web4human blog

in SEO | -February-18 | | 1

Sitemap: uno strumento per accelerare e migliorare l'indicizzazione

La sitemap, la mappa degli url e delle immagini che formano l’insieme di un Sito WEB, viene offerta dal sito, servita in formato XML e letta dai crawler dei motori di ricerca . Vediamo cosa significa:

La sitemap è un file posizionato generalmente nella webroot del nostro sito web. Questo file contiene un elenco di tutti gli url della nostra pagina web e anche informazioni riguardanti le immagini contenute nelle pagine.

Il file è scritto in XML, ovvero con un linguaggio di markup che offre caratteristiche organizzative , i dati relativi agli url sono racchiusi tra tag ordinati secondo uno schema gerarchico. Penso che si possa affermare che tra i linguaggi di markup, XML è uno dei più usati nei più svariati campi. Qualche esempio e manuale. w3schools

IL CRAWLER E LA SITEMAP

Questo file viene letto dai crawler ovvero da quei sistemi automatizzati incaricati di sfogliare i siti web per leggerne i contenuti per conto dei motori di ricerca, al fine di renderli disponibili per gli indici. Ovviamente avendo a disposizione una mappa, il crawler sarà in grado di muoversi più agilmente e di trovare pagine che magari non sono linkate attraverso i comuni elementi di navigazione.

Per accelerare le procedure di inserimento negli indici Google, è buona pratica testare e comunicare preventivamente la sitemap attraverso lo strumento messo a disposizione per i web master: Google Search Console.

Screenshot di search console, stato della sitemap

GENERARE UNA SITEMAP

La generazione della sitemap può risultare di estrema facilità nel caso di piccoli siti web senza parti dinamiche, contenendo un elenco di pagine statiche ben definite e non avendo la necessità di mutare nel tempo. Ma non sempre le esigenze rendono la vita così semplice.

Esistono diversi Free Tools in grado di generare la sitemap tramite Scraping, ovvero simulando una vera e propria navigazione del sito e seguendo tutti i link interni incontrati durante la scansione ( definizione davvero riduttiva del termine scraping, ma per adesso ci basta ), alcuni di questii Tools sono online e si limitano alla generazione della sitemap, altri sono veri crawler dotati di GUI di gestione in grado di fornire moltitudini di informazioni oltre a generare la sitemap. Generalmente le versioni Free, sono limitate a 500 pagine e non offrono tutte le funzioni necessarie per le soluzioni più complesse.
Vediamone Qualcuno:

GENERATORI DI SITEMAP

  • www.xml-sitemaps.com - Tool Online. La sitemap gratuita è limitata a 500 elementi e include solo gli url, mentre la versione a pagamento ha limit ben più alti e genera sitemap specifiche anche per immagini e video.
  • ScreamingFrog - Un vero e proprio Crawler in grado di generare la sitemap e di fornire un numero incredibile di informazioni vitali sull’intero sito mettendo a nudo svariate imperfezioni altrimenti difficili da scovare. Aiuta a fare un buon Fine Tuning
  • Chrome Web Scraper Extension – Un estensione di Chrome aggiunge funzioni di Scraping agli strumenti per sviluppatori del browser.

Esistono moltissimi di questi tools , ma a un certo punto potremmo trovarci ad avere esigenze più complesse.

SITEMAP AVAZATE

Ci sono dei fattori da tenere in considerazione quando il numero di contenuti e/o la complessità del nostro sito web cresce oltre certi limiti.

  • In genere i siti web non sono statici, si cerca difatti di integrare continuamente nuovi articoli, prodotti, news, offerte e qualunque altra cosa che tenga in vita il sito e che direttamente o indirettamente generi nuove pagine dinamiche e quindi nuovi url. Questo significa che la sitemap deve essere aggiornata ogni volta che la struttura del sito cambia e quindi serve un processo automatizzato che esegua per noi queste funzioni e che possa scrivere direttamente sul file XML.
  • Le sitemap hanno dei limiti di elementi inseribili in una sitemap che non devono essere più di 50000 e dal filesize che non deve superare i 10 MB ( ho preso come fonte per i due dati una discussione google). Nel caso in cui i nostri elementi fossero di più, si renderebbe necessaria la creazione di una sitemap indice che includa i nomi delle sitemap più piccole.
  • Se il sito è multilingua anche dal punto di vista delle SEO, avremo differenti url per le diverse lingue e di conseguenza avremmo diverse sitemap, una per ogni lingua
  • Potremmo dover integrare una o più sitemap speciali: una Geo Sitemap, contentente informazioni da far uscire su google map, una sitemap dei video presenti con tag specifici aggiuntivi per i dettagli dei video, o una news sitemap se siete iscritti al programma google news.

Credo di dare un buon consiglio, dicendovi che quando un sistema ricade in uno dei casi sopra, si renda necessaria la presenza di uno script server side, automatizzato tramite crontab.

Certamente questo richiede delle skill leggermente superiori rispetto a quelle necessarie per l'utilizzo di un tool automatico ma se il sistema è di un certo livello, è richiesta una competenza adeguata. Possiamo certamente individuare due strade diverse per generare la sitemap server-side:

  • Auto scraping - dal server ci si connette verso lo stesso vhost e si scandaglia il proprio sito secondo il proprio set di regole personalizzate.
  • Estrazione dal database - lo script interroga diretamente il database o l'ORM per avere una visione chiara degli elementi e li ordina scrivendoli nei file xml

 

CONSIDERAZIONI

Al contrario di quello che si può pensare, la sitemap non è un elemento sempre indispensabile, Se i link del vostro sito web sono ben esposti, prima o poi il crawler ci arriverà, ma la sitemap può fare la differenza tra 'prima' e 'poi', e oggi giorno per raggiungere il successo, bisogna essere tempestivi ! la sua utilità cresce quando il sito è di grandi dimensioni, quando il sito è nuovo e non ci sono ancora backlink o quando ci sono contenuti non bene esposti tramite link ed elementi di navigazione. Comunque in ogni caso averla e averla fatta bene, non fa mai male ! uno dei tanti sassolini utili per l'indicizzazione e magari anche per il posizionamento.

Data pubblicazione: 03-February-18 / Ultima modifica: 09-March-18

Ti è piaciuto l'articolo? Condividilo!
Commenti
  • Gianlu

    "Bella guida, ottima per iniziare a capire il mondo dell'indicizzazione, una domanda, è possibile caricare "lo script server side" su un hosting tipo aruba?"

    Lascia un commento

    • cromoq@gmail.com

      "Si, gli hosting aruba dispongono di crontab: uno scheudler, in grado di far girare script temporizzati !"

Accedi o registrati per lasciare un commento.

Link Sponsorizzato