Cos’è un indice
Prima di parlare di indicizzazione SEO vediamo cosa sia un indice. Un “ indice ” è generalmente un elenco ordinato, anche un registro, in un’opera di consultazione (es. lessico, elenchi telefonici, ecc..). Il cosiddetto “ Google Index ” è l’insieme di tutti i siti web riconosciuti, cioè scansionati, e archiviati (= indicizzati) da Google. Le SERP sono riempite esclusivamente con pagine dell’indice – una pagina che non è nell’indice non sarà nemmeno nelle SERP.
L’indice di Google non è statico, come in un lessico, ma altamente dinamico. Vengono aggiunti nuovi siti Web, alcuni vengono rimossi. Le nuove pagine vengono registrate dai crawler che saltano da un collegamento all’altro. Se un sito web viola massicciamente le linee guida di Google, un sito web viene rimosso dall’indice e quindi dalle SERP.
Inoltre, l’indice di Google ha una struttura complessa. Ciò significa che non è solo strutturato in ordine alfabetico, ma vengono posizionati vari criteri di classificazione sull’indice al fine di fornire un determinato insieme di siti Web in un determinato ordine per una query di ricerca. Ciò accade anche in modo dinamico, poiché i siti Web e i criteri di classificazione cambiano costantemente. Come funziona esattamente è il segreto di indicizzazione SEO.
Questo vale anche per tutti gli altri motori di ricerca . Spesso il termine “indicizzato” viene utilizzato per “indicizzato” in Internet, ma questo non è corretto.
Come fa Google a indicizzare un sito web
Google arricchisce il suo indice con l’aiuto dei crawler (chiamati anche bot). Un crawler salta da un collegamento all’altro e successivamente si imbatte in siti Web collegati. Ogni nuovo sito web viene sottoposto a scansione, ovvero il codice sorgente viene letto e inviato all’indice. Lì la pagina è ordinata in base a vari fattori di ranking e altre regole. Se vuoi che il tuo sito web venga indicizzato in questo modo, devi assicurarti che ottenga un link da un altro sito web. Quindi un crawler deve fermarsi sul sito Web straniero e scoprire il collegamento al nostro sito. Questa possibilità di indicizzazione è piuttosto noiosa e insicura.
Come indicizzare un sito web
Per poter indicizzare attivamente il tuo sito, puoi “inviare” il tuo sito web direttamente a Google. Ci sono tre modi per farlo:
a) All’indirizzo http://www.google.de/addurl/ è possibile presentare una domanda per l’indicizzazione di un sito web. Tuttavia, la corretta trasmissione dei dati non è garanzia di inclusione. È inoltre necessario disporre di un account Google per accedere a questo servizio. Se hai già un account Google, ha più senso utilizzare un’altra opzione:
b) Negli Strumenti per i Webmaster (chiamati anche “Search Console“), puoi inviare una mappa del sito direttamente a Google.
Una mappa del sito può essere creata abbastanza facilmente in formato .xml , ci sono molti servizi gratuiti su Internet per questo. Questo file .xml viene aggiunto negli Strumenti per i Webmaster in “Sitemap”.
Dopo un po’, di solito entro le 24 ore successive, Google eseguirà la scansione degli URL forniti nella mappa del sito. L’avanzamento dell’indicizzazione può essere seguito negli Strumenti per i Webmaster sotto “Sitemap“.
c) Se desideri indicizzare una singola pagina, ad esempio perché è stata aggiunta dopo la creazione della Sitemap, hai la possibilità di aggiungere un singolo URL all’indice negli Strumenti per i Webmaster in “Scansione” → “Recupero come da Google” inviare.
In realtà, questa opzione serve per verificare se il crawler può vedere e comprendere tutte le risorse su una pagina (Java Script, ecc.). Ma dopo aver inviato l’URL, Google offre la possibilità di inviare l’URL “all’indice”. Tuttavia, questo invia all’indice solo l’URL e tutte le pagine del dominio collegate a questo URL. Ogni account ha una quota mensile di 10 URL che possono essere inviati all’indice.
Come non far indicizzare un sito o una pagina web
Ci possono essere diversi motivi per cui un webmaster vuole impedire che la sua pagina appaia nelle SERP e quindi sia disponibile nell’indice di Google.
- La pagina non è ancora pronta o è in fase di rilancio e non dovrebbe essere trovata fino al completamento.
- Ci sono motivi per il copyright o la protezione dei dati per non rendere la pagina disponibile pubblicamente.
- A volte un webmaster non vuole rendere pubbliche le singole sottopagine, ad esempio l’accesso amministratore o le pagine inferiori.
- Il sito web è destinato esclusivamente all’uso privato.
Esistono diversi modi per prevenire l’indicizzazione
a) Meta tag “noindex“
Il meta tag “noindex” viene utilizzato per indicare al crawler di non indicizzare la pagina:
Mentre la maggior parte dei crawler dei motori di ricerca vi aderisce, il tag noindex è solo una direttiva.
b) Blocca i crawler con robots.txt
Nel robots.txt aggiungi il seguente codice per bloccare tutte le pagine di un dominio per tutti gli accessi:
Agente utente: *
Non consentire: /
Se vuoi solo escludere singole sottocartelle, il tutto assomiglia a questo:
Agente utente: *
Non consentire: / sottocartella1
Non consentire: / sottocartella2 / sottocartella /
c) Escludere i crawler tramite .htaccess
Con .htaccess puoi impostare la protezione con password per l’intero sito web o per singole aree della pagina. Questa opzione è consigliata anche da Google: Blocca URL tramite directory server protette da password ( https://support.google.com/webmasters/answer/93708?hl=it )