I motori di ricerca operano per indicizzare contenuti distinti nel tentativo di fornire agli utenti informazioni esclusive, differenziate e rilevanti.

La presenza di più siti o più pagine con lo stesso contenuto porta il motore a scartare i risultati duplicati percependole come copie di un contenuto originale.

In questa operazione, il motore opera per individuare la copia originale.

La copia ritenuta ‘contraffatta’ può essere completamente o parzialmente rimossa dall’indice dei risultati e risultare quindi non presente nei risultati delle ricerche.

Come può Google riconoscere che ho copiato un contenuto

Il come non si può sapere, ma si può supporre che il confronto avvenga durante la scansione del testo, la rilevazione delle metriche fondamentali ed il confronto del sito con altri con metriche simili (esempio, tipo di keywords e numero delle stesse, presenza e posizione delle keywords nel testo, etc.).

Nel fare questo confronto il testo è normalizzato, ossia privato di elementi grafici e di ortografia (esempio di doppi spazi, andate a capo, punteggiatura, etc.) e dei markup (ossia elementi di codice in HTML), degli elementi di navigazione e di disturbo (immagini, banners, css, etc).

Un contenuto originale permette di aumentare il posizionamento ma anche l’autorevolezza del sito e la credibilità verso i visitatori.
Nel caso sia presente del contenuto duplicato, per evitare di venire penalizzati e quindi scomparire dagli indici dei motori di ricerca, occorre implementare una serie di azioni:

  1. Aiutare gli algoritmi a determinare quale sia la versione del documento che si vuole far indicizzare, per esempio, disabilitando le versioni stampabili o usando espressioni regolari nel file robots.txt
  2. Usare i redirect per indirizzare gli utenti verso i contenuti originali
  3. Usare NO FOLLOW o NO INDEX tags sui siti che pubblicano contenuto duplicato
  4. Canonizzare le pagine, indicando il sito o la pagina preferenziale. Per esempio se ci sono due pagine con lo stesso contenuto (www.pagina1.com e www.pagina2.com) basta indicare che la seconda è una copia inserendo nella head di www.pagina2.com il tag rel=canonical