|
|
|
 |
|
Rimozione di un sito Web con il file robots.txt
Rimozione di un sito Web utilizzando il file robots.txt
Rimozione di un sito Web
Per effettuare la rimozione completa di un sito web dall'indice dei motori di ricerca, puoi inserire nella directory principale del server il file robots.txt. Questo file è il protocollo standard adottato dalla maggior parte dei crawler web per escludere da un indice un server web o una directory.
Per rimuovere il sito dai motori di ricerca e impedire che tutti i robot ne eseguano la scansione in futuro, inserisci il seguente file robots.txt nella directory principale del server:
User-agent: *
Disallow: /
Per rimuovere il sito solo da un motore, per esempio Google, e impedire che solo Googlebot ne esegua la scansione in futuro, inserisci il seguente file robots.txt nella directory principale del server:
User-agent: Googlebot
Disallow: /
Ciascuna porta deve disporre di un proprio file robots.txt. In particolare, se i contenuti vengono forniti tramite http e https, sarà necessario un file robots.txt diverso per ciascun protocollo. Ad esempio, per consentire a Googlebot di indicizzare tutte le pagine http, ma non le pagine https, utilizza i seguenti file robots.txt:
Per il protocollo http (http://yourserver.com/robots.txt):
User-agent: *
Allow: /
Per il protocollo https (https://yourserver.com/robots.txt):
User-agent: *
Disallow: /
|
|
|