edodo rispetta le volontà dei proprietari dei siti web!
Per questo motivo
edodo analizza il file robots.txt dell’E-commerce che sta scansionando determinando quali parti di tale sito non sono accessibili.
edodo ed altri web crawler seri ed affidabili seguono le istruzioni contenute nel file robots ma è importante segnalare che i comandi contenuti nel file robots non sono regole che i crawler devono seguire, ma sono una linea guida per l'accesso ai siti.
edodo si compone di due crawler, che si presentano ai server come
edodobot ed
edodoimagebot.
edodobot è il crawler che si occupa di scaricare i contenuti html, mentre
edodoimagebot scarica le immagini
Ed esempio per aiutare
edodo o gli altri motori di ricerca a non perdere tempo nella scansione di pagine che non serve indicizzare potete indicare ad esempio
User-agent: *
Disallow: /admin/
In questo modo tutte le pagine dentro la directoy /admin/ verranno saltare.
Se invece desiderate che solo
edodo non scansioni la directoy /admin/ dovrete scrivere
User-agent: edodobot
Disallow: /admin/
Sarebbe inoltre importante indicare la posizione della sitemap.
Sitemap: http://www.example.com/sitemap.xml
Per maggiori informazioni
http://www.robotstxt.org/
Nota:
Molti siti non hanno un file robots, o è incompleto, lasciando l’accesso a directory o percorsi di file inutili alla scansione.
edodo mette una pezza a questa mancanza creando un suo schema di regole robots che gli permettono di ridurre la scansione nell’E-commerce. Attraverso l’accesso alla Console è possibile vedere le regole del proprio file se presente e quelle generate da edodo, che non sono manipolabili dall’utente.