Download i dati della direttorio Curlie
Curlie.org è la più grande e la più esauriente directory del Web curata da uomini. La nostra direttorio, gestita dalla comunità, è curata da editori appassionati e contiene solo siti web di alta qualità e non spam.
Ogni sito web è inserito in una o più categorie e le categorie stesse sono organizzate ad albero per coprire tutti gli argomenti che interessano all'umanità. Di conseguenza, Curlie è composto da ben 2,9 milioni di voci ben strutturate!
È possibile scaricare i dati della direttorio Curlie con una licenza Open Source. Utilizzateli i dati per costruire la vostra direttorio web di nicchia priva di spam, il vostro motore di ricerca o il vostro esperto di intelligenza artificiale!
Download i dati della direttorio Curlie
Partner
Per realizzare il download della direttorio Curlie, abbiamo collaborato con Leibniz Supercomputing Centre (LRZ) e OpenWebSearch.eu.
Licenza
La licenza Open Source e le condizioni di attribuzione per il download dei dati della direttorio Curlie sono dettagliate nella pagina licenza.
Dati nel download
Il download contiene la gerarchia delle categorie, le categorie e i siti web. Per i siti web sono presenti l'URL, il titolo e la descrizione editoriale. Per ogni categoria, ci sono il titolo, la descrizione e la posizione nell'albero delle categorie. 45.000 categorie (città, per esempio) hanno anche le coordinate geografiche.
Formato del file
L'archivio da scaricare è compresso in tar/gzip, usare uno strumento come tar o 7zip per decomprimere.
Il formato del file (codifica di caratteri UTF8) è semplicemente valori separati da tabulazioni (TSV, una variante di CSV). Per familiarizzare con i dati, è possibile visualizzare i file con un editor di testo ed è facile caricarli nelle colonne di un foglio di calcolo. La corrispondenza tra le voci del sito web (file *-c.tsv) e le categorie (file *-s.tsv) avviene tramite ID.
Per maggiori dettagli sul formato dei file, consultare il file Readme incluso nel download.