Descargar datos del directorio Curlie
Curlie es el directorio editado por personas más extenso y más completo de Internet. Nuestro directorio, mantenido por la comunidad, está comisariado por editores apasionados y sólo contiene sitios web de alta calidad y no spam.
Cada sitio web se clasifica en una o varias categorías, y las propias categorías se organizan en forma de árbol para abarcar todos los temas que interesan a la humanidad. Como resultado, Curlie cuenta con la friolera de 2,9 millones de entradas bien estructuradas.
Puede descargar los datos del directorio Curlie bajo una licencia de código abierto. Úsalo para construir tu propio directorio web de nicho libre de spam, motor de búsqueda o experto en inteligencia artificial!
Descargar datos del directorio Curlie
Socios
Para realizar la descarga del directorio Curlie, nos hemos asociado con Leibniz Supercomputing Centre (LRZ) y OpenWebSearch.eu.
Licencia
La licencia de código abierto y las condiciones de atribución para la descarga de datos del directorio Curlie se detallan en la página de licencia.
Datos en la descarga
La descarga contiene la jerarquía de categorías, categorías y sitios web. Para los sitios web, están la URL, el título y la descripción editorial. Para cada categoría, hay su título, descripción y lugar en el árbol de categorías. 45.000 categorías (ciudades, por ejemplo) también tienen coordenadas geográficas.
Formato de archivo
El archivo de descarga está comprimido con tar/gzip, utilice una herramienta como tar o 7zip para descomprimirlo.
El formato del archivo (conjunto de caracteres UTF8) es simplemente valores separados por tabulaciones (TSV, una variante de CSV). Para familiarizarse con los datos, puede ver los archivos con un editor de texto, y es fácil cargarlos en columnas de su programa de hoja de cálculo. La correspondencia de entradas de sitios web (archivos *-c.tsv) con categorías (archivos *-s.tsv) se realiza mediante IDs.
Obtenga más información sobre el formato de archivo en el fichero Readme que se incluye en la descarga.