Curlie

Télécharger les données du répertoire Curlie

Curlie.org est le plus grand répertoire du web dans le monde, édité par des humains. Notre répertoire est géré par une communauté de éditeurs passionnés et ne contient que des sites web de haute qualité - pas de spammeurs.

Chaque site web est classé dans une ou plusieurs catégories, et les catégories elles-mêmes sont organisées sous forme d'une hiérarchie d'arbre pour couvrir tous les sujets qui intéressent l'humanité. En conséquence, Curlie comprend 2,9 millions d'entrées bien structurées !

Vous pouvez télécharger les données du répertoire Curlie sous une licence Open Source. Utilisez les donnés par exemple pour créer votre propre annuaire, moteur de recherche ou intelligence artificielle sans spam !

Télécharger les donnés du répertoire Curlie

Partenaires

Pour réaliser le téléchargement de l'annuaire Curlie, nous avons trouvés deux partenaires:

Leibniz Supercomputing Centre (LRZ). Le fournisseur de services informatiques scientifiques à Munich, pour l'Allemagne et l'Europe, hébergera le téléchargement sur ses superordinateurs super-connectés.

OpenWebSearch.eu travaille à la réalisation d'un index ouvert du web, qui contient déjà 1,3 milliard d'entrées de sites web. "Nous poursuivrons un accès à information libre, impartial et transparent. En travaillant ensemble, nous faisons un grand pas vers une plus grande transparence et une plus grande démocratie des données sur le World Wide Web", explique Michael Granitzer, chef de projet. Les descriptions éditoriales des sites web fourni par Curlie.org sont déjà intégrées dans l'index d'OpenWebSearch.eu.

Philosophie du téléchargement

Mais pourquoi Curlie propose t'il le téléchargement gratuit d'une base de données aussi unique ? La communauté Curlie, dont la lignée remonte à l'Open Directory Project et à DMOZ, est ancrée dans le mouvement code source ouvert (Open Source). Nous voulons rendre l'information plus accessible à tous ! Et nous sommes convaincus que d'autres projets utilisant les données de notre répertoire trouveront des moyens intéressants de découvrir et d'organiser l'information.

Qualité du répertoire

Nous n'incluons dans l'annuaire Curlie que des sites web de haute qualité qui fournissent des informations utiles. C'est ce que garantissent nos éditeurs bénévoles, spécialisés dans les différentes catégories. C'est l'avantage que nous, les humains, avons sur les modèles de langage des machines de chat : nous pouvons évaluer si un site web est dignes de confiance.

Si les éditeurs - aidés par des robots de détection - constatent qu'un site Web est devenu un spam, il sera rapidement retiré du répertoire.

Licence

Pour savoir exactement sous quelle licence Open Source et sous quelles conditions d'attribution les données de l'annuaire Curlie sont mises à disposition, veuillez consulter la page de licence.

Données dans le téléchargement

Le téléchargement contient la hiérarchie des catégories, les catégories et les sites web. Pour les sites web, il y a l'URL, le titre et la description éditoriale. Pour chaque catégorie, il y a son titre, sa description et sa place dans la hiérarchie des catégories. Quelques 45.000 catégories (des villes, par exemple) portent également des coordonnées géographiques.

Format de fichier

L'archive de téléchargement est compressée en tar/gzip. Utilisez un outil comme tar ou 7zip pour la décompresser.

Le format de fichier (codage de caractères UTF8) est simplement constitué de valeurs séparées par des tabulateurs (TSV, une variante de CSV). Pour vous familiariser avec les données, vous pouvez visualiser les fichiers à l'aide d'un éditeur de texte, et il est simple de les charger dans les colonnes de votre tableur. La correspondance entre les entrées de sites web (fichiers *-c.tsv) et les catégories (fichiers *-s.tsv) se fait par des identifiants. Le chemin complet de catégorie est inclus dans chaque entrée de catégorie, ce qui vous permet de construire la hiérarchie complète.

Par exemple, si vous souhaitez que votre nouveau robot de recherche ne consulte que les sites web de confiance, il vous suffit de lire les URL depuis les fichiers Curlie.

Pour plus de détails sur le format de fichier, consultez le fichier readme inclus dans le téléchargement.

Taille du téléchargement

La taille du fichier de téléchargement qui contient l'ensemble du répertoire est de seulement deux cents mégaoctets ! Ceci est possible grâce à un format de fichier strictement textuel, et à l'utilisation de la compression standard gzip.

Fréquence des mises à jour

Nous voulons extraire une nouvelle copie de la base de données Curlie chaque mois.

Vous pouvez connaître la date du téléchargement actuel en coupant le nom du fichier de l'URL et en regardant le bucket résultat. Le XML contient le champ <LastModified> pour le téléchargement du répertoire.

RDF

Vous verrez le mot RDF dans les noms de fichiers de téléchargement. Il s'agit d'un héritage, car il y a 10 ans, le téléchargement était fourni dans le format de fichier du Resource Description Framework. Aujourd'hui, nous utilisons le format CSV, voir la description du format de fichier.

Contribuer

Contribuer est aussi simple que de soumettre un site web pour inclusion gratuitement. Et si vous êtes passionné par un sujet, envisagez de devenir éditeur. Nous sommes également heureux de recevoir un don pour nous aider à payer les frais d'hébergement du serveur.

Contact

Si vous avez des questions ou des suggestions concernant le téléchargement des données de Curlie, veuillez bien nous contacter à