Curlie

Das Curlie-Verzeichnis herunterladen

Curlie.org ist das größte von Menschen erstellte Verzeichnis des Internets. Unser von der Community gepflegtes Verzeichnis wird von ehrenamtlichen Editorinnen und Editoren kuratiert und enthält nur inhaltlich gute Webseiten.

Jede Website wird unter einer oder mehreren Kategorien verzeichnet. Die Kategorien selbst sind baumartig organisiert, um alle der Menschheit wichtigen Themen abzudecken. Curlie hat satte 2,9 Millionen gut strukturierten Einträge!

Sie können die Daten des Curlie-Verzeichnisses unter einer Open Source Lizenz herunterladen. Nutzen Sie die Daten beispielsweise, um Ihr eigenes spamfreies Webverzeichnis, eine Suchmaschine oder einen spezialisierten KI-Experten zu erstellen!

Curlie-Verzeichnisdaten herunterladen

Partner

Um den Download des Curlie-Verzeichnisses zu ermöglichen, haben wir uns zwei Institutionen als Partner gesucht:

Leibniz-Rechenzentrum (LRZ). Die öffentlich finanzierte Einrichtung bietet wissenschaftlichen IT-Dienstleistungen für München, Deutschland und Europa. Das LRZ wird den Download über seine Supercomputer-Leitungen zur Verfügung stellen.

OpenWebSearch.eu arbeitet an der Erstellung eines offenen Webindexes, der bereits 1,3 Milliarden Website-Einträge enthält. "Wir wollen einen freien, unvoreingenommenen und transparenten Zugang zu Informationen ermöglichen. Durch unsere Zusammenarbeit machen wir einen großen Schritt zu mehr Datentransparenz und Datendemokratie im World Wide Web", erklärt Projektleiter Michael Granitzer. Die redaktionellen Webseiten-Beschreibungen von Curlie.org sind bereits in den Index von OpenWebSearch.eu integriert.

Download-Philosophie

Sie fragen sich vielleicht, warum Curlie seine einzigartige Datenbank zum kostenlosen Download anbietet? Die Curlie-Gemeinschaft, deren Geschichte bis zum Open Directory Project und DMOZ zurückreicht, hat ihre Wurzeln in der Open-Source-Bewegung. Wir wollen Informationen für alle zugänglicher machen! Und wir glauben, dass andere Projekte, die unsere Verzeichnisdaten nutzen, neue Wege finden werden, um Informationen auffindbar zu machen und zu organisieren.

Qualität der Verzeichnis-Einträge

In das Curlie-Verzeichnis nehmen wir nur qualitativ hochwertige Webseiten auf, die nützliche Informationen bieten. Dafür sorgen unsere erfahrenen und spezialisierten ehrenamtlichen Editorinnen und Editoren in den einzelnen Kategorien. Den Vorteil haben wir Menschen gegenüber KI-Chat-Sprachmodellen: Wir können einschätzen, ob Webseiten vertrauenswürdig sind.

Sollten die Editoren - unterstützt von automatischen Scannern - feststellen, dass eine Website zu Spam geworden ist, wird sie schnell aus dem Verzeichnis entfernt.

Lizenz

Unter welcher Open-Source-Lizenz und zu welchen Bedingungen die Daten des Curlie-Verzeichnisses zur Verfügung gestellt werden, haben wir auf der Lizenz-Seite beschrieben.

Im Download enthaltene Daten

Der Download enthält die Kategorien-Hierarchie, die Kategorien und Webseiten. Für die Webseiten sind jeweils die URL, der Titel und die redaktionelle Beschreibung angegeben. Zu jeder Kategorie gibt es den Titel, die Beschreibung und die Position im Kategorienbaum. 45.000 Kategorien (beispielsweise zu Städten) sind zusätzlich mit geographischen Koordinaten versehen.

Dateiformat

Das heruntergeladene Archiv ist tar/gzip-komprimiert, verwenden Sie ein Tool wie tar oder 7zip, um es zu entpacken.

Das Dateiformat (Zeichensatz UTF8) sind einfach Tabulator-getrennte Werte (TSV, eine Variante von CSV). Um sich mit den Daten vertraut zu machen, können Sie sich die Dateien mit einem einfachen Texteditor ansehen, oder sie als Spalten in Ihr Tabellenkalkulationsprogramm laden. Die Zuordnung von Webseiten-Einträgen (*-c.tsv-Dateien) zu Kategorien (*-s.tsv-Dateien) erfolgt über Identifikationsnummern. Der vollständige Kategoriepfad ist in jedem Kategorieeintrag enthalten, so dass Sie die komplette Hierarchie aufbauen können.

Wenn Sie zum Beispiel möchten, dass Ihr neuer Such-Crawler ausschließlich vertrauenswürdige Websites durchsucht, müssen Sie für ihn nur die URLs aus den Curlie Webseiten-Dateien auslesen.

Weitere Details zum Dateiformat finden Sie in der Readme-Datei, die im Download enthalten ist.

Größe des Downloads

Die Größe der Downloaddatei, die das gesamte Verzeichnis enthält, beträgt nur zweihundert Megabyte! Dies ist möglich, weil wir ein rein textbasierten Dateiformat verwenden und die Daten mit Standard-Gzip komprimieren.

Updates

Wir bemühen uns, jeden Monat eine frische Kopie aus der Curlie-Datenbank zu ziehen.

Das Datum des aktuell zur verfügung stehenden Downloads können Sie feststellen, indem Sie den Dateinamen von der URL abschneiden und sich das zurückgegebene Bucket-Ergebnis ansehen. Das XML enthält auch das Feld <LastModified> für den Verzeichnisdownload.

RDF

Sie werden das Wort RDF in den Dateinamen der Downloads finden. Das ist nur eine alte Namensgebung, denn vor 10 Jahren wurde der Download im Dateiformat Resource Description Framework bereitgestellt. Heutzutage verwenden wir CSV, siehe die Beschreibung des Dateiformats.

Mitmachen

Einfach mal eine Webseite zur Aufnahme einreichen - kostenlos. Und wenn Sie sich für ein bestimmtes Thema begeistern, können Sie auch Editor werden. Wir freuen uns auch immer über eine Spende - für das Server-Hosting fallen bei uns jeden Monat Kosten an.

Kontakt

Wenn Sie Fragen oder Ideen zum Verzeichnis-Download haben, erreichen Sie uns gerne unter