Pobierz dane z katalogu Curlie
Curlie.org jest największym i najpełniejszym katalogiem stron internetowych, stworzonym i zarządzanym przez redaktorów-ochotników. Nasz utrzymywany przez społeczność katalog jest kuratorowany przez pełnych pasji redaktorów i zawiera wyłącznie wysokiej jakości strony internetowe niebędące spamem.
Każda strona jest umieszczona w jednej lub więcej kategorii, a same kategorie są zorganizowane w formie drzewa, aby objąć wszystkie tematy, na których zależy ludzkości. W rezultacie Curlie składa się z 2,9 miliona dobrze zorganizowanych wpisów!
Dane z katalogu Curlie można pobrać na licencji Open Source. Wykorzystaj te dane na przykład do zbudowania własnego, wolnego od spamu niszowego katalogu internetowego, wyszukiwarki lub eksperta od sztucznej inteligencji!
Partnerzy
Aby umożliwić pobranie katalogu Curlie, nawiązaliśmy współpracę z Centrum Superkomputerowym Leibniz (LRZ) i OpenWebSearch.eu.
Licencja
Licencja Open Source i warunki atrybucji dla pobierania danych z katalogu Curlie są wyszczególnione na stronie licencja strona.
Dane w pliku do pobrania
Plik do pobrania zawiera hierarchię kategorii, kategorie i strony internetowe. Dla stron internetowych znajduje się adres URL, tytuł i opis redakcyjny. Dla każdej kategorii znajduje się jej tytuł, opis i miejsce w drzewie kategorii. 45 000 kategorii (na przykład miasta) ma również współrzędne geograficzne.
Format pliku
Archiwum do pobrania jest skompresowane tar/gzip, użyj narzędzia takiego jak tar lub 7zip, aby je rozpakować.
Format pliku (kodowania UTF8) to po prostu wartości oddzielone tabulatorami (TSV, wariant CSV). Aby zapoznać się z danymi, można wyświetlić pliki za pomocą edytora tekstu i łatwo załadować je do kolumn arkusza kalkulacyjnego. Dopasowywanie wpisów stron internetowych (pliki *-c.tsv) do kategorii (pliki *-s.tsv) odbywa się za pomocą identyfikatorów.
Dowiedz się więcej szczegółów na temat formatu pliku z pliku Readme, który jest dołączony do pobrania.