Curlie

Download dados do diretório Curlie

Curlie.org é o mais amplo e abrangente diretório da web editado por humanos. O nosso diretório, mantido pela comunidade, é curado por editores apaixonados e contém apenas sites de alta qualidade e não-spam.

Cada sítio web é colocado numa ou mais categorias, e as próprias categorias são organizadas em forma de árvore para cobrir todos os tópicos que interessam à humanidade. Consequentemente, o Curlie é composto por uns impressionantes 2,9 milhões de entradas bem estruturadas!

Pode descarregar os dados do diretório Curlie ao abrigo de uma licença Open Source. Utilize os dados, por exemplo, para construir o seu próprio diretório de nicho sem spam, motor de busca ou especialista em inteligência artificial!

Download dados do diretório Curlie

Parceiros

Para fazer o download do diretório Curlie, fizemos uma parceria com Leibniz Supercomputing Centre (LRZ) e OpenWebSearch.eu.

Licença

A licença Open Source e as condições de atribuição para o download dos dados do diretório Curlie estão detalhadas na página licença.

Dados na Download

A download contém a hierarquia das categorias, as categorias e os sítios Web. Para os sítios Web, há o URL, o título e a descrição editorial. Para cada categoria, há o título, a descrição e a posição na árvore de categorias. 45.000 categorias (cidades, por exemplo) também têm coordenadas geográficas.

Formato do ficheiro

O arquivo de download está comprimido em tar/gzip, utilize uma ferramenta como o tar ou o 7zip para o descomprimir.

O formato do ficheiro (codificação UTF8) é simplesmente valores separados por tabulação (TSV, uma variante do CSV). Para se familiarizar com os dados, pode visualizar os ficheiros com um editor de texto, e é fácil carregá-los em colunas do seu programa de folha de cálculo. A correspondência entre entradas de sítios Web (ficheiros *-c.tsv) e categorias (ficheiros *-s.tsv) é efectuada através de IDs.

Saiba mais detalhes sobre o formato no ficheiro Readme que está incluído no download.