Skip to content

Latest commit

 

History

History

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 
 
 
 
 

README.md

Projeto "Olympics Dataset"

Equipe "Liga Olímpica" - AJJLO

  • Áureo Henrique e Silva Marques - 213374
  • José Alexandre dos Santos Barros - 176566
  • Lindon Jonathan Sanley dos Santos Pereira Monroe - 220407

Resumo do Projeto

Este projeto tem como objetivo a construção de um banco de dados cujo tema é o histórico dos Jogos Olímpicos nos últimos anos.

Os Jogos Olímpicos, ou Olimpíadas, são o maior evento esportivo do mundo e, de 4 em 4 anos, reúnem milhares de atletas de vários países. Embora suas origens sejam da Grécia Antiga, as primeiras Olimpíadas ocorreram oficialmente em 1896, organizadas pelo Comitê Olímpico Internacional (COI) e, portanto, desse ano até hoje, tratam-se de mais de 30 edições dos jogos olímpicos.

Essa grande quantidade de jogos resulta em uma grande quantidade de informações sobre os atletas, os países participantes, os países sede, as medalhas, os esportes, os vencedores de cada modalidade, entre outros. No entanto, encontrar um banco de dados com todas essas informações de forma centralizada e bem organizada é difícil, pois os dados disponíveis hoje na internet, em geral, são bancos de dados de algum ano específico das Olimpíadas ou bancos que abordam sobre várias Olimpíadas, mas que não possuem um modelo lógico bem estruturado, dificultando certos tipos de análise.

Com isso, o objetivo desse projeto é, através dos diversos bancos de dados existentes e através de pesquisas na internet, construir um dataset sobre os Jogos Olímpicos dos últimos anos que seja organizado e bem estruturado, permitindo diversos tipos de análises sobre o tema. Devido a possíveis limitações relacionadas ao grande número de edições dos Jogos, ainda vamos decidir exatamente quantos anos o dataset irá abordar, mas, inicialmente, pensamos em reunir os dados de, pelo menos, todos os jogos realizados no século XXI.

Slides da Apresentação

Link para slides

Modelo Conceitual Preliminar

Coloque aqui a imagem do modelo conceitual preliminar em ER ou UML, como o exemplo a seguir: ER Taxi

Modelos Lógicos Preliminares

Coloque aqui os primeiros modelos lógicos dos bancos de dados relacionados aos modelos conceituais. Para o modelo relacional, sugere-se o formato a seguir. Para outros modelos lógicos o formato é livre, pode ser adotado aqueles apresentados em sala.

Exemplo de modelo lógico relacional

PESSOA(_Código_, Nome, Telefone)
ARMÁRIO(_Código_, Tamanho, Ocupante)
  Ocupante chave estrangeira -> PESSOA(Código)

Para o modelo de grafos de propriedades, utilize este modelo de base para construir o seu. Coloque a imagem do PNG do seu modelo lógico como ilustrado abaixo (a imagem estará na pasta image):

Modelo Lógico de Grafos

Para o modelo de grafos de conhecimento, utilize a abordagem (recurso, propriedade, valor) para apresentar seu grafo exemplo. Coloque a imagem do PNG do seu modelo lógico como ilustrado abaixo (a imagem estará na pasta `image).

Você pode usar um grafo ilustrando as classes, como este: Modelo Lógico de Grafos de Conhecimento

Além de outro com exemplo de instâncias, como este: Modelo Lógico de Grafos

Para modelos hierárquicos (XML e JSON), utilize um formato conforme o abaixo:

Modelo Lógico Hierárquico

Dataset Preliminar a ser Publicado

Elencar os arquivos/bases preliminares dos datasets serão publicados publicados.

título do arquivo/base link breve descrição
<título do arquivo/base> <link para arquivo/base> <breve descrição do arquivo/base>

Os arquivos finais do dataset publicado devem ser colocados na pasta data, em subpasta processed. Outros arquivos serão colocados em subpastas conforme seu papel (externo, interim, raw). A diferença entre externo e raw é que o raw é em formato não adaptado para uso. A pasta raw é opcional, pois pode ser substituída pelo link para a base original da seção anterior. Coloque arquivos que não estejam disponíveis online e sejam acessados pelo notebook. Relacionais (usualmente CSV), XML, JSON e CSV ou triplas para grafos.

Bases de Dados

Elencar as bases de dados fonte utilizadas no projeto.

título da base link breve descrição
<título da base> <link para a página da base> <breve descrição da base>

Operações realizadas para a construção do dataset

Coloque um link para o arquivo do notebook, programas ou workflows que executam as operações de construção do dataset:

  • extração de dados de fontes não estruturadas como, por exemplo, páginas Web
  • agregação de dados fragmentados obtidos a partir de API
  • integração de dados de múltiplas fontes
  • tratamento de dados
  • transformação de dados para facilitar análise e pesquisa

Se for notebook, ele estará dentro da pasta notebook. Se por alguma razão o código não for executável no Jupyter, coloque na pasta src. Se as operações envolverem queries executadas atraves de uma interface de um SGBD não executável no Jupyter, como o Cypher, apresente na forma de markdown.

Perguntas de Pesquisa/Análise Combinadas e Respectivas Análises

Liste aqui as perguntas de pesquisa/análise e respectivas análises. Nem todas as perguntas precisam de queries que as implementam. É possível haver perguntas em que a solução é apenas descrita para demonstrar o potencial da base.

Pergunta/Análise 1

  • Pergunta 1

    • Explicação sucinta da análise que será feita ou conjunto de queries que responde à pergunta.

Pergunta/Análise 2

  • Pergunta 2

    • Explicação sucinta da análise que será feita ou conjunto de queries que responde à pergunta.

Pergunta/Análise 3

  • Pergunta 3

    • Explicação sucinta da análise que será feita ou conjunto de queries que responde à pergunta.

Coloque um link para o arquivo do notebook que executa o conjunto de queries. Ele estará dentro da pasta notebook. Se por alguma razão o código não for executável no Jupyter, coloque na pasta src. Se as queries forem executadas atraves de uma interface de um SGBD não executável no Jupyter, como o Cypher, apresente na forma de markdown.