Utilize este identificador para referenciar este registo: http://hdl.handle.net/20.500.11960/2031
Título: Extração e análise multidimensional de dados de atletismo a partir de dados não estruturados
Autores: Cruz, Estrela Ferreira
Lima, Rui José da Rocha
Palavras-chave: Data warehouse
Data mining
Business intelligence
Web scraping
Data: 25-Mai-2018
Resumo: Este projeto propõe o design e implementação de um armazém de dados (DW) composto por resultados de atletismo a nível distrital e nacional, a partir de tabelas criadas inicialmente para interpretação humana. O projeto propõe também um mecanismo de integração entre os dados sobre as marcas obtidas em provas de atletismo com a sua localização geográfica (altitude incluída) e as condições atmosféricas em que as provas foram realizadas. Os ficheiros de onde os dados sobre os resultados das provas são originários encontram-se em múltiplos formatos (.xls, .txt, .doc) mas o predominante é “.pdf”. Os ficheiros estão distribuídos por 20 distritos mais os resultados ao nível nacional. Este trabalho de investigação está dividido em duas grandes partes. Uma parte envolve o desenvolvimento do protótipo de um módulo Python, chamado de PositionParser, que servirá de Framework para a identificação e extração dos valores dos campos do texto. O processo de análise do texto envolve a sua “tokenização”, marcação e visualização dos dados “tokenizados”, segmentação e definição da ordem de leitura, extração e definição da hierarquia dos dados. Outra parte envolve todo o processo de análise de dados: o Web scraping dos documentos com os resultados das competições, a conversão de todos os documentos para o formato PDF e posteriormente para ficheiros de texto, a extração de dados das tabelas não formatadas dos ficheiros de texto recorrendo ao protótipo criado e a limpeza, uniformização e armazenamento dos dados num DW.
This project proposes the design and implementation of a data warehouse (DW) composed by athletic results at a national and district level, from data tables initially crated for human interpretation. The project also proposes an integrating mechanism between athletic records with their geographic location (altitude included) and atmospheric conditions of the competitions. The original files, about competition results, come in multiple formats (.xls, .txt, .doc) but the predominant one is “.pdf”. The files are spread across the 20 Portuguese districts plus results at a national level. This research work is divided in two main parts. One part involves developing a Python prototype module, called PositionParser that can serve has a framework for identification and extraction of field values from text. The parsing process involves tokenizing the text, visualizing tokenized data, segmentation and definition of the reading order, extracting data and definition of the data hierarchy. The other part involves the whole data analysis process: web scraping of the documents with the competition results, conversion of all documents into PDF format and subsequently into plain text files, extraction of the data from the unformatted tables in the resulting text files with the help of the prototype, cleansing, standardization and storage of the information into a DW.
Descrição: Mestrado em Engenharia do Software na Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Viana do Castelo
URI: http://hdl.handle.net/20.500.11960/2031
Aparece nas colecções:ESTG - Dissertações de mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Rui_Lima.pdf8.07 MBAdobe PDFVer/Abrir


Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.