Please use this identifier to cite or link to this item: http://hdl.handle.net/20.500.11960/2031
Title: Extração e análise multidimensional de dados de atletismo a partir de dados não estruturados
Authors: Lima, Rui José da Rocha
Advisor: Cruz, Maria Estrela
Keywords: Data warehouse;Data mining;Business intelligence;Web scraping
Issue Date: 25-May-2018
Abstract: Este projeto propõe o design e implementação de um armazém de dados (DW) composto por resultados de atletismo a nível distrital e nacional, a partir de tabelas criadas inicialmente para interpretação humana. O projeto propõe também um mecanismo de integração entre os dados sobre as marcas obtidas em provas de atletismo com a sua localização geográfica (altitude incluída) e as condições atmosféricas em que as provas foram realizadas. Os ficheiros de onde os dados sobre os resultados das provas são originários encontram-se em múltiplos formatos (.xls, .txt, .doc) mas o predominante é “.pdf”. Os ficheiros estão distribuídos por 20 distritos mais os resultados ao nível nacional. Este trabalho de investigação está dividido em duas grandes partes. Uma parte envolve o desenvolvimento do protótipo de um módulo Python, chamado de PositionParser, que servirá de Framework para a identificação e extração dos valores dos campos do texto. O processo de análise do texto envolve a sua “tokenização”, marcação e visualização dos dados “tokenizados”, segmentação e definição da ordem de leitura, extração e definição da hierarquia dos dados. Outra parte envolve todo o processo de análise de dados: o Web scraping dos documentos com os resultados das competições, a conversão de todos os documentos para o formato PDF e posteriormente para ficheiros de texto, a extração de dados das tabelas não formatadas dos ficheiros de texto recorrendo ao protótipo criado e a limpeza, uniformização e armazenamento dos dados num DW.
This project proposes the design and implementation of a data warehouse (DW) composed by athletic results at a national and district level, from data tables initially crated for human interpretation. The project also proposes an integrating mechanism between athletic records with their geographic location (altitude included) and atmospheric conditions of the competitions. The original files, about competition results, come in multiple formats (.xls, .txt, .doc) but the predominant one is “.pdf”. The files are spread across the 20 Portuguese districts plus results at a national level. This research work is divided in two main parts. One part involves developing a Python prototype module, called PositionParser that can serve has a framework for identification and extraction of field values from text. The parsing process involves tokenizing the text, visualizing tokenized data, segmentation and definition of the reading order, extracting data and definition of the data hierarchy. The other part involves the whole data analysis process: web scraping of the documents with the competition results, conversion of all documents into PDF format and subsequently into plain text files, extraction of the data from the unformatted tables in the resulting text files with the help of the prototype, cleansing, standardization and storage of the information into a DW.
Description: Mestrado em Engenharia do Software na Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Viana do Castelo
URI: http://hdl.handle.net/20.500.11960/2031
Appears in Collections:CI - Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
Rui_Lima.pdf8.07 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.