An architecture to generate classified datasets and improve performance of intrusion detection systems

Teixeira, Diogo Francisco Rodrigues

Please use this identifier to cite or link to this item: http://hdl.handle.net/20.500.11960/2749

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	Pinto, Pedro	-
dc.contributor.advisor	Malta, Silvestre	-
dc.contributor.author	Teixeira, Diogo Francisco Rodrigues	-
dc.date.accessioned	2022-05-24T18:47:22Z	-
dc.date.available	2022-05-24T18:47:22Z	-
dc.date.issued	2022-04-19	-
dc.identifier.uri	http://hdl.handle.net/20.500.11960/2749	-
dc.description	Mestrado em Cibersegurança na Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Viana do Castelo	pt_PT
dc.description.abstract	Nowadays, a set of services are available online with various associated data. It is essential to ensure the availability, integrity and confidentiality of all data. However, cyberattacks are a major threat. In this sense, an Intrusion Detection System (IDS) is an important tool to prevent potential threats to systems and data. It is necessary to implement new mechanisms with intelligence to successfully defend the complexity and intelligence of attacks, that is, to increase their efficiency. Anomaly-based IDSs may deploy machine learning algorithms to classify events either as normal or anomalous and trigger the adequate response. When using supervised learning, these algorithms require classified, rich, and recent datasets. Thus, to foster the performance of these machine learning models, datasets can be generated from different sources in a collaborative approach, and trained with multiple algorithms. This document proposes a vote-based architecture to generate classified datasets and improve performance of supervised learning-based IDSs. In a regular basis, multiple IDSs in different locations (companies) send their logs to a central system that combines and classifies them using different machine learning models and a majority vote system. Then, it generates a new and classified dataset, which is trained to obtain the best updated model to be integrated into the IDS of the companies involved. In this way, intrusion detection systems are frequently updated with the best machine learning model to increase their efficiency. The proposed architecture trains multiple times with several algorithms and, to shorten the overall runtimes, the proposed architecture was deployed in Fed4FIRE+, a federated testbed, with Ray to distribute the tasks by the available resources. This implementation allowed a reduction of the time in the classification between 31% and 33%, and in the training time of 43%. A set of machine learning algorithms and the proposed architecture were assessed. When compared with a baseline scenario, the proposed architecture enabled to increase the accuracy by 11.5% and the precision by 11.2%.	pt_PT
dc.description.abstract	Hoje em dia, um conjunto de serviços estão disponíveis em rede com vários dados associados. E essencial garantir a disponibilidade, integridade e confidencialidade de todos os dados. Contudo, os ataques informáticos são uma grande ameaça. Neste sentido, um Sistema de Deteção de Intrusão (IDS) é uma ferramenta importante para prevenir potenciais ameaças a sistemas e dados. E necessário implementar novos mecanismos com inteligência para defender com sucesso a complexidade e inteligência dos ataques, isto é, aumentando a sua eficiência. Os sistemas de deteção de intrusão baseados em anomalias podem implementar algoritmos de machine learning para classificarem eventos como normais ou anómalos e acionar a resposta adequada. Ao utilizar aprendizagem supervisionada, os algoritmos requerem conjuntos de dados (datasets) classificados, enriquecidos e recentes. Assim, para fomentar o desempenho desses modelos de machine learning, conjuntos de dados podem ser criados em tempo real com registos de diferentes origens numa abordagem colaborativa e treinados por vários algoritmos. Este trabalho propõe uma arquitetura baseada num sistema de votação para criar conjuntos de dados classificados e melhorar o desempenho dos sistemas de deteção de intrusão baseados em aprendizagem supervisionada. Em tempo real, vários sistemas de deteção de intrusão em diferentes locais (empresas) enviam os seus registos para um sistema central que os combina e classifica usando diferentes modelos de machine learning e um sistema de votação por maioria. Em seguida, cria um novo conjunto de dados classificados que é treinado para obter o melhor modelo atualizado que será integrado nos sistemas de deteção de intrusão das diferentes empresas envolvidas. Desta forma, os sistemas de deteção de intrusão são frequentemente atualizados com o melhor modelo de machine learning para aumentarem a sua eficiência. A arquitetura proposta treina várias vezes com vários algoritmos e, para diminuir os tempos de execução, a arquitetura proposta foi implementada no Fed4FIRE+ com Ray a gerir a distribuição das tarefas pelos recursos disponíveis. Esta implementação permitiu uma redução do tempo na classificação entre 31% e 33%, e no tempo de traino de 43%. Neste trabalho a arquitetura proposta foi avaliada com vários algoritmos de machine learning. Quando comparada com um cenário de base (um único sistema de deteção de intrusão), a arquitetura proposta aumentou a exatidão em 11.5% e a precisão em 11.2%.	-
dc.language.iso	eng	pt_PT
dc.rights	openAccess	pt_PT
dc.subject	Machine learning	pt_PT
dc.subject	Supervised learning	pt_PT
dc.subject	Classified datasets	pt_PT
dc.subject	Voting system	pt_PT
dc.subject	Multitasking	pt_PT
dc.subject	Distributed	pt_PT
dc.subject	Training time	pt_PT
dc.subject	IDS	pt_PT
dc.subject	Aprendizagem supervisionada	-
dc.subject	Conjuntos de dados	-
dc.subject	Classificação	-
dc.subject	Sistema de votos	-
dc.subject	Multitarefa	-
dc.subject	Sistema distribuído	-
dc.subject	Tempo de treino	-
dc.subject	Sistema de deteção de intrusão	-
dc.title	An architecture to generate classified datasets and improve performance of intrusion detection systems	pt_PT
dc.type	masterThesis	pt_PT
thesis.degree.name	Mestrado em Cibersegurança	pt_PT
thesis.degree.level	Mestre	pt_PT
thesis.degree.discipline	Ciência de Computadores e Telecomunicações	pt_PT
dc.identifier.tid	203015169	pt_PT
Appears in Collections:	ESTG - Dissertações de mestrado

Files in This Item:

File	Description	Size	Format
Diogo_Teixeira.pdf		1.07 MB	Adobe PDF	View/Open

Show simple item record