An architecture to generate classified datasets and improve performance of intrusion detection systems

Teixeira, Diogo Francisco Rodrigues

Please use this identifier to cite or link to this item: http://hdl.handle.net/20.500.11960/2749

Title:	An architecture to generate classified datasets and improve performance of intrusion detection systems
Authors:	Pinto, Pedro Malta, Silvestre Teixeira, Diogo Francisco Rodrigues
Keywords:	Machine learning Supervised learning Classified datasets Voting system Multitasking Distributed Training time IDS Aprendizagem supervisionada Conjuntos de dados Classificação Sistema de votos Multitarefa Sistema distribuído Tempo de treino Sistema de deteção de intrusão
Issue Date:	19-Apr-2022
Abstract:	Nowadays, a set of services are available online with various associated data. It is essential to ensure the availability, integrity and confidentiality of all data. However, cyberattacks are a major threat. In this sense, an Intrusion Detection System (IDS) is an important tool to prevent potential threats to systems and data. It is necessary to implement new mechanisms with intelligence to successfully defend the complexity and intelligence of attacks, that is, to increase their efficiency. Anomaly-based IDSs may deploy machine learning algorithms to classify events either as normal or anomalous and trigger the adequate response. When using supervised learning, these algorithms require classified, rich, and recent datasets. Thus, to foster the performance of these machine learning models, datasets can be generated from different sources in a collaborative approach, and trained with multiple algorithms. This document proposes a vote-based architecture to generate classified datasets and improve performance of supervised learning-based IDSs. In a regular basis, multiple IDSs in different locations (companies) send their logs to a central system that combines and classifies them using different machine learning models and a majority vote system. Then, it generates a new and classified dataset, which is trained to obtain the best updated model to be integrated into the IDS of the companies involved. In this way, intrusion detection systems are frequently updated with the best machine learning model to increase their efficiency. The proposed architecture trains multiple times with several algorithms and, to shorten the overall runtimes, the proposed architecture was deployed in Fed4FIRE+, a federated testbed, with Ray to distribute the tasks by the available resources. This implementation allowed a reduction of the time in the classification between 31% and 33%, and in the training time of 43%. A set of machine learning algorithms and the proposed architecture were assessed. When compared with a baseline scenario, the proposed architecture enabled to increase the accuracy by 11.5% and the precision by 11.2%. Hoje em dia, um conjunto de serviços estão disponíveis em rede com vários dados associados. E essencial garantir a disponibilidade, integridade e confidencialidade de todos os dados. Contudo, os ataques informáticos são uma grande ameaça. Neste sentido, um Sistema de Deteção de Intrusão (IDS) é uma ferramenta importante para prevenir potenciais ameaças a sistemas e dados. E necessário implementar novos mecanismos com inteligência para defender com sucesso a complexidade e inteligência dos ataques, isto é, aumentando a sua eficiência. Os sistemas de deteção de intrusão baseados em anomalias podem implementar algoritmos de machine learning para classificarem eventos como normais ou anómalos e acionar a resposta adequada. Ao utilizar aprendizagem supervisionada, os algoritmos requerem conjuntos de dados (datasets) classificados, enriquecidos e recentes. Assim, para fomentar o desempenho desses modelos de machine learning, conjuntos de dados podem ser criados em tempo real com registos de diferentes origens numa abordagem colaborativa e treinados por vários algoritmos. Este trabalho propõe uma arquitetura baseada num sistema de votação para criar conjuntos de dados classificados e melhorar o desempenho dos sistemas de deteção de intrusão baseados em aprendizagem supervisionada. Em tempo real, vários sistemas de deteção de intrusão em diferentes locais (empresas) enviam os seus registos para um sistema central que os combina e classifica usando diferentes modelos de machine learning e um sistema de votação por maioria. Em seguida, cria um novo conjunto de dados classificados que é treinado para obter o melhor modelo atualizado que será integrado nos sistemas de deteção de intrusão das diferentes empresas envolvidas. Desta forma, os sistemas de deteção de intrusão são frequentemente atualizados com o melhor modelo de machine learning para aumentarem a sua eficiência. A arquitetura proposta treina várias vezes com vários algoritmos e, para diminuir os tempos de execução, a arquitetura proposta foi implementada no Fed4FIRE+ com Ray a gerir a distribuição das tarefas pelos recursos disponíveis. Esta implementação permitiu uma redução do tempo na classificação entre 31% e 33%, e no tempo de traino de 43%. Neste trabalho a arquitetura proposta foi avaliada com vários algoritmos de machine learning. Quando comparada com um cenário de base (um único sistema de deteção de intrusão), a arquitetura proposta aumentou a exatidão em 11.5% e a precisão em 11.2%.
Description:	Mestrado em Cibersegurança na Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Viana do Castelo
URI:	http://hdl.handle.net/20.500.11960/2749
Appears in Collections:	ESTG - Dissertações de mestrado

Files in This Item:

File	Description	Size	Format
Diogo_Teixeira.pdf		1.07 MB	Adobe PDF	View/Open

Show full item record