Deteção de e-mails phishing aplicando machine learning ao conteúdo

Saraiva, Marco António Carvalhosa

Please use this identifier to cite or link to this item: http://hdl.handle.net/20.500.11960/2840

Title:	Deteção de e-mails phishing aplicando machine learning ao conteúdo
Authors:	Magalhães, João Malta, Silvestre Saraiva, Marco António Carvalhosa
Keywords:	Phishing Machine learning Dataset E-mails
Issue Date:	6-Oct-2022
Abstract:	A engenharia social é um conceito no qual é aplicado a manipulação psicológica para levar a vítima a executar ações em prol do ator malicioso. Uma das formas mais comuns de praticar atos de engenharia social é o phishing. No mundo cibernético, o phishing é usado para manipular os utilizadores para a prática de extorsão e roubo de dados sensíveis. Esta prática é cada vez mais usada, o que torna preocupante e alarmante a forma de como é possível ser alvo deste ataque. Relatórios na área revelam que os utilizadores estão constantemente a ser alvo de e-mails que fingem ser legítimos, mas que na verdade estão a ser vítimas de um ataque phishing. O número de sites e de campanhas de e-mail de phishing continua a crescer ano após ano, sendo que, e a título de exemplo, no ano de 2021, os ataques phishing cresceram 200% devido ao aproveitamento da pandemia Covid-19 com campanhas de vacinas e tratamento para o vírus. Existe uma grande preocupação da comunidade académica e da indústria em mitigar o problema porém os desafios são muitos. Tal deve-se em certa medida ao fato de que parte da solução passa pelo ser humano, desenvolvendo a capacidade do mesmo ter consciência e tomar decisões corretas para evitar que o ataque seja bem-sucedido. Endereçar um problema como o do phishing requer ações ao nível pessoas, procedimental e tecnológico (PPT). O lado humano tem sido alvo de constantes ações de treino e consciencialização, mas mesmo assim o fenómeno não para de crescer. Neste trabalho propomos uma solução tecnológica para reforçar a capacidade de mitigar ataques de phishing, ou seja, criar uma linha de defesa para que o utilizador final não tenha de lidar com e-mails phishing no dia a dia, de forma a evitar o erro humano e assim criar possíveis estragos e prejuízos. A proposta apresentada envolve a criação de um dataset a partir de e-mails previamente classificados como sendo de phishing e não phishing. Para a criação do dataset foram considerados aspetos linguísticos do próprio e-mail. Para tal foi aplicada uma técnica de extração de informação automatizada, denominada de Named-entity Recognition (NER). Esta técnica retira do corpo do e-mail características que formam o conjunto de dados. O conjunto de dados resultado foi analisado, tratado e submetido a algoritmos de ML, mais propriamente a algoritmos de classificação A análise de resultados permite concluir que, através deste método é possível determinar se um e-mail é de phishing e ou com uma taxa de acerto de 91.13%. Foi ainda possível concluir que a escolha das features para a fase de treino dos modelos de ML tem um papel preponderante para maximizar a taxa de acerto. Salienta-se que a proposta aqui apresentada para determinar se um e-mail é de phishing ou não poderá de forma simples ser integrada com outras soluções, melhorando assim a capacidade de detetar e evitar este tipo de ataques. Social engineering is a concept in which psychological manipulation is applied to get the victim to perform actions on behalf of the malicious actor. One of the most common forms of social engineering is phishing. In the cyber world, phishing is used to manipulate users into extortion and theft of sensitive data. This practice is increasingly used, which makes it worrying and alarming how it is possible to be the target of this attack. Reports in the area reveal that users are constantly being targeted by e-mails that pretend to be legitimate, but are actually victims of a phishing attack. The number of phishing websites and e-mail campaigns continues to grow year after year, and in 2021, phishing attacks grew by 200% due to to take advantage of the Covid-19 pandemic with campaigns for vaccines and treatment for the virus. There is great concern from the academic community and the industry to mitigate the problem, but the challenges are many. To a certain extent, this is due to the fact that part of the solution involves human beings, developing their ability to be aware and make correct decisions to prevent the attack from being successful. Addressing a problem like phishing requires people, procedural, and technology (PPT) action. The human side has been the target of constant training and awareness actions, but even so the phenomenon continues to grow. In this work we propose a technological solution to reinforce the ability to mitigate phishing attacks, that is, to create a line of defense so that the end user does not have to deal with e-mails phishing on a daily basis, in order to avoid human error and create possible damage and losses.. The proposal presented involves the creation of a dataset from e-mails previously classified as phishing and not phishing. To create the dataset, linguistic aspects of the e-mail itself were considered. For this, an automated information extraction technique, called Named-entity Recognition (NER) was applied. This technique removes the characteristics that form the data set from the body of the e-mail. The resulting dataset was analyzed, treated and submitted to Machine Learning (ML) algorithms, more specifically to classification algorithms. The analysis of results allows us to conclude that, through this method, it is possible to determine if an e-mail is from phishing and or with a hit rate of 91.13%. It was also possible to conclude that the choice of features for the training phase of ML models has a preponderant role in maximizing the hit rate. It should be noted that the proposal presented here to determine whether an e-mail is from phishing or not can simply be integrated with other solutions, thus improving the ability to detect and prevent this type of attack.
Description:	Mestrado em Cibersegurança na Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Viana do Castelo
URI:	http://hdl.handle.net/20.500.11960/2840
Appears in Collections:	ESTG - Dissertações de mestrado

Files in This Item:

File	Description	Size	Format
Marco_Saraiva.pdf		882.8 kB	Adobe PDF	View/Open
Datasetfinal.csv		1.68 MB	Unknown	View/Open

Show full item record