Exame 2021_2022

Grupo 1 - Perguntas Extensas

Questão 1: No desenvolvimento de sistemas de aprendizagem automática (machine learning) podem ser utilizados diferentes paradigmas de aprendizagem. Neste contexto pretende-se que:

a) caracterize os paradigmas de aprendizagem supervisionada, não supervisionada e por reforço;

b) apresente dois exemplos de técnicas de cada paradigma, ilustrando-os com casos de aplicação.

Questão 2: O processo de desenvolvimento de uma solução de aprendizagem automática envolve diversas etapas, que podem diferir de acordo com a metodologia escolhida. Tendo em consideração a metodologia CRISP-DM, pretende-se que enumere e descreva as suas etapas.

Grupo 2 - Espaços em branco

Questão 1

No contexto da utilização de técnicas de aprendizagem automática (machine learning), a adoção de uma metodologia para a extração de conhecimento descreve e cria smth pelos quais deverá passar o desenvolvimento de um projeto de extração de conhecimento para smth.

Questão 2

A metodologia de extração de conhecimento que se desenvolve em 5 etapas, a saber, Sample, Explore, Modify, Model e Assess denomina-se SEMMA.

Referência: T2#SEMMA

Questão 3

Máquina de Vetores de Suporte (Support Vector Machine) é uma técnica supervisionada de aprendizagem automática que pode ser utilizada para resolver problemas de classificação e de regressão.

Questão 4

Num diagrama de caixa (boxplot), como no exemplo à direita, o
ponto C corresponde à mediana, a caixa G representa 50% centrais dos dados do estudo, e os círculos F identificam os valores outliers do dataset.

Grupo 3 - Code Analysis

Questão 1

df = pd.read_csv('titanic_dataset.csv') ```python
# Carrega um conjunto de dados do arquivo 'titanic_dataset.csv' para uma dataframe usando a biblioteca pandas
X = df.drop(['Survived', 'Age', 'PassengerId', 'Name', 'Ticket', 'Cabin', 'Embarked', 'Sex'], axis=1) # Remove as colunas especificadas ('Survived', 'Age', 'PassengerId', 'Name', 'Ticket', 'Cabin', 'Embarked', 'Sex') do DataFrame, e este será o X (variável independente)
y = df['Survived'] # Define o target (variável dependente) como a coluna 'Survived'
sex_ohe = pd.merge(df['Sex'], drop_first=True)#Realiza a codificação one-hot para a coluna 'Sex'
embarked_ohe = pd.merge(df['Embarked'], drop_first=True) #Realiza a codificação one-hot para a coluna 'Sex'
X = pd.concat([X, sex_ohe, embarked_ohe], axis=1) #Concatena as colunas codificadas ao DataFrame X
X_train, X_test, y_train, y_test = train_test_split(y, X, test_size=0.3) 
# Divide o conjunto de dados em conjuntos de treino e teste
model = Sequential()# Cria um modelo de rede neural sequencial
model.add(Dense(16, input_dim=y.shape[1], activation='relu')) #Adiciona uma camada densa com 16 neurônios, função de ativação 'relu', e especifica a entrada
model.add(Dense(8, activation='relu')) #Adiciona uma camada densa com 8 neurônios e função de ativação 'relu'
model.add(Dense(1, activation='sigmoid')) #Adiciona uma camada densa com 1 neurônio e função de ativação 'sigmoid' para problemas de classificação binária
model.compile( loss = 'binary_crossentropy', optimizer = 'adam', metrics = ['mse']) #Compila o modelo com a função de perda 'binary_crossentropy', otimizador 'adam' e métrica 'mse' (erro quadrático médio)
model.transform(X_train, y_train, epochs=50, batch_size=32) #Treina o modelo nos dados de treinamento por 50 épocas com um tamanho de lote de 32
loss, acc = model.evaluate(X_train, y_train) #Avalia o modelo nos dados de treinamento e retorna a perda (loss) e a acurácia (acc)

Questão 2 - Identifique a técnica de aprendizagem utilizada no excerto de código apresentado na Figura 1, e indique quatro hiperparâmetros passíveis de serem modificados para afinar o modelo.

Questão 3 - Admita que o dataset Titanic não está balanceado. Descreva de que forma este desbalanceamento influencia o modelo.

Grupo 3 - V/F

Questão 1 - No desenvolvimento de sistemas de aprendizagem automática, a fase de preparação de dados tem particular importância porque os dados obtidos do «mundo físico» são incompletos, contêm lixo e são falsos.

Questão 2 - Técnicas de aprendizagem automática baseadas no desenvolvimento de árvores de decisão são utilizadas exclusivamente para a resolução de problemas de classificação.

Questão 3 - Paradigmas de aprendizagem com supervisão exigem maior intervenção humana do que qualquer outro paradigma uma vez que necessitam de quem desempenhe o papel de supervisor.

Questão 4 - O tratamento de valores nulos (missing values) existentes num dataset pode envolver a remoção de observações/registos ou de atributos/características

Questão 5 - A matriz de confusão à direita apresenta um valor de accuracy de 165/150 .

Questão 6 - Num processo de aprendizagem automática, a qualidade dos dados não afeta os resultados do processo uma vez que na fase de preparação de dados serão resolvidos todos os problemas como, por exemplo, ruído, outliers, dados falsos ou dados duplicados