Nesta atividade, cada aluno irá começar a desenvolver uma Análise Exploratória de Dados (Exploratory Data Analysis, EDA) a partir do banco de dados jobs_in_data.csv. A proposta não se limita à reprodução de código, mas valoriza a investigação, a análise crítica e a pesquisa conceitual, promovendo uma aprendizagem mais reflexiva e significativa.
- Banco de dados: Nesta etapa, cada aluno deve pesquisar e descrever o conjunto de dados utilizado, identificando o tema central do banco, os tipos de informações presentes, como cargos, salários, experiência e tipo de empresa, e informar onde o dataset está disponível, seja site ou plataforma. Essa análise inicial permite compreender o contexto e os tipos de perguntas que podem ser investigadas a partir do dataset.
- Importação e leitura dos dados: É necessário pesquisar o conceito de DataFrame em Python, explicando que se trata de uma estrutura de dados tabular amplamente utilizada em Ciência de Dados por sua organização em linhas e colunas e pela facilidade de manipulação de dados. Também deve-se indicar qual biblioteca é necessária para trabalhar com dataframes (Pandas) e discutir a importância de visualizar inicialmente os dados com métodos como
head() e tail(), além de conhecer a dimensão do banco de dados com shape e os nomes das colunas com columns. Essa visualização inicial permite garantir que a importação foi realizada corretamente e oferece uma visão geral do dataset.
- Tipos de variáveis e tipagem: É importante pesquisar e explicar a diferença entre variáveis qualitativas e quantitativas. Variáveis qualitativas, ou categóricas, podem ser nominais ou ordinais, enquanto variáveis quantitativas, ou numéricas, podem ser discretas ou contínuas. Entender os tipos de variáveis é essencial para escolher métodos de análise adequados, identificar colunas que podem ser convertidas para tipos mais eficientes, como
category, e organizar corretamente o dataset antes de realizar análises estatísticas.
- Informações faltantes e duplicadas: Nesta etapa, deve-se pesquisar os conceitos de valores nulos e dados duplicados, explicando que a identificação e tratamento dessas informações são fundamentais para evitar vieses e distorções em cálculos estatísticos. A análise deve incluir tanto duplicações de linhas quanto de colunas, compreendendo como cada tipo pode impactar os resultados e a qualidade da análise.
- Estatísticas descritivas: Por fim, deve-se pesquisar o método
*describe()* do Pandas, explicando quais estatísticas ele calcula, para quais tipos de variáveis se aplica e o significado de medidas como média, mediana, desvio padrão, mínimo e máximo. Além das variáveis numéricas, é importante aplicar o *describe()* a variáveis categóricas para identificar contagem de valores, categorias distintas, categorias mais frequentes e sua frequência, permitindo compreender a distribuição e concentração dos dados antes de realizar análises mais avançadas.
PDF da atividade:
Atividade1.pdf
IMPORTANTE: As respostas deverão ser entregues em formato PDF, uma única entrega por grupo. O documento deve conter:
- Os nomes completos de todos os integrantes do grupo;
- As respostas de todas as etapas da atividade, digitadas e organizadas de forma clara.