Python

Como Limpar e Preparar Dados no Pandas

Escrito por Erick Faria · 2 min. >
Preparar Dados no Pandas

Neste post, vamos explorar como limpar e preparar dados no Pandas, uma biblioteca Python amplamente utilizada para análise de dados. Limpeza e preparação de dados são etapas cruciais no processo de análise de dados, garantindo que os dados sejam precisos, completos e prontos para análise. Vamos criar um DataFrame de exemplo e abordar várias técnicas para limpar e preparar dados utilizando métodos do Pandas.

Por que Limpar e Preparar Dados?

Limpar e preparar dados é essencial para remover inconsistências, preencher valores ausentes e transformar dados brutos em um formato utilizável. Dados sujos ou incompletos podem levar a análises imprecisas e conclusões erradas. Portanto, investir tempo na limpeza e preparação dos dados é fundamental para garantir resultados confiáveis.

Preparar Dados no Pandas

Criando um DataFrame com Dados Sujos

Vamos começar criando um DataFrame que contém dados sujos e inconsistentes:

# Preparar Dados no Pandas
import pandas as pd
import numpy as np

data = {
    'Nome': ['João', 'Ana', 'Carlos', 'Marta', None],
    'Idade': [23, 45, np.nan, 41, 29],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Salvador', 'São Paulo'],
    'Salário': [5000, 7000, 8000, None, 6200]
}

df = pd.DataFrame(data)

Identificando e Lidando com Valores Ausentes

Identificando Valores Ausentes

Podemos identificar valores ausentes usando os métodos isna() ou isnull():

# Preparar Dados no Pandas
df.isna()
df.isna().sum()

Removendo Valores Ausentes

Para remover linhas ou colunas com valores ausentes, usamos o método dropna():

# Preparar Dados no Pandas
df.dropna()  # Remove linhas com qualquer valor ausente
df.dropna(axis=1)  # Remove colunas com qualquer valor ausente

Preenchendo Valores Ausentes

Para preencher valores ausentes, podemos usar o método fillna(). Por exemplo, preenchendo com um valor constante ou com a média da coluna:

# Preparar Dados no Pandas
df['Idade'].fillna(df['Idade'].mean(), inplace=True)
df['Salário'].fillna(0, inplace=True)

Lidando com Dados Duplicados

Identificando Dados Duplicados

Podemos identificar dados duplicados usando o método duplicated():

df.duplicated()

Removendo Dados Duplicados

Para remover duplicatas, usamos o método drop_duplicates():

df.drop_duplicates(inplace=True)

Corrigindo Inconsistências

Padronizando Texto

Para garantir que os dados de texto estejam consistentes, podemos converter texto para minúsculas ou maiúsculas:

df['Nome'] = df['Nome'].str.lower()
df['Cidade'] = df['Cidade'].str.title()

Removendo Espaços em Branco

Podemos remover espaços em branco no início ou no final de strings:

df['Nome'] = df['Nome'].str.strip()

Transformando Dados

Convertendo Tipos de Dados

Podemos converter tipos de dados para garantir a consistência:

df['Idade'] = df['Idade'].astype(int)

Criando Novas Colunas

Podemos criar novas colunas com base em outras colunas. Por exemplo, criando uma coluna que indica se o salário é acima da média:

media_salario = df['Salário'].mean()
df['Salário_Acima_Media'] = df['Salário'] > media_salario

Analisando Dados

Estatísticas Descritivas

Para obter uma visão geral dos dados, podemos usar o método describe():

df.describe()

Agrupando Dados

Podemos agrupar dados para análise agregada usando o método groupby():

df.groupby('Cidade')['Salário'].mean()

Visualizando Dados

Criando Gráficos

Visualizar dados pode ajudar a identificar padrões e insights. Podemos usar bibliotecas como Matplotlib ou Seaborn para criar gráficos:

import matplotlib.pyplot as plt
import seaborn as sns

sns.boxplot(x='Cidade', y='Salário', data=df)
plt.title('Distribuição de Salários por Cidade')
plt.show()

Para mais informações sobre como utilizar o Pandas para análise de dados, confira outros conteúdos no meu blog:

Considerações Finais

Espero que este guia tenha sido útil para aprender como limpar e preparar dados no Pandas. A prática é essencial para dominar essas técnicas, então encorajo você a experimentar e aplicar esses métodos em seus próprios projetos de análise de dados.

Para aprimorar suas habilidades com o Pandas e se tornar mais eficiente na manipulação de dados, é importante também fortalecer sua compreensão em Python. Recomendamos o livro “Fundamentos em Python: Para Iniciantes em Programação e Computação”, disponível na Amazon, que oferece uma introdução abrangente ao Python.

Junte-se à nossa comunidade no Twitter e inscreva-se no nosso canal do YouTube para acessar mais tutoriais, dicas e recursos. Continue praticando e explorando novas maneiras de manipular dados com o Pandas, e fique atento para mais guias e tutoriais que compartilharemos.

Escrito por Erick Faria
Engenheiro de Dados com Ph.D. em Geografia e experiência em análise espacial e geoprocessamento. Expertise em processamento de grandes volumes de dados geoespaciais, imagens de satélite e dados de mercado, utilizando ferramentas como Spark, Databricks e Google Earth Engine. Experiência em projetos de mercado de carbono, modelos preditivos para investimentos agrícolas e liderança de projetos de dados em saúde pública. Habilidades em Python, R, SQL e diversas ferramentas de engenharia de dados. Profile