R

Como Combinar DataFrames no R com dplyr

Escrito por Erick Faria · 3 min. >
combinar DataFrames no R

Neste post, vamos explorar como combinar DataFrames no R utilizando o pacote dplyr. Combinar DataFrames é uma tarefa comum em análise de dados e o dplyr fornece funções poderosas para realizar essa operação de forma eficiente. Vamos criar DataFrames de exemplo e abordar várias técnicas para combinar dados.

Por que Usar dplyr para Combinar DataFrames?

O pacote dplyr oferece uma interface simples e intuitiva para combinar DataFrames. Funções como inner_join, left_join, right_join e full_join facilitam a junção de tabelas com base em colunas comuns. Essas funções são rápidas e eficientes, permitindo manipulações complexas com poucas linhas de código.

Trabalhando com DataFrames no R

Criando DataFrames de Exemplo

Vamos começar criando dois DataFrames com alguns dados de exemplo:

# Combinar DataFrames no R
# Carregando o pacote necessário
library(dplyr)

# Criando DataFrames de exemplo
df1 <- data.frame(
  ID = c(1, 2, 3, 4),
  Nome = c('João', 'Ana', 'Carlos', 'Marta'),
  Idade = c(23, 45, 35, 41)
)

df2 <- data.frame(
  ID = c(3, 4, 5, 6),
  Cidade = c('São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Salvador'),
  Salario = c(8000, 6200, 5400, 7000)
)

Como Combinar DataFrames no R

Usando inner_join

A função inner_join combina apenas as linhas que têm correspondência nas duas tabelas:

# Combinar DataFrames no R
# Combinando DataFrames com inner_join
df_inner <- inner_join(df1, df2, by = "ID")

Usando left_join

A função left_join mantém todas as linhas do DataFrame da esquerda e adiciona as correspondências do DataFrame da direita:

# Combinar DataFrames no R
# Combinando DataFrames com left_join
df_left <- left_join(df1, df2, by = "ID")

Usando right_join

A função right_join mantém todas as linhas do DataFrame da direita e adiciona as correspondências do DataFrame da esquerda:

# Combinar DataFrames no R
# Combinando DataFrames com right_join
df_right <- right_join(df1, df2, by = "ID")

Usando full_join

A função full_join combina todas as linhas dos dois DataFrames, preenchendo com NA onde não há correspondência:

# Combinar DataFrames no R
# Combinando DataFrames com full_join
df_full <- full_join(df1, df2, by = "ID")

Outras Técnicas de Combinação de DataFrames

Usando semi_join

A função semi_join retorna apenas as linhas do DataFrame da esquerda que têm correspondências no DataFrame da direita:

# Combinar DataFrames no R
# Combinando DataFrames com semi_join
df_semi <- semi_join(df1, df2, by = "ID")

Usando anti_join

A função anti_join retorna apenas as linhas do DataFrame da esquerda que não têm correspondências no DataFrame da direita:

# Combinar DataFrames no R
# Combinando DataFrames com anti_join
df_anti <- anti_join(df1, df2, by = "ID")

Manipulações Adicionais com DataFrames Combinados

Adicionando Novas Colunas

Após combinar DataFrames, podemos adicionar novas colunas com base nas colunas combinadas:

# Combinar DataFrames no R
# Adicionando uma nova coluna calculada
df_full <- df_full %>%
  mutate(Salario_Anual = Salario * 12)

Filtrando Dados Combinados

Podemos filtrar os dados combinados para obter subconjuntos específicos:

# Combinar DataFrames no R
# Filtrando para manter apenas pessoas com salário acima de 6000
df_filtrado <- df_full %>%
  filter(Salario > 6000)

Visualizando Dados Combinados

Criando Gráficos com ggplot2

Visualizar dados combinados pode ajudar a identificar padrões e tendências. Vamos criar um gráfico de dispersão mostrando a relação entre idade e salário nos dados combinados:

# Combinar DataFrames no R
library(ggplot2)

# Criando um gráfico de dispersão da relação entre idade e salário
ggplot(df_full, aes(x = Idade, y = Salario)) +
  geom_point() +
  ggtitle('Relação entre Idade e Salário')

Para mais informações sobre como utilizar o R para análise de dados, confira outros conteúdos no meu blog:

Considerações Finais

Espero que este guia tenha sido útil para aprender como combinar DataFrames com o pacote dplyr no R. A prática é essencial para dominar essas técnicas, então encorajo você a experimentar e aplicar esses métodos em seus próprios projetos de análise de dados.

Para aprimorar suas habilidades com o R e se tornar mais eficiente na manipulação de dados, é importante também fortalecer sua compreensão em ciência de dados. Recomendamos o livro Fundamentos em R: Guia Completo para Iniciantes, disponível na Amazon, que oferece uma introdução abrangente ao R.

Junte-se à nossa comunidade no Twitter e inscreva-se no nosso canal do YouTube para acessar mais tutoriais, dicas e recursos. Continue praticando e explorando novas maneiras de combinar DataFrames no R, e fique atento para mais guias e tutoriais que compartilharemos.

Escrito por Erick Faria
Engenheiro de Dados com Ph.D. em Geografia e experiência em análise espacial e geoprocessamento. Expertise em processamento de grandes volumes de dados geoespaciais, imagens de satélite e dados de mercado, utilizando ferramentas como Spark, Databricks e Google Earth Engine. Experiência em projetos de mercado de carbono, modelos preditivos para investimentos agrícolas e liderança de projetos de dados em saúde pública. Habilidades em Python, R, SQL e diversas ferramentas de engenharia de dados. Profile