R

Como Combinar DataFrames no R

Escrito por Erick Faria · 2 min. >
combinar DataFrames no R

Neste post, vamos explorar como combinar DataFrames no R utilizando o pacote dplyr. Combinar DataFrames é uma tarefa comum em análise de dados, e o dplyr fornece funções poderosas para realizar essa operação de forma eficiente. Vamos criar DataFrames de exemplo e abordar várias técnicas para combinar dados.

Por que Combinar DataFrames?

Combinar DataFrames permite juntar informações de diferentes fontes em um único conjunto de dados, facilitando a análise e a visualização. Essa operação é essencial quando trabalhamos com dados relacionados que estão separados em diferentes tabelas.

Trabalhando com Dados no R

Criando DataFrames de Exemplo

Vamos começar criando dois DataFrames com alguns dados de exemplo:

# Combinar DataFrames no R
# Carregando o pacote necessário
library(dplyr)

# Criando DataFrames de exemplo
df1 <- data.frame(
  ID = c(1, 2, 3, 4),
  Nome = c('João', 'Ana', 'Carlos', 'Marta'),
  Idade = c(23, 45, 35, 41)
)

df2 <- data.frame(
  ID = c(3, 4, 5, 6),
  Cidade = c('São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Salvador'),
  Salario = c(8000, 6200, 5400, 7000)
)

Como Combinar DataFrames no R

Usando inner_join

A função inner_join combina apenas as linhas que têm correspondência nas duas tabelas:

# Combinar DataFrames no R
# Combinando DataFrames com inner_join
df_inner <- inner_join(df1, df2, by = "ID")

Usando left_join

A função left_join mantém todas as linhas do DataFrame da esquerda e adiciona as correspondências do DataFrame da direita:

# Combinar DataFrames no R
# Combinando DataFrames com left_join
df_left <- left_join(df1, df2, by = "ID")

Usando right_join

A função right_join mantém todas as linhas do DataFrame da direita e adiciona as correspondências do DataFrame da esquerda:

# Combinar DataFrames no R
# Combinando DataFrames com right_join
df_right <- right_join(df1, df2, by = "ID")

Usando full_join

A função full_join combina todas as linhas dos dois DataFrames, preenchendo com NA onde não há correspondência:

# Combinar DataFrames no R
# Combinando DataFrames com full_join
df_full <- full_join(df1, df2, by = "ID")

Outras Técnicas de Combinação de DataFrames

Usando semi_join

A função semi_join retorna apenas as linhas do DataFrame da esquerda que têm correspondências no DataFrame da direita:

# Combinando DataFrames com semi_join
df_semi <- semi_join(df1, df2, by = "ID")

Usando anti_join

A função anti_join retorna apenas as linhas do DataFrame da esquerda que não têm correspondências no DataFrame da direita:

# Combinando DataFrames com anti_join
df_anti <- anti_join(df1, df2, by = "ID")

Analisando Dados Combinados no R

Estatísticas Descritivas dos Dados Combinados

Para obter uma visão geral dos dados combinados, podemos usar a função summary():

# Estatísticas descritivas dos dados combinados
summary(df_full)

Visualizando Dados Combinados

Criando Gráficos com ggplot2

Visualizar dados combinados pode ajudar a identificar padrões e tendências. Vamos criar um gráfico de dispersão mostrando a relação entre idade e salário nos dados combinados:

library(ggplot2)

# Criando um gráfico de dispersão da relação entre idade e salário
ggplot(df_full, aes(x = Idade, y = Salario)) +
  geom_point() +
  ggtitle('Relação entre Idade e Salário')

Para mais informações sobre como utilizar o R para análise de dados, confira outros conteúdos no meu blog:

Considerações Finais

Espero que este guia tenha sido útil para aprender como combinar DataFrames com o pacote dplyr no R. A prática é essencial para dominar essas técnicas, então encorajo você a experimentar e aplicar esses métodos em seus próprios projetos de análise de dados.

Para aprimorar suas habilidades com o R e se tornar mais eficiente na manipulação de dados, é importante também fortalecer sua compreensão em ciência de dados. Recomendamos o livro Fundamentos em R: Guia Completo para Iniciantes, disponível na Amazon, que oferece uma introdução abrangente ao R.

Junte-se à nossa comunidade no Twitter e inscreva-se no nosso canal do YouTube para acessar mais tutoriais, dicas e recursos. Continue praticando e explorando novas maneiras de manipular dados com o R, e fique atento para mais guias e tutoriais que compartilharemos.

Escrito por Erick Faria
Engenheiro de Dados com Ph.D. em Geografia e experiência em análise espacial e geoprocessamento. Expertise em processamento de grandes volumes de dados geoespaciais, imagens de satélite e dados de mercado, utilizando ferramentas como Spark, Databricks e Google Earth Engine. Experiência em projetos de mercado de carbono, modelos preditivos para investimentos agrícolas e liderança de projetos de dados em saúde pública. Habilidades em Python, R, SQL e diversas ferramentas de engenharia de dados. Profile