Neste post, vamos explorar como combinar DataFrames no R utilizando o pacote dplyr
. Combinar DataFrames é uma tarefa comum em análise de dados, e o dplyr
fornece funções poderosas para realizar essa operação de forma eficiente. Vamos criar DataFrames de exemplo e abordar várias técnicas para combinar dados.
Sumário
Por que Combinar DataFrames?
Combinar DataFrames permite juntar informações de diferentes fontes em um único conjunto de dados, facilitando a análise e a visualização. Essa operação é essencial quando trabalhamos com dados relacionados que estão separados em diferentes tabelas.
Trabalhando com Dados no R
Criando DataFrames de Exemplo
Vamos começar criando dois DataFrames com alguns dados de exemplo:
# Combinar DataFrames no R
# Carregando o pacote necessário
library(dplyr)
# Criando DataFrames de exemplo
df1 <- data.frame(
ID = c(1, 2, 3, 4),
Nome = c('João', 'Ana', 'Carlos', 'Marta'),
Idade = c(23, 45, 35, 41)
)
df2 <- data.frame(
ID = c(3, 4, 5, 6),
Cidade = c('São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Salvador'),
Salario = c(8000, 6200, 5400, 7000)
)
Como Combinar DataFrames no R
Usando inner_join
A função inner_join
combina apenas as linhas que têm correspondência nas duas tabelas:
# Combinar DataFrames no R
# Combinando DataFrames com inner_join
df_inner <- inner_join(df1, df2, by = "ID")
Usando left_join
A função left_join
mantém todas as linhas do DataFrame da esquerda e adiciona as correspondências do DataFrame da direita:
# Combinar DataFrames no R
# Combinando DataFrames com left_join
df_left <- left_join(df1, df2, by = "ID")
Usando right_join
A função right_join
mantém todas as linhas do DataFrame da direita e adiciona as correspondências do DataFrame da esquerda:
# Combinar DataFrames no R
# Combinando DataFrames com right_join
df_right <- right_join(df1, df2, by = "ID")
Usando full_join
A função full_join
combina todas as linhas dos dois DataFrames, preenchendo com NA
onde não há correspondência:
# Combinar DataFrames no R
# Combinando DataFrames com full_join
df_full <- full_join(df1, df2, by = "ID")
Outras Técnicas de Combinação de DataFrames
Usando semi_join
A função semi_join
retorna apenas as linhas do DataFrame da esquerda que têm correspondências no DataFrame da direita:
# Combinando DataFrames com semi_join
df_semi <- semi_join(df1, df2, by = "ID")
Usando anti_join
A função anti_join
retorna apenas as linhas do DataFrame da esquerda que não têm correspondências no DataFrame da direita:
# Combinando DataFrames com anti_join
df_anti <- anti_join(df1, df2, by = "ID")
Analisando Dados Combinados no R
Estatísticas Descritivas dos Dados Combinados
Para obter uma visão geral dos dados combinados, podemos usar a função summary()
:
# Estatísticas descritivas dos dados combinados
summary(df_full)
Visualizando Dados Combinados
Criando Gráficos com ggplot2
Visualizar dados combinados pode ajudar a identificar padrões e tendências. Vamos criar um gráfico de dispersão mostrando a relação entre idade e salário nos dados combinados:
library(ggplot2)
# Criando um gráfico de dispersão da relação entre idade e salário
ggplot(df_full, aes(x = Idade, y = Salario)) +
geom_point() +
ggtitle('Relação entre Idade e Salário')
Links Úteis e Mais Conteúdo
Para mais informações sobre como utilizar o R para análise de dados, confira outros conteúdos no meu blog:
- Seleção de Colunas no R
- Leitura de Dados em R
- Matriz de Distância Rodoviária por Tempo em R
- Matriz de Distância dos Municípios Brasileiros
- Primeiros Passos com o R – Parte 1
- Como Instalar o RStudio
Considerações Finais
Espero que este guia tenha sido útil para aprender como combinar DataFrames com o pacote dplyr
no R. A prática é essencial para dominar essas técnicas, então encorajo você a experimentar e aplicar esses métodos em seus próprios projetos de análise de dados.
Para aprimorar suas habilidades com o R e se tornar mais eficiente na manipulação de dados, é importante também fortalecer sua compreensão em ciência de dados. Recomendamos o livro Fundamentos em R: Guia Completo para Iniciantes, disponível na Amazon, que oferece uma introdução abrangente ao R.
Junte-se à nossa comunidade no Twitter e inscreva-se no nosso canal do YouTube para acessar mais tutoriais, dicas e recursos. Continue praticando e explorando novas maneiras de manipular dados com o R, e fique atento para mais guias e tutoriais que compartilharemos.