R

Como Fazer Operações de Agregação no R

Escrito por Erick Faria · 3 min. >
Agregação no R

Neste post, vamos explorar como fazer operações de agregação em DataFrames no R utilizando o pacote dplyr. As operações de agregação são essenciais para resumir e analisar dados de forma eficiente. Vamos criar um DataFrame de exemplo e abordar várias técnicas para realizar essas operações.

Por que Fazer Operações de Agregação?

As operações de agregação permitem resumir grandes volumes de dados em métricas chave, como médias, somas e contagens. Isso facilita a análise e a interpretação dos dados, ajudando a identificar padrões e tendências.

Trabalhando com Dados no R

Criando um DataFrame de Exemplo

Vamos começar criando um DataFrame com alguns dados de exemplo:

# Operações de Agregação no R
# Carregando o pacote necessário
library(dplyr)

# Criando um DataFrame de exemplo
data <- data.frame(
  Nome = c('João', 'Ana', 'Carlos', 'Marta', 'Pedro', 'João', 'Ana', 'Carlos', 'Marta', 'Pedro'),
  Idade = c(23, 45, 35, 41, 29, 23, 45, 35, 41, 29),
  Cidade = c('São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Salvador', 'São Paulo', 
             'Rio de Janeiro', 'Belo Horizonte', 'Salvador', 'São Paulo', 'Rio de Janeiro'),
  Salario = c(5000, 7000, 8000, 6200, 5400, 5000, 7000, 8000, 6200, 5400)
)

Como Fazer Operações de Agregação no R

Calculando a Média

Podemos usar a função summarize junto com group_by para calcular a média de uma coluna:

# Operações de Agregação no R
# Calculando a média de salário por cidade
media_salario <- data %>%
  group_by(Cidade) %>%
  summarize(Media_Salario = mean(Salario))

Calculando a Soma

Para calcular a soma de uma coluna, usamos summarize e group_by da mesma maneira:

# Operações de Agregação no R
# Calculando a soma de salários por cidade
soma_salario <- data %>%
  group_by(Cidade) %>%
  summarize(Soma_Salario = sum(Salario))

Contando Ocorrências

Podemos contar o número de ocorrências em cada grupo usando a função n():

# Operações de Agregação no R
# Contando o número de pessoas por cidade
contagem_pessoas <- data %>%
  group_by(Cidade) %>%
  summarize(Numero_Pessoas = n())

Outras Operações de Agregação

Calculando Mínimo e Máximo

Podemos calcular o valor mínimo e máximo de uma coluna:

# Operações de Agregação no R
# Calculando o salário mínimo e máximo por cidade
min_max_salario <- data %>%
  group_by(Cidade) %>%
  summarize(Min_Salario = min(Salario), Max_Salario = max(Salario))

Calculando Desvio Padrão

Podemos calcular o desvio padrão de uma coluna:

# Operações de Agregação no R
# Calculando o desvio padrão de salário por cidade
desvio_padrao_salario <- data %>%
  group_by(Cidade) %>%
  summarize(Desvio_Padrao_Salario = sd(Salario))

Analisando Dados Agregados no R

Estatísticas Descritivas dos Dados Agregados

Para obter uma visão geral dos dados agregados, podemos usar a função summary():

# Estatísticas descritivas dos dados agregados
summary(media_salario)

Visualizando Dados Agregados

Criando Gráficos com ggplot2

Visualizar dados agregados pode ajudar a identificar padrões e tendências. Vamos criar um gráfico de barras mostrando a média de salários por cidade:

library(ggplot2)

# Criando um gráfico de barras da média de salários por cidade
ggplot(media_salario, aes(x = Cidade, y = Media_Salario)) +
  geom_bar(stat = "identity") +
  ggtitle('Média de Salários por Cidade')

Para mais informações sobre como utilizar o R para análise de dados, confira outros conteúdos no meu blog:

Considerações Finais

Espero que este guia tenha sido útil para aprender como fazer operações de agregação com o pacote dplyr no R. A prática é essencial para dominar essas técnicas, então encorajo você a experimentar e aplicar esses métodos em seus próprios projetos de análise de dados.

Para aprimorar suas habilidades com o R e se tornar mais eficiente na manipulação de dados, é importante também fortalecer sua compreensão em ciência de dados. Recomendamos o livro Fundamentos em R: Guia Completo para Iniciantes, disponível na Amazon, que oferece uma introdução abrangente ao R.

Junte-se à nossa comunidade no Twitter e inscreva-se no nosso canal do YouTube para acessar mais tutoriais, dicas e recursos. Continue praticando e explorando novas maneiras de manipular dados com o R, e fique atento para mais guias e tutoriais que compartilharemos.


Este post foi feito com um enfoque em ciência de dados usando R. Para mais conteúdos relacionados a Python, R e ciência de dados em geral, continue acompanhando nosso blog.


Há algo mais que você gostaria de ajustar ou adicionar?

Escrito por Erick Faria
Engenheiro de Dados com Ph.D. em Geografia e experiência em análise espacial e geoprocessamento. Expertise em processamento de grandes volumes de dados geoespaciais, imagens de satélite e dados de mercado, utilizando ferramentas como Spark, Databricks e Google Earth Engine. Experiência em projetos de mercado de carbono, modelos preditivos para investimentos agrícolas e liderança de projetos de dados em saúde pública. Habilidades em Python, R, SQL e diversas ferramentas de engenharia de dados. Profile