Neste post, vamos explorar como filtrar dados em DataFrames no R. Utilizando o pacote dplyr
, você pode selecionar subconjuntos de dados de forma eficiente e intuitiva. Vamos criar um DataFrame de exemplo e abordar várias técnicas para filtrar dados.
Sumário
Por que Usar a Função filter
?
A função filter
do pacote dplyr
permite selecionar linhas de um DataFrame que atendam a determinadas condições. Com ela, você pode focar em subconjuntos específicos de seus dados, facilitando a análise e a visualização das informações relevantes.
Filtrar Dados no R
Criando um DataFrame de Exemplo
Vamos começar criando um DataFrame com alguns dados de exemplo:
# Filtrar Dados no R
# Carregando o pacote necessário
library(dplyr)
# Criando um DataFrame de exemplo
data <- data.frame(
Nome = c('João', 'Ana', 'Carlos', 'Marta', 'Pedro'),
Idade = c(23, 45, 35, 41, 29),
Cidade = c('São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Salvador', 'São Paulo'),
Salario = c(5000, 7000, 8000, 6200, 5400)
)
Como Filtrar Dados no R
Filtrando Linhas com Condições Simples
Podemos usar a função filter
para selecionar linhas que atendam a uma condição específica. Vamos filtrar as linhas onde o salário é maior que 6000:
# Filtrar Dados no R
# Filtrando linhas onde o salário é maior que 6000
data_filtrada <- data %>%
filter(Salario > 6000)
Filtrando Linhas com Múltiplas Condições
Podemos combinar várias condições usando operadores lógicos. Vamos filtrar as linhas onde o salário é maior que 6000 e a idade é menor que 40:
# Filtrar Dados no R
# Filtrando linhas onde o salário é maior que 6000 e a idade é menor que 40
data_filtrada <- data %>%
filter(Salario > 6000 & Idade < 40)
Filtrando Linhas com Condições de Texto
Também podemos filtrar linhas com base em condições de texto. Vamos filtrar as linhas onde a cidade é “São Paulo”:
# Filtrar Dados no R
# Filtrando linhas onde a cidade é "São Paulo"
data_filtrada <- data %>%
filter(Cidade == 'São Paulo')
Filtrando Dados com Condições Complexas
Usando Funções Personalizadas com filter
Podemos usar funções personalizadas para criar condições complexas. Vamos filtrar as linhas onde o nome tem mais de 4 caracteres:
# Filtrar Dados no R
# Filtrando linhas onde o nome tem mais de 4 caracteres
data_filtrada <- data %>%
filter(nchar(Nome) > 4)
Analisando Dados Filtrados no R
Estatísticas Descritivas dos Dados Filtrados
Para obter uma visão geral dos dados filtrados, podemos usar a função summary()
:
# Filtrar Dados no R
# Estatísticas descritivas dos dados filtrados
summary(data_filtrada)
Visualizando Dados Filtrados
Criando Gráficos com ggplot2
Visualizar dados filtrados pode ajudar a identificar padrões e tendências. Vamos criar um gráfico de barras mostrando a distribuição dos salários nos dados filtrados:
# Filtrar Dados no R
library(ggplot2)
# Criando um gráfico de barras da distribuição dos salários nos dados filtrados
ggplot(data_filtrada, aes(x = Nome, y = Salario)) +
geom_bar(stat = "identity") +
ggtitle('Distribuição de Salários nos Dados Filtrados')
Links Úteis e Mais Conteúdo
Para mais informações sobre como utilizar o R para análise de dados, confira outros conteúdos no meu blog:
- Seleção de Colunas no R
- Leitura de Dados em R
- Matriz de Distância Rodoviária por Tempo em R
- Matriz de Distância dos Municípios Brasileiros
- Primeiros Passos com o R – Parte 1
- Como Instalar o RStudio
Considerações Finais
Espero que este guia tenha sido útil para aprender como filtrar dados com a função filter
do pacote dplyr
no R. A prática é essencial para dominar essas técnicas, então encorajo você a experimentar e aplicar esses métodos em seus próprios projetos de análise de dados.
Para aprimorar suas habilidades com o R e se tornar mais eficiente na manipulação de dados, é importante também fortalecer sua compreensão em ciência de dados. Recomendamos o livro Fundamentos em R: Guia Completo para Iniciantes, disponível na Amazon, que oferece uma introdução abrangente ao R.
Junte-se à nossa comunidade no Twitter e inscreva-se no nosso canal do YouTube para acessar mais tutoriais, dicas e recursos. Continue praticando e explorando novas maneiras de manipular dados com o R, e fique atento para mais guias e tutoriais que compartilharemos.