R

Como Filtrar Dados no R

Escrito por Erick Faria · 2 min. >
Filtrar Dados no R

Neste post, vamos explorar como filtrar dados em DataFrames no R. Utilizando o pacote dplyr, você pode selecionar subconjuntos de dados de forma eficiente e intuitiva. Vamos criar um DataFrame de exemplo e abordar várias técnicas para filtrar dados.

Por que Usar a Função filter?

A função filter do pacote dplyr permite selecionar linhas de um DataFrame que atendam a determinadas condições. Com ela, você pode focar em subconjuntos específicos de seus dados, facilitando a análise e a visualização das informações relevantes.

Filtrar Dados no R

Criando um DataFrame de Exemplo

Vamos começar criando um DataFrame com alguns dados de exemplo:

# Filtrar Dados no R
# Carregando o pacote necessário
library(dplyr)

# Criando um DataFrame de exemplo
data <- data.frame(
  Nome = c('João', 'Ana', 'Carlos', 'Marta', 'Pedro'),
  Idade = c(23, 45, 35, 41, 29),
  Cidade = c('São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Salvador', 'São Paulo'),
  Salario = c(5000, 7000, 8000, 6200, 5400)
)

Como Filtrar Dados no R

Filtrando Linhas com Condições Simples

Podemos usar a função filter para selecionar linhas que atendam a uma condição específica. Vamos filtrar as linhas onde o salário é maior que 6000:

# Filtrar Dados no R
# Filtrando linhas onde o salário é maior que 6000
data_filtrada <- data %>%
  filter(Salario > 6000)

Filtrando Linhas com Múltiplas Condições

Podemos combinar várias condições usando operadores lógicos. Vamos filtrar as linhas onde o salário é maior que 6000 e a idade é menor que 40:

# Filtrar Dados no R
# Filtrando linhas onde o salário é maior que 6000 e a idade é menor que 40
data_filtrada <- data %>%
  filter(Salario > 6000 & Idade < 40)

Filtrando Linhas com Condições de Texto

Também podemos filtrar linhas com base em condições de texto. Vamos filtrar as linhas onde a cidade é “São Paulo”:

# Filtrar Dados no R
# Filtrando linhas onde a cidade é "São Paulo"
data_filtrada <- data %>%
  filter(Cidade == 'São Paulo')

Filtrando Dados com Condições Complexas

Usando Funções Personalizadas com filter

Podemos usar funções personalizadas para criar condições complexas. Vamos filtrar as linhas onde o nome tem mais de 4 caracteres:

# Filtrar Dados no R
# Filtrando linhas onde o nome tem mais de 4 caracteres
data_filtrada <- data %>%
  filter(nchar(Nome) > 4)

Analisando Dados Filtrados no R

Estatísticas Descritivas dos Dados Filtrados

Para obter uma visão geral dos dados filtrados, podemos usar a função summary():

# Filtrar Dados no R
# Estatísticas descritivas dos dados filtrados
summary(data_filtrada)

Visualizando Dados Filtrados

Criando Gráficos com ggplot2

Visualizar dados filtrados pode ajudar a identificar padrões e tendências. Vamos criar um gráfico de barras mostrando a distribuição dos salários nos dados filtrados:

# Filtrar Dados no R
library(ggplot2)

# Criando um gráfico de barras da distribuição dos salários nos dados filtrados
ggplot(data_filtrada, aes(x = Nome, y = Salario)) +
  geom_bar(stat = "identity") +
  ggtitle('Distribuição de Salários nos Dados Filtrados')

Para mais informações sobre como utilizar o R para análise de dados, confira outros conteúdos no meu blog:

Considerações Finais

Espero que este guia tenha sido útil para aprender como filtrar dados com a função filter do pacote dplyr no R. A prática é essencial para dominar essas técnicas, então encorajo você a experimentar e aplicar esses métodos em seus próprios projetos de análise de dados.

Para aprimorar suas habilidades com o R e se tornar mais eficiente na manipulação de dados, é importante também fortalecer sua compreensão em ciência de dados. Recomendamos o livro Fundamentos em R: Guia Completo para Iniciantes, disponível na Amazon, que oferece uma introdução abrangente ao R.

Junte-se à nossa comunidade no Twitter e inscreva-se no nosso canal do YouTube para acessar mais tutoriais, dicas e recursos. Continue praticando e explorando novas maneiras de manipular dados com o R, e fique atento para mais guias e tutoriais que compartilharemos.

Escrito por Erick Faria
Engenheiro de Dados com Ph.D. em Geografia e experiência em análise espacial e geoprocessamento. Expertise em processamento de grandes volumes de dados geoespaciais, imagens de satélite e dados de mercado, utilizando ferramentas como Spark, Databricks e Google Earth Engine. Experiência em projetos de mercado de carbono, modelos preditivos para investimentos agrícolas e liderança de projetos de dados em saúde pública. Habilidades em Python, R, SQL e diversas ferramentas de engenharia de dados. Profile