Este tutorial irá guiá-lo através da análise do famoso dataset Iris usando R no Jamovi. Abordaremos a exploração de dados, análise específica por espécie, visualização de dados, testes estatísticos e manipulação de dados. O R é uma linguagem para análise de dados, e o dataset iris
(já incluso no R) é perfeito para aprender. Ele contém medidas de pétalas e sépalas de três espécies de flores (Iris setosa, versicolor e virginica). Neste post, você vai explorar esse dataset, gerar gráficos e fazer análises estatísticas básicas. Tudo pronto para copiar e colar no Jamovi ou no seu RStudio!
Primeiros Passos: Uma Olhada Inicial nos Dados
Primeiramente, vamos carregar o dataset e dar uma olhada nas primeiras linhas para entender sua estrutura.
# Ver as primeiras linhas do dataset
head(data)
# Estrutura dos dados (tipos de variáveis)
str(data)
# Resumo estatístico
summary(data)
head()
mostra as primeiras 6 linhas.str()
revela que há 150 observações, 4 variáveis numéricas (Sepal.Length
,Sepal.Width
, etc.) e 1 categórica (Species
).summary()
exibe médias, medianas e quartis.
# Média do comprimento da sépala por espécie
aggregate(Sepal.Length ~ Species, data= data, FUN= mean)
# Contagem de flores por espécie
table(data$Species)
aggregate()
calcula a média deSepal.Length
para cada espécie.table()
conta quantas flores há de cada tipo.
library(ggplot2)
# Gráfico de dispersão: Comprimento vs Largura da Sépala
ggplot(data, aes(x= Sepal.Length, y= Sepal.Width, color= Species)) +
geom_point(size=3) +
labs(title="Relação entre Comprimento e Largura da Sépala",
x="Comprimento (cm)",
y="Largura (cm)") +
theme_minimal()
# Boxplot do comprimento da pétala por espécie
ggplot(data, aes(x= Species, y= Petal.Length, fill= Species)) +
geom_boxplot() +
labs(title="Distribuição do Comprimento da Pétala por Espécie",
y="Comprimento (cm)") +
theme_classic()
ggplot()
inicia o gráfico.aes()
define os eixos e cores.geom_point()
egeom_boxplot()
criam os tipos de gráfico.
# Teste t para comparar duas espécies
setosa <-subset(data, Species =="setosa")
versicolor <-subset(data, Species =="versicolor")
t.test(setosa$Sepal.Length, versicolor$Sepal.Length)
# ANOVA para comparar as três espécies
anova_result <-aov(Sepal.Length ~ Species, data= data)
summary(anova_result)
t.test()
compara as médias de duas amostras.aov()
faz uma ANOVA para comparar três ou mais grupos.
library(dplyr)
# Filtrar apenas a espécie "virginica" e selecionar colunas
virginica_data <- data%>%
filter(Species =="virginica") %>%
select(Sepal.Length, Petal.Length)
# Criar uma nova coluna de relação pétala/sépala
data <- data%>%
mutate(Petal_Ratio= Petal.Length / Sepal.Length)
# Ver as primeiras linhas
head(data)
%>%
(pipe) encadeia operações.filter()
seleciona linhas.mutate()
cria novas variáveis