A estatística descritiva é uma análise que reúne um conjunto de métricas que visa descrever os dados. Entre as análises mais comuns, nós geralmente encontramos a média, quartis, mediana, máximo e mínimo. Esses valores são o ponto de partida para as análises de um conjunto de dados e são fundamentais para iniciarmos os trabalhos. Nesse post vou ajudar a vocês como fazer a análise da estatística descritiva no python.
Sumário
Estatística Descritiva no Python/Pandas
Se você precisa fazer uma análise estatística, provavelmente você irá começar pela análise da estatística descritiva. Com a estatística descritiva é possível ter um diagnóstico que uma caracterização do conjunto de dados que desejamos trabalhar.
No python é possível fazer análise da estatística descritiva de várias maneiras. No próprio python existem algumas funções que te permite fazer a análise da estatística descritiva, por meio de funções nativas.
Entretanto, nesse exemplo aqui nós vamos utilizar a biblioteca pandas para poder fazer as análises. Se você ainda não conhece a biblioteca pandas, veja nesse post aqui – O que é Pandas? – onde eu apresento um pouco sobre essa biblioteca que é uma das mais utilizadas para a ciência de dados.
O que é estatística descritiva?
Se você não sabe o que é estatística descritiva, aqui eu vou abordar brevemente em algumas linhas o que que se trata essa análise que é tão falado nos cursos de estatística. A estatística descritiva é um conjunto de métricas que visa dar uma característica de um determinado conjunto de dados.
Geralmente nós fazemos a análise da estatística descritiva antes de trabalhar com o conjunto de dados. Essa análise exploratória irá permitir que nós possamos conhecer melhor o conjunto de dados que vamos trabalhar e com isso conseguir ter uma melhor descrição dos dados.
Essas métricas são geralmente o ponto de partida para todos os trabalhos que envolvem análise e estatística. É fundamental que quando você vai começar a trabalhar com um novo conjunto de dados você faça essa análise de estatística descritiva para ter um panorama sobre os dados que você vai trabalhar.
Por se tratar de uma análise estatística e que geralmente nós fazemos em dados estruturados, nós iremos aprender como fazer essa análise utilizando a biblioteca pandas.
Importar a biblioteca pandas
O primeiro passo para trabalhar com a biblioteca pandas é fazer a sua importação. Fazer a importação da biblioteca em python é o equivalente a abrir o programa de computador. Sem importar a biblioteca não é possível utilizar as funções da biblioteca e consequentemente não é possível fazermos as análises que desejamos.
Para fazermos a importação do pandas nós utilizamos o comando import seguido pelo nome do pacote e com seu alias. No caso do pandas por padrão nós importamos o pandas sempre como pd. Veja a seguir um código de exemplo para você fazer a importação do pandas.
import pandas as pd
Após a importação você está pronto(a) para começar a utilizar o pandas em seu computador. Se você estiver com dificuldades de importar o pandas, é fundamental que você aprenda essa etapa, pois n uso do python nós fazemos a importação de pacotes o tempo todo. Caso você esteja com dificuldades, dê uma olhada nas minhas aulas de python: Fundamentos em Python
Abrindo arquivo no Pandas
Após fazer a importação da biblioteca pandas é hora de você fazer a leitura de um arquivo. Nessa etapa é equivalente a você abrir um arquivo no seu Excel ou LibreCalculator. É importante que nessa etapa você tenha disponível um arquivo para fazer a importação. Caso não tenha você pode utilizar esse arquivo csv que é das pessoas que estavam presentes no Titanic.
Para baixar o dataset de exemplo você pode clicar nesse link: Titanic Após fazer o download dos arquivos você está pronto(a) para abrir o arquivo e iniciarmos a o estudo da estatística descritiva no python.
Para abrir dados no python utilizando a biblioteca pandas você deve utilizar o comando read_csv, caso o seu arquivo seja do tipo csv. Existem inúmeras funções para abrir arquivo no pandas, você pode ver todas diretamente aqui na documentação do Pandas. Veja abaixo um exemplo de como fazer a leitura de um dataframe no pandas.
df = pd.read_csv(titanic.csv)
Esse é o método mais básico de fazer a importação de dados no pandas. Além disso é importante que você se atente para colocar o arquivo na mesma pasta em que você está criando o seu arquivo python.
Se você preferir é possível fazer a importação diretamente do link aqui do blog Balaio Científico. Para fazer a importação dos dados diretamente do arquivo que disponibilizei aqui no blog, você deve utilizar o seguinte comando.
df = pd.read_csv('https://raw.githubusercontent.com/balaiocientifico/dataset/main/titanic.csv')
Após fazer a importação imprima o resultado escrevendo df e rodando o comando. Você verá as primeiras linhas do DataFrame. Se tudo der certo você verá um resultado como esse a seguir:
Se por algum motivo você seguiu todos os passos anteriores e ainda está encontrando dificuldades, não se preocupe. Assista esse vídeo a seguir em que ensino passo a passo como abrir/importar dados no python utilizando a biblioteca pandas.
Estatística Descritiva
Após fazer a importação do dataset na etapa anterior, chegou o momento de executarmos o comando para analisarmos a estatística descritiva no python. Para isso você deve utilizar o domando describe do pandas. Veja a seguir o código que você deve executar.
df.describe()
Ao executar o comando acima, você verá uma tabela de dados semelhante a está a seguir.
A tabela acima contém quase todas as informações que abarcam o domínio da Estatística Descritiva. Você consegue analisar as medidas e métricas de todas as colunas com apenas um comando e de forma simples.
A partir de agora você está apto(a) para fazer as análises de estatística descritiva no python sem dificuldades e de forma gratuita. Nesse exemplo eu utilizei o Google Colab para executar os comandos. Caso você não conheça o Google Colab, dê uma olhada nesse meu vídeo a seguir, onde ensino passo a passo de como utilizar o python na nuvem e sem a necessidade de instalar nada em seu computador.