Skip to content

Manipulando Valores Ausentes

Preenchendo valores ausentes em DataFrames do Pandas

Importando um DataFrame para manipulação

python
df3 = pd.read_csv('dataset.csv')


Exibindo os valores, mostrando o cabeçalho, filtrando mostrando os 5 primeiros valores

python
df3.head(5)
out:

ID_Pedido Data_Pedido ID_Cliente Segmento Pais Regiao ID_Produto Categoria Nome_Produto Valor_Venda Quantidade
0 CA-2016-152156 2016-11-08 CG-12520 Consumer United States South FUR-BO-10001798 Furniture Bush Somerset Collection Bookcase 261.9600 NaN
1 CA-2016-152156 2016-11-08 CG-12520 Consumer United States South FUR-CH-10000454 Furniture Hon Deluxe Fabric Upholstered Stacking Chairs,... 731.9400 NaN
2 CA-2016-138688 2016-06-12 DV-13045 Corporate United States West OFF-LA-10000240 Office Supplies Self-Adhesive Address Labels for Typewriters b... 14.6200 2.0
3 US-2015-108966 2015-10-11 SO-20335 Consumer United States South FUR-TA-10000577 Furniture Bretford CR4500 Series Slim Rectangular Table 957.5775 5.0
4 US-2015-108966 2015-10-11 SO-20335 Consumer United States South OFF-ST-10000760 Office Supplies Eldon Fold 'N Roll Cart System 22.3680 2.0



Verificando se há valores ausentes e em qual coluna:

python
df3.isna().sum()
out:
    ID_Pedido       0
    Data_Pedido     0
    ID_Cliente      0
    Segmento        0
    Pais            0
    Regiao          0
    ID_Produto      0
    Categoria       0
    Nome_Produto    0
    Valor_Venda     0
    Quantidade      2
    dtype: int64
Se não houver valores ausentes, ele retornará zero, porém, se houver, ele retornará a quantidade de valores que estão faltando.



MODA

A moda é uma medida de tendência central que representa o valor mais frequente em um conjunto de dados!!

Ela é extremamente útil quando queremos saber qual é o valor mais comum ou popular em um conjunto de dados!

Extraindo a moda da coluna quantidade

python
moda = df3['Quantidade'].value_counts().index[0]
print(moda)
out:
3.0 


Preenchendo os valores vazios com o valor da moda

python
df3['Quantidade'].fillna(value = moda, inplace = True)

# O inplace é como se fosse para salvar as alterações!
# Se eu não utilizar o mesmo, ele irá criar uma cópia do DF e fazer a alteração apenas naquele escopo.

python
# Verificando se ainda há valores vazios!
df3.isna().sum()
out:
    ID_Pedido       0
    Data_Pedido     0
    ID_Cliente      0
    Segmento        0
    Pais            0
    Regiao          0
    ID_Produto      0
    Categoria       0
    Nome_Produto    0
    Valor_Venda     0
    Quantidade      0
    dtype: int64

O nome dessa prática se chama INTERPOLAÇÃO! Quando utilizamos uma estatística da coluna para preencher valores ausentes!