Explorarea Bibliotecii Pandas de la Python pentru analiza datelor

Pandas este o bibliotecă Python puternică folosită pentru manipularea și analiza datelor. Oferă structurile de date și funcțiile necesare pentru a lucra fără probleme cu datele structurate. Cu structurile sale de date ușor de utilizat, Pandas este util în special pentru curățarea, transformarea și analiza datelor. Acest articol explorează caracteristicile de bază ale Pandas și cum le puteți utiliza pentru a gestiona datele în mod eficient.

Noțiuni introductive cu Pandas

Pentru a începe să utilizați Pandas, trebuie să îl instalați folosind pip. Puteți face acest lucru rulând următoarea comandă:

pip install pandas

Structuri de bază de date

Pandas oferă două structuri de date primare: Series și DataFrame.

Serie

O serie este un obiect asemănător unei matrice unidimensionale care poate conține diferite tipuri de date, inclusiv numere întregi, șiruri și numere în virgulă mobilă. Fiecare element dintr-o serie are asociat un index.

import pandas as pd

# Creating a Series
data = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
print(data)

DataFrame

Un DataFrame este o structură de date tabulară bidimensională, variabilă în dimensiune și eterogenă, cu axe etichetate (rânduri și coloane). Este în esență o colecție de Serii.

# Creating a DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)

Manipularea datelor

Pandas oferă o gamă largă de funcționalități pentru manipularea datelor, inclusiv indexarea, tăierea și filtrarea.

Indexare și tăiere

# Selecting a single column
print(df['Name'])

# Selecting multiple columns
print(df[['Name', 'City']])

# Selecting rows by index
print(df.loc[0])  # First row
print(df.iloc[1]) # Second row

Filtrarea datelor

# Filtering data based on conditions
filtered_df = df[df['Age'] > 30]
print(filtered_df)

Curățarea datelor

Curățarea datelor este un pas crucial în analiza datelor. Pandas oferă mai multe metode pentru a gestiona datele lipsă, înregistrările duplicate și transformarea datelor.

Gestionarea datelor lipsă

# Creating a DataFrame with missing values
data = {
    'Name': ['Alice', 'Bob', None],
    'Age': [25, None, 35]
}
df = pd.DataFrame(data)

# Filling missing values
df_filled = df.fillna({'Name': 'Unknown', 'Age': df['Age'].mean()})
print(df_filled)

Eliminarea duplicatelor

# Removing duplicate rows
df_unique = df.drop_duplicates()
print(df_unique)

Concluzie

Pandas este un instrument esențial pentru analiza datelor în Python. Structurile și funcțiile sale puternice de date îl fac ușor de manipulat, manipulat și analizat. Prin stăpânirea Pandas, vă puteți îmbunătăți semnificativ capacitățile de analiză a datelor și vă puteți eficientiza fluxul de lucru.