Pandas — это библиотека Python, специально разработанная для анализа и обработки данных. Она является одной из самых популярных и востребованных библиотек для анализа данных в Python.
Для установки Pandas вам понадобится инструмент pip, который является пакетным менеджером для Python.
Откройте терминал или командную строку и выполните следующую команду:
pip install pandas
Если вы используете дистрибутив Anaconda для Python, то Pandas уже должен быть установлен по умолчанию. В противном случае, вы можете установить Pandas с помощью команды conda:
conda install pandas
После установки вы можете проверить версию Pandas и убедиться, что установка прошла успешно, запустив интерактивную оболочку Python и введя:
import pandas as pd
print(pd.__version__)
Эта команда должна вывести установленную версию Pandas.
Если у вас уже установлен Pandas, но вы хотите обновить его до последней версии, вы можете использовать следующую команду:
pip install --upgrade pandas
Или через Anaconda:
conda update pandas
Установка Pandas также установит несколько зависимостей, таких как NumPy, которые необходимы для корректной работы библиотеки.
Series: одномерный маркированный массив, аналогичный столбцу в таблице.
import pandas as pd
s = pd.Series([1, 3, 5, 7, 9])
print(s)
# 0 1
# 1 3
# 2 5
# 3 7
# 4 9
# dtype: int64
DataFrame: двумерный маркированный массив, представляющий собой таблицу с метками для строк и столбцов.
import pandas as pd
data = {"A": [1, 2, 3], "B": [4, 5, 6]}
df = pd.DataFrame(data)
print(df)
# A B
# 0 1 4
# 1 2 5
# 2 3 6
Методы Pandas позволяют легко просматривать, индексировать и осуществлять базовые операции над данными.
Просмотр данных:
import pandas as pd
data = {"A": [1, 2, 3], "B": [4, 5, 6]}
df = pd.DataFrame(data)
print(df.head(2)) # первые 2 строки
print(df.tail(2)) # последние 2 строки
Индексация и срезы:
import pandas as pd
data = {"A": [1, 2, 3], "B": [4, 5, 6]}
df = pd.DataFrame(data)
print(df['A']) # выбор столбца A
print(df.iloc[0]) # выбор первой строки
Работа с данными часто предполагает обработку пропущенных значений. Pandas предоставляет методы для обнаружения, исключения или замены пропущенных данных.
Пример:
df = pd.DataFrame({"A": [1, 2, np.nan], "B": [4, np.nan, 6]})
print(df.dropna()) # исключить строки с пропущенными данными
print(df.fillna(value=0)) # заменить пропущенные данные на 0
Pandas предоставляет широкий спектр операций для выполнения статистического анализа, агрегации данных или применения функций к данным.
Статистика:
data = {"A": [1, 2, 3], "B": [4, 5, 6]}
df = pd.DataFrame(data)
print(df.mean()) # среднее значение по столбцам
# A 2.0
# B 5.0
# dtype: float64
Применение функций:
data = {"A": [1, 2, 3], "B": [4, 5, 6]}
df = pd.DataFrame(data)
print(df.apply(lambda x: x*2)) # умножить все элементы на 2
# A B
# 0 2 8
# 1 4 10
# 2 6 12
В процессе анализа часто требуется объединять данные из разных источников или таблиц. Pandas предоставляет методы для гибкого объединения данных, такие как конкатенация или слияние.
Конкатенация:
df1 = pd.DataFrame({"A": [1, 2], "B": [3, 4]})
df2 = pd.DataFrame({"A": [5, 6], "B": [7, 8]})
print(pd.concat([df1, df2]))
# A B
# 0 1 3
# 1 2 4
# 0 5 7
# 1 6 8
Слияние:
left = pd.DataFrame({"key": ["key1", "key2"], "A": ["A0", "A1"]})
right = pd.DataFrame({"key": ["key1", "key2"], "B": ["B0", "B1"]})
print(pd.merge(left, right, on="key"))
# key A B
# 0 key1 A0 B0
# 1 key2 A1 B1
Группировка — это процесс, который включает в себя один или несколько из следующих шагов: разделение данных на группы по некоторым критериям; применение функции к каждой группе независимо; объединение результатов в структуру данных.
Пример:
df = pd.DataFrame({
"Animal": ["Dog", "Cat", "Dog", "Cat"],
"Age": [5, 2, 7, 4]
})
print(df.groupby("Animal").mean()) # средний возраст по типу животного
# Age
# Animal
# Cat 3.0
# Dog 6.0
Визуализация данных — ключевой этап в анализе данных. С помощью Pandas вы можете быстро и легко строить графики и диаграммы прямо из ваших данных.
Пример:
import pandas as pd
import matplotlib.pyplot as plt
df = pd.DataFrame({
"x": [1, 2, 3, 4, 5],
"y": [5, 4, 3, 2, 1]
})
df.plot(x="x", y="y")
plt.show()
Pandas является мощным и гибким инструментом для работы с данными в Python. Он предоставляет все необходимые инструменты для загрузки, обработки, анализа и визуализации данных. Этот обзор дал лишь краткое введение в возможности Pandas, и при погружении в библиотеку вы обнаружите еще больше полезных функций и методов.
Содержание: