
Pandas — это библиотека Python, специально разработанная для анализа и обработки данных. Она является одной из самых популярных и востребованных библиотек для анализа данных в Python.
Для установки Pandas вам понадобится инструмент pip, который является пакетным менеджером для Python.
Откройте терминал или командную строку и выполните следующую команду:
pip install pandasЕсли вы используете дистрибутив Anaconda для Python, то Pandas уже должен быть установлен по умолчанию. В противном случае, вы можете установить Pandas с помощью команды conda:
conda install pandasПосле установки вы можете проверить версию Pandas и убедиться, что установка прошла успешно, запустив интерактивную оболочку Python и введя:
import pandas as pd
print(pd.__version__)Эта команда должна вывести установленную версию Pandas.
Если у вас уже установлен Pandas, но вы хотите обновить его до последней версии, вы можете использовать следующую команду:
pip install --upgrade pandasИли через Anaconda:
conda update pandasУстановка Pandas также установит несколько зависимостей, таких как NumPy, которые необходимы для корректной работы библиотеки.
Series: одномерный маркированный массив, аналогичный столбцу в таблице.
import pandas as pd
s = pd.Series([1, 3, 5, 7, 9])
print(s)
# 0 1
# 1 3
# 2 5
# 3 7
# 4 9
# dtype: int64DataFrame: двумерный маркированный массив, представляющий собой таблицу с метками для строк и столбцов.
import pandas as pd
data = {"A": [1, 2, 3], "B": [4, 5, 6]}
df = pd.DataFrame(data)
print(df)
# A B
# 0 1 4
# 1 2 5
# 2 3 6Методы Pandas позволяют легко просматривать, индексировать и осуществлять базовые операции над данными.
Просмотр данных:
import pandas as pd
data = {"A": [1, 2, 3], "B": [4, 5, 6]}
df = pd.DataFrame(data)
print(df.head(2)) # первые 2 строки
print(df.tail(2)) # последние 2 строкиИндексация и срезы:
import pandas as pd
data = {"A": [1, 2, 3], "B": [4, 5, 6]}
df = pd.DataFrame(data)
print(df['A']) # выбор столбца A
print(df.iloc[0]) # выбор первой строкиРабота с данными часто предполагает обработку пропущенных значений. Pandas предоставляет методы для обнаружения, исключения или замены пропущенных данных.
Пример:
df = pd.DataFrame({"A": [1, 2, np.nan], "B": [4, np.nan, 6]})
print(df.dropna()) # исключить строки с пропущенными данными
print(df.fillna(value=0)) # заменить пропущенные данные на 0Pandas предоставляет широкий спектр операций для выполнения статистического анализа, агрегации данных или применения функций к данным.
Статистика:
data = {"A": [1, 2, 3], "B": [4, 5, 6]}
df = pd.DataFrame(data)
print(df.mean()) # среднее значение по столбцам
# A 2.0
# B 5.0
# dtype: float64Применение функций:
data = {"A": [1, 2, 3], "B": [4, 5, 6]}
df = pd.DataFrame(data)
print(df.apply(lambda x: x*2)) # умножить все элементы на 2
# A B
# 0 2 8
# 1 4 10
# 2 6 12В процессе анализа часто требуется объединять данные из разных источников или таблиц. Pandas предоставляет методы для гибкого объединения данных, такие как конкатенация или слияние.
Конкатенация:
df1 = pd.DataFrame({"A": [1, 2], "B": [3, 4]})
df2 = pd.DataFrame({"A": [5, 6], "B": [7, 8]})
print(pd.concat([df1, df2]))
# A B
# 0 1 3
# 1 2 4
# 0 5 7
# 1 6 8Слияние:
left = pd.DataFrame({"key": ["key1", "key2"], "A": ["A0", "A1"]})
right = pd.DataFrame({"key": ["key1", "key2"], "B": ["B0", "B1"]})
print(pd.merge(left, right, on="key"))
# key A B
# 0 key1 A0 B0
# 1 key2 A1 B1Группировка — это процесс, который включает в себя один или несколько из следующих шагов: разделение данных на группы по некоторым критериям; применение функции к каждой группе независимо; объединение результатов в структуру данных.
Пример:
df = pd.DataFrame({
"Animal": ["Dog", "Cat", "Dog", "Cat"],
"Age": [5, 2, 7, 4]
})
print(df.groupby("Animal").mean()) # средний возраст по типу животного
# Age
# Animal
# Cat 3.0
# Dog 6.0Визуализация данных — ключевой этап в анализе данных. С помощью Pandas вы можете быстро и легко строить графики и диаграммы прямо из ваших данных.
Пример:
import pandas as pd
import matplotlib.pyplot as plt
df = pd.DataFrame({
"x": [1, 2, 3, 4, 5],
"y": [5, 4, 3, 2, 1]
})
df.plot(x="x", y="y")
plt.show()
Pandas является мощным и гибким инструментом для работы с данными в Python. Он предоставляет все необходимые инструменты для загрузки, обработки, анализа и визуализации данных. Этот обзор дал лишь краткое введение в возможности Pandas, и при погружении в библиотеку вы обнаружите еще больше полезных функций и методов.
Содержание: