Импорт данных из популярных форматов: CSV и Excel в Pandas

Данные находятся повсюду, и их можно хранить в разных форматах. Из всех этих форматов CSV и Excel являются одними из самых популярных. Благодаря библиотеке Pandas в Python импорт данных из этих форматов становится простым и эффективным.

Импорт данных из CSV

CSV (Comma-Separated Values) – это формат файла, в котором данные записаны в виде строк, а столбцы разделены определенным символом (зачастую запятой).

Базовый импорт:

import pandas as pd

df = pd.read_csv('file_path.csv')

Работа с разделителями:
В зависимости от локализации или специфики файла разделитель может отличаться.

df = pd.read_csv('file_path.csv', delimiter=';')

Обработка заголовков и индексов:

df = pd.read_csv('file_path.csv', header=None, index_col=0)

Импорт данных из Excel

Excel является одним из самых популярных инструментов для обработки данных, и его файлы могут содержать большое количество информации.

Основной импорт:

df = pd.read_excel('file_path.xlsx')

Чтение определенного листа:

df = pd.read_excel('file_path.xlsx', sheet_name='Sheet2')

Пропуск лишних строк:

df = pd.read_excel('file_path.xlsx', skiprows=2, skipfooter=3)

Параметры импорта из CSV

Спецификация индекса
Вместо того чтобы использовать номера строк по умолчанию, вы можете определить один или несколько столбцов в качестве индекса:

df = pd.read_csv('file_path.csv', index_col=['Column1', 'Column2'])

Импорт определенных столбцов
Вы можете загрузить только определенные столбцы из файла:

df = pd.read_csv('file_path.csv', usecols=['Column1', 'Column3'])

Сжатие файла
Pandas также поддерживает чтение сжатых файлов:

df = pd.read_csv('file_path.csv.gz', compression='gzip')

Параметры импорта из Excel

Работа с датами
При работе с Excel файлами даты могут быть представлены в различных форматах. Pandas позволяет их корректно интерпретировать:

df = pd.read_excel('file_path.xlsx', parse_dates=['Date_Column'])

Преобразование столбцов
Применяя функцию при импорте:

def convert_function(cell_value):
    return 'Converted: ' + str(cell_value)

df = pd.read_excel('file_path.xlsx', converters={'ColumnName': convert_function})

Обработка ошибок при импорте

Обработка плохих строк
При чтении CSV файлов может возникнуть ошибка, если некоторые строки имеют больше столбцов, чем ожидалось. Для решения этой проблемы можно использовать параметр error_bad_lines:

df = pd.read_csv('file_path.csv', error_bad_lines=False)

Предупреждения при импорте
Если при импорте данных вы хотите узнать о возможных проблемах, но не прерывать процесс:

df = pd.read_csv('file_path.csv', on_bad_lines='warn')

Дополнительные параметры и уточнения

Определение типов данных при импорте. Это может существенно ускорить процесс загрузки и сэкономить память:

dtypes = {'column1': 'int32', 'column2': 'float32'}
df = pd.read_csv('file_path.csv', dtype=dtypes)

Использование конвертеров:

converters = {'column_name': lambda x: x.lower()}
df = pd.read_csv('file_path.csv', converters=converters)

Работа с пропущенными данными:

df = pd.read_csv('file_path.csv', na_values=['NA', 'N/A', 'None'])

Заключение

Импорт данных из таких форматов, как CSV и Excel, – ключевой этап в начале большинства проектов по анализу данных. С пониманием особенностей каждого формата и умением эффективно использовать возможности Pandas этот процесс может быть быстрым и безболезненным.

Подпишись на наш telegram-канал FullStacker и получай свежие статьи, мануалы и шпаргалки по Python первым

Содержание:

Читайте в Telegram