Данные находятся повсюду, и их можно хранить в разных форматах. Из всех этих форматов CSV и Excel являются одними из самых популярных. Благодаря библиотеке Pandas в Python импорт данных из этих форматов становится простым и эффективным.
CSV (Comma-Separated Values) – это формат файла, в котором данные записаны в виде строк, а столбцы разделены определенным символом (зачастую запятой).
Базовый импорт:
import pandas as pd
df = pd.read_csv('file_path.csv')
Работа с разделителями:
В зависимости от локализации или специфики файла разделитель может отличаться.
df = pd.read_csv('file_path.csv', delimiter=';')
Обработка заголовков и индексов:
df = pd.read_csv('file_path.csv', header=None, index_col=0)
Excel является одним из самых популярных инструментов для обработки данных, и его файлы могут содержать большое количество информации.
Основной импорт:
df = pd.read_excel('file_path.xlsx')
Чтение определенного листа:
df = pd.read_excel('file_path.xlsx', sheet_name='Sheet2')
Пропуск лишних строк:
df = pd.read_excel('file_path.xlsx', skiprows=2, skipfooter=3)
Спецификация индекса
Вместо того чтобы использовать номера строк по умолчанию, вы можете определить один или несколько столбцов в качестве индекса:
df = pd.read_csv('file_path.csv', index_col=['Column1', 'Column2'])
Импорт определенных столбцов
Вы можете загрузить только определенные столбцы из файла:
df = pd.read_csv('file_path.csv', usecols=['Column1', 'Column3'])
Сжатие файла
Pandas также поддерживает чтение сжатых файлов:
df = pd.read_csv('file_path.csv.gz', compression='gzip')
Работа с датами
При работе с Excel файлами даты могут быть представлены в различных форматах. Pandas позволяет их корректно интерпретировать:
df = pd.read_excel('file_path.xlsx', parse_dates=['Date_Column'])
Преобразование столбцов
Применяя функцию при импорте:
def convert_function(cell_value):
return 'Converted: ' + str(cell_value)
df = pd.read_excel('file_path.xlsx', converters={'ColumnName': convert_function})
Обработка плохих строк
При чтении CSV файлов может возникнуть ошибка, если некоторые строки имеют больше столбцов, чем ожидалось. Для решения этой проблемы можно использовать параметр error_bad_lines
:
df = pd.read_csv('file_path.csv', error_bad_lines=False)
Предупреждения при импорте
Если при импорте данных вы хотите узнать о возможных проблемах, но не прерывать процесс:
df = pd.read_csv('file_path.csv', on_bad_lines='warn')
Определение типов данных при импорте. Это может существенно ускорить процесс загрузки и сэкономить память:
dtypes = {'column1': 'int32', 'column2': 'float32'}
df = pd.read_csv('file_path.csv', dtype=dtypes)
Использование конвертеров:
converters = {'column_name': lambda x: x.lower()}
df = pd.read_csv('file_path.csv', converters=converters)
Работа с пропущенными данными:
df = pd.read_csv('file_path.csv', na_values=['NA', 'N/A', 'None'])
Импорт данных из таких форматов, как CSV и Excel, – ключевой этап в начале большинства проектов по анализу данных. С пониманием особенностей каждого формата и умением эффективно использовать возможности Pandas этот процесс может быть быстрым и безболезненным.
Содержание: