
Данные находятся повсюду, и их можно хранить в разных форматах. Из всех этих форматов CSV и Excel являются одними из самых популярных. Благодаря библиотеке Pandas в Python импорт данных из этих форматов становится простым и эффективным.
CSV (Comma-Separated Values) – это формат файла, в котором данные записаны в виде строк, а столбцы разделены определенным символом (зачастую запятой).
Базовый импорт:
import pandas as pd
df = pd.read_csv('file_path.csv')Работа с разделителями:
В зависимости от локализации или специфики файла разделитель может отличаться.
df = pd.read_csv('file_path.csv', delimiter=';')Обработка заголовков и индексов:
df = pd.read_csv('file_path.csv', header=None, index_col=0)Excel является одним из самых популярных инструментов для обработки данных, и его файлы могут содержать большое количество информации.
Основной импорт:
df = pd.read_excel('file_path.xlsx')Чтение определенного листа:
df = pd.read_excel('file_path.xlsx', sheet_name='Sheet2')Пропуск лишних строк:
df = pd.read_excel('file_path.xlsx', skiprows=2, skipfooter=3)Спецификация индекса
Вместо того чтобы использовать номера строк по умолчанию, вы можете определить один или несколько столбцов в качестве индекса:
df = pd.read_csv('file_path.csv', index_col=['Column1', 'Column2'])Импорт определенных столбцов
Вы можете загрузить только определенные столбцы из файла:
df = pd.read_csv('file_path.csv', usecols=['Column1', 'Column3'])Сжатие файла
Pandas также поддерживает чтение сжатых файлов:
df = pd.read_csv('file_path.csv.gz', compression='gzip')Работа с датами
При работе с Excel файлами даты могут быть представлены в различных форматах. Pandas позволяет их корректно интерпретировать:
df = pd.read_excel('file_path.xlsx', parse_dates=['Date_Column'])Преобразование столбцов
Применяя функцию при импорте:
def convert_function(cell_value):
return 'Converted: ' + str(cell_value)
df = pd.read_excel('file_path.xlsx', converters={'ColumnName': convert_function})Обработка плохих строк
При чтении CSV файлов может возникнуть ошибка, если некоторые строки имеют больше столбцов, чем ожидалось. Для решения этой проблемы можно использовать параметр error_bad_lines:
df = pd.read_csv('file_path.csv', error_bad_lines=False)Предупреждения при импорте
Если при импорте данных вы хотите узнать о возможных проблемах, но не прерывать процесс:
df = pd.read_csv('file_path.csv', on_bad_lines='warn')Определение типов данных при импорте. Это может существенно ускорить процесс загрузки и сэкономить память:
dtypes = {'column1': 'int32', 'column2': 'float32'}
df = pd.read_csv('file_path.csv', dtype=dtypes)Использование конвертеров:
converters = {'column_name': lambda x: x.lower()}
df = pd.read_csv('file_path.csv', converters=converters)Работа с пропущенными данными:
df = pd.read_csv('file_path.csv', na_values=['NA', 'N/A', 'None'])Импорт данных из таких форматов, как CSV и Excel, – ключевой этап в начале большинства проектов по анализу данных. С пониманием особенностей каждого формата и умением эффективно использовать возможности Pandas этот процесс может быть быстрым и безболезненным.
Содержание: