Учебник Python Pandas: изучение Pandas для анализа данных



В этом руководстве Python Pandas вы изучите различные операции Pandas. Он также включает вариант использования, в котором вы можете анализировать данные с помощью Pandas.

В этом блоге мы обсудим анализ данных с помощью Pandas в Python.Сегодня, это популярный навык в отрасли, который превзошел PHP в 2017 году и C # в 2018 году с точки зрения общей популярности и использования.Прежде чем говорить о Pandas, нужно понять концепцию массивов Numpy. Зачем? Поскольку Pandas - это программная библиотека с открытым исходным кодом, построенная на основе . В этом руководстве по Python Pandas я расскажу вам о следующих темах, которые послужат основой для следующих блогов:

Давайте начнем. :-)





Что такое Python Pandas?

Pandas используется для обработки, анализа и очистки данных. Python pandas хорошо подходит для разных типов данных, таких как:

  • Табличные данные с разнотипными столбцами
  • Упорядоченные и неупорядоченные данные временных рядов
  • Произвольные матричные данные с метками строк и столбцов
  • Немаркированные данные
  • Любая другая форма наборов данных наблюдений или статистических данных

Как установить Панды?

Чтобы установить Python Pandas, перейдите в свою командную строку / терминал и введите «pip install pandas» или, если в вашей системе установлена ​​anaconda, просто введите «conda install pandas». После завершения установки перейдите в свою среду IDE (Jupyter, PyCharm и т. Д.) И просто импортируйте ее, набрав: «import pandas as pd»



Продвигаясь вперед в учебнике Python pandas, давайте взглянем на некоторые из его операций:

Python Pandas Операции

Используя Python pandas, вы можете выполнять множество операций с сериями, фреймами данных, отсутствующими данными, группировать по и т. Д. Некоторые из общих операций для манипулирования данными перечислены ниже:



PandasOperations - Учебное пособие по Python Pandas - Edureka

Теперь давайте разберемся со всеми этими операциями по очереди.

Нарезка фрейма данных

Чтобы выполнить нарезку данных, вам понадобится фрейм данных. Не волнуйтесь, фрейм данных - это двухмерная структура данных и наиболее распространенный объект pandas. Итак, сначала давайте создадим фрейм данных.

Обратитесь к приведенному ниже коду для его реализации в PyCharm.:

импортировать панды как pd XYZ_web = {'Day': [1,2,3,4,5,6], 'Visitors': [1000, 700,6000,1000,400,350], 'Bounce_Rate': [20,20, 23,15,10,34]} df = pd.DataFrame (XYZ_web) print (df)

Вывод :

Bounce_Rate Day Посетители 0 20 1 1000 1 20 2700 2 23 3 6000 3 15 4 1000 4 10 5400 5 34 6350

Приведенный выше код преобразует словарь в фрейм данных pandas вместе с индексом слева. Теперь давайте выделим определенный столбец из этого фрейма данных. См. Изображение ниже:

печать (df.head (2))

Вывод:

Bounce_Rate День Посетители 0 20 1 1000 1 20 2700

Точно так же, если вам нужны последние две строки данных, введите следующую команду:

печать (df.tail (2))

Вывод:

Bounce_Rate Day Посетители 4 10 5 400 5 34 6 350

Далее в руководстве Python Pandas давайте выполним слияние и объединение.

Слияние и присоединение

При слиянии вы можете объединить два фрейма данных в один фрейм данных. Вы также можете решить, какие столбцы вы хотите сделать общими. Позвольте мне реализовать это на практике. Сначала я создам три фрейма данных, которые имеют несколько пар ключ-значение, а затем объединю фреймы данных вместе. См. Код ниже:

HPI IND_GDP Int_Rate 0 80 50 2 1 90 45 1 2 70 45 2 3 60 67 3

Вывод:

импортировать панды как pd df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45, 67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3] , 'IND_GDP': [50,45,45,67]}, index = [2005, 2006,2007,2008]) объединено = pd.merge (df1, df2) print (объединено)

Как вы можете видеть выше, два фрейма данных слились в один фрейм данных. Теперь вы также можете указать столбец, который хотите сделать общим. Например, я хочу, чтобы столбец «HPI» был общим, а для всего остального - отдельные столбцы. Итак, позвольте мне реализовать это практически:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, index = [2005, 2006,2007,2008]) merged = pd.merge (df1, df2, on = 'HPI') print (объединено)

Вывод:

IND_GDP Int_Rate Low_Tier_HPI Безработица 2001 50 2 50.0 1.0 2002 45 1 NaN NaN 2003 45 2 45.0 3.0 2004 67 3 67.0 5.0 2004 67 3 34.0 6.0

Далее давайте разберемся присоединение в учебнике по python pandas. Это еще один удобный метод объединения двух фреймов данных с разными индексами в один фрейм данных результата. Это очень похоже на операцию «слияния», за исключением того, что операция соединения будет выполняться по «индексу», а не по «столбцам». Реализуем это практически.

df1 = pd.DataFrame ({'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'Low_Tier_HPI': [50,45,67,34], 'Unemployment': [1,3,5,6]}, index = [2001, 2003,2004,2004]) connected = df1. присоединиться (df2) печать (присоединиться)

Вывод:

IND_GDP Int_Rate Low_Tier_HPI Безработица 2001 50 2 50.0 1.0 2002 45 1 NaN NaN 2003 45 2 45.0 3.0 2004 67 3 67.0 5.0 2004 67 3 34.0 6.0

Как вы можете заметить в приведенном выше выводе, в 2002 году (индекс) не было значения, прикрепленного к столбцам «low_tier_HPI» и «безработица», поэтому было напечатано NaN (не число). Позже в 2004 году доступны оба значения, поэтому соответствующие значения были напечатаны.

Вы можете просмотреть эту запись учебника Python Pandas, в котором наш инструктор подробно объяснил темы с примерами, которые помогут вам лучше понять эту концепцию.

Python для анализа данных | Учебное пособие по Python Pandas | Обучение Python | Эдурека


Продвигаясь вперед в учебнике Python pandas, давайте разберемся, как объединить два фрейма данных.

Конкатенация

Конкатенация в основном склеивает фреймы данных вместе. Вы можете выбрать измерение, по которому хотите выполнить конкатенацию. Для этого просто используйте «pd.concat» и передайте список фреймов данных для объединения. Рассмотрим пример ниже.

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, index = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2]) print (concat)

Вывод:

HPI IND_GDP Int_Rate 2001 80 50 2 2002 90 45 1 2003 70 45 2 2004 60 67 3 2005 80 50 2 2006 90 45 1 2007 70 45 2 2008 60 67 3

Как вы можете видеть выше, два фрейма данных склеены в один фрейм данных, где индекс начинается с 2001 года вплоть до 2008 года. Затем вы также можете указать axis = 1 для объединения, слияния или канкатенации по столбцам. См. Код ниже:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, index = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2], axis = 1) print (concat)

Вывод:

HPI IND_GDP Int_Rate HPI IND_GDP Int_Rate 2001 80.0 50.0 2.0 NaN NaN NaN 2002 90.0 45.0 1.0 NaN NaN NaN 2003 70.0 45.0 2.0 NaN NaN NaN 2004 60.0 67.0 3.0 NaN NaN NaN 2005 NaN NaN NaN 80.0 50.0 2.0 2006 NaN NaN NaN 90.0 45.0 1.0 2007 NaN NaN NaN 70,0 45,0 2,0 2008 NaN NaN NaN 60,0 67,0 3,0

Как вы могли заметить выше, есть множество пропущенных значений. Это происходит потому, что в фреймах данных не было значений для всех индексов, которые вы хотите объединить. Поэтому вы должны убедиться, что у вас есть вся информация, выстраивающаяся правильно, когда вы присоединяетесь или объединяете на оси.

Изменить индекс

Далее в руководстве по python pandas мы поймем, как изменить значения индекса во фрейме данных. Например, давайте создадим фрейм данных с некоторыми парами ключ-значение в словаре и изменим значения индекса. Рассмотрим пример ниже:

Посмотрим, как это происходит на самом деле:

импортировать панды как pd df = pd.DataFrame ({'Day': [1,2,3,4], 'Visitors': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df.set_index ('День', inplace = True) print (df)

Вывод:

Bounce_Rate Посетители День 1 20 200 2 45 100 3 60 230 4 10 300

Как вы можете заметить в выходных данных выше, значение индекса было изменено по отношению к столбцу «День».

Браузер db для учебника sqlite

Изменить заголовки столбцов

Давайте теперь изменим заголовки столбцов в этом руководстве по python pandas. Давайте возьмем тот же пример, где я изменю заголовок столбца с «Посетители» на «Пользователи». Итак, позвольте мне реализовать это практически.

импортировать панды как pd df = pd.DataFrame ({'Day': [1,2,3,4], 'Visitors': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df = df.rename (columns = {'Visitors': 'Users'}) print (df)

Вывод:

Bounce_Rate Day Пользователи 0 20 1200 1 45 2100 2 60 3230 3 10 4300

Как вы видите выше, заголовок столбца «Посетители» был изменен на «Пользователи». Далее в руководстве по python pandas давайте выполним изменение данных.

Изменение данных

В изменении данных вы можете преобразовать определенные данные в другой формат. Например, если у вас есть файл .csv, вы также можете преобразовать его в .html или любой другой формат данных. Итак, позвольте мне реализовать это практически.

импортировать панды как pd country = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-молодежь-безработицаAPI_ILO_country_YU.csv', index_col = 0) country.to_html ('edu.html')

После запуска этого кода будет создан файл HTML с именем «edu.html». Вы можете напрямую скопировать путь к файлу и вставить его в свой браузер, который отображает данные в формате HTML. См. Снимок экрана ниже:


Далее в руководстве по python pandas давайте рассмотрим пример использования, в котором говорится о глобальной безработице среди молодежи.

Учебник Python Pandas: пример использования для анализа данных о безработице среди молодежи

Постановка задачи :Вам предоставляется набор данных, который включает процент безработной молодежи во всем мире с 2010 по 2014 год. Вы должны использовать этот набор данных и найти изменение процента молодежи для каждой страны с 2010 по 2011 год.

Во-первых, давайте разберемся с набором данных, который содержит такие столбцы, как название страны, код страны и год с 2010 по 2014. Теперь, используя pandas, мы будем использовать «pd.read_csv» для чтения файла формата файла .csv.
См. Снимок экрана ниже:

Давайте продвинемся вперед и проведем анализ данных, в котором мы собираемся выяснить процентное изменение безработной молодежи в период с 2010 по 2011 год. Затем мы визуализируем то же самое, используя library, которая представляет собой мощную библиотеку для визуализации на Python. Его можно использовать в скриптах Python, оболочке, серверах веб-приложений и других инструментах графического интерфейса. Вы можете использовать подробнее здесь:

Теперь давайте реализуем код в PyCharm:

import pandas as pd import matplotlib.pyplot as plt from matplotlib import style style.use ('fivethirtyeight') country = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-Youth-InsloymentAPI_ILO_country_YU.csv', index_col. = 0) df head (5) df = df.set_index (['Country Code']) sd = sd.reindex (columns = ['2010', '2011']]) db = sd.diff (axis = 1) db.plot (kind = 'бар') plt.show ()

Как вы можете видеть выше, я провел анализ 5 верхних строк фрейма данных страны. Затем я определил значение индекса как «Код страны», а затем повторно проиндексировал столбец на 2010 и 2011 годы. Затем у нас есть еще одна база данных фрейма данных, которая печатает разницу между двумя столбцами или процентное изменение безработной молодежи. с 2010 по 2011 год. Наконец, я построил гистограмму, используя библиотеку Matplotlib в Python.


Теперь, если вы заметили на приведенном выше графике, в Афганистане (AFG) в период с 2010 по 2011 год рост безработной молодежи составил прибл. 0,25%. Затем в Анголе (AGO) наблюдается отрицательная тенденция, что означает сокращение доли безработной молодежи. Точно так же вы можете проводить анализ различных наборов данных.

Надеюсь, мой блог «Учебник по Python Pandas» был для вас актуален. Чтобы получить более глубокие знания о Python и его различных приложениях, вы можете зарегистрироваться в режиме реального времени. от Edureka с поддержкой 24/7 и пожизненным доступом.

Есть вопрос к нам? Пожалуйста, укажите это в разделе комментариев этого блога «Учебник по Python Pandas», и мы свяжемся с вами как можно скорее.