Статистика для машинного обучения: руководство для начинающих



Эта статья о статистике машинного обучения представляет собой подробное руководство по различным концепциям статистики с примерами.

Понимание данных и умение извлекать из них пользу - навык десятилетия. Машинное обучение - один из таких основных навыков, который помогает компаниям его реализовать. Однако для начала вам необходимо правильно заложить основы. Итак, в этой статье я расскажу о нескольких основных концепциях и дам вам рекомендации, чтобы начать свое путешествие в области машинного обучения. Итак, в этой статье о статистике для машинного обучения будут обсуждаться следующие темы:

  1. Вероятность
  2. Статистика
  3. Линейная алгебра

Вероятность и статистика для машинного обучения:





Что такое вероятность?

Вероятность количественно определяет вероятность возникновения события. Например, если вы выбросите честный, беспристрастный кубик, то вероятность выпадения один прибытие 1/6 . Теперь, если вам интересно, wхай? Тогда ответ довольно прост!

Это потому, что существует шесть возможностей, и все они равновероятны (честная смерть). Поэтому мы можем добавить 1 + 1 + 1 + 1 + 1 + 1 = 6. Но, поскольку мы заинтересованы в событие, где появляется 1 . Есть событие может произойти только одним способом. Следовательно,



Вероятность появления 1 = 1/6

То же самое и со всеми другими числами, поскольку все события одинаково вероятны. Все просто, правда?

что такое хадуп больших данных

Что ж, частотное определение вероятности для этого примера будет звучать так: вероятность выпадения 1 - это отношение количества поворотов 1 к общему количеству раз бросания кубика, если кубик был брошен бесконечным раз.Какой в ​​этом смысл?



Давайте сделаем это поинтереснее. Рассмотрим два случая - вы бросили правильный кубик 5 раз. В одном случае появляется последовательность чисел - [1,4,2,6,4,3]. В противном случае получаем - [2,2,2,2,2,2]. Как вы думаете, какой из них более вероятен?

Оба варианта одинаково вероятны. Кажется странным, правда?

Теперь рассмотрим другой случай, когда все 5 рулонов в каждом случае независимый . То есть один бросок не влияет на другой. В первом случае, когда появляется 6, он понятия не имел, что 2 появились до него. Следовательно, все 5 бросков равновероятны.

Точно так же прямые двойки во втором случае можно понимать как последовательность независимых событий. И все эти события одинаково вероятны. В целом, поскольку у нас одинаковые кости, вероятность выпадения определенного числа в случае одного такая же, как и в случае два. Далее в этой статье о статистике машинного обучения давайте разберемся с термином Независимость.

Независимость

Два события A и B называются независимыми, если возникновение A не влияет на событие B . Например, если вы подбрасываете монету и бросаете кубик, результат игры не влияет на то, выпадет ли на монете орел или решка. Также для два независимых события A и B , то вероятность того, что A и B могут встречаться вместе . Так, например, если вы хотите, чтобы вероятность того, что на монете выпадет орел, а на кубике, - 3.

P (A и B) = P (A) * P (B)

Следовательно, P = & frac12 (вероятность выпадения орлов) * ⅙ (вероятность выпадения трех) = 1/12

В предыдущем примере для обоих случаев P = ⅙ * ⅙ * ⅙ * ⅙ * ⅙ * ⅙.

Теперь поговорим о событиях, которые не являются независимыми. Рассмотрим следующую таблицу:

Ожирение Не ожирение
Проблемы с сердцемЧетыре пять15
Нет проблем с сердцем1030

Был проведен опрос 100 человек. У 60 были проблемы с сердцем, а у 40 - нет. Из 60 пациентов с проблемами сердца 45 страдали ожирением. Из 40 человек без проблем с сердцем 10 страдали ожирением. Если вас спросят -

  1. Какова вероятность проблемы с сердцем?
  2. Какова вероятность иметь проблемы с сердцем и не страдать ожирением?

Ответ на первые вопросы прост - 60/100. Для второго будет 15/100. Теперь рассмотрим третий вопрос - человека выбрали случайным образом. У него была обнаружена болезнь сердца. Какова вероятность того, что он страдает ожирением?

А теперь подумайте о данной вам информации - известно, что у него болезнь сердца. Следовательно, он не может быть из 40 лет, у которых нет сердечных заболеваний. Всего 60 возможных вариантов (верхняя строка в таблице). Теперь, среди этих уменьшенных возможностей, вероятность того, что он страдает ожирением, составляет 45/60. Теперь, когда вы узнали, что такое независимые события, в следующей статье о статистике машинного обучения давайте разберемся с условными вероятностями.

Условные вероятности

Чтобы понять условные вероятности, давайте продолжим обсуждение вышеприведенным примером. Статус ожирения и статус страдающего сердечной проблемой не являются независимыми. Если бы ожирение не влияло на проблемы с сердцем, то количество случаев ожирения и отсутствия ожирения среди людей, имеющих проблемы с сердцем, было бы одинаковым.

Также нам сообщили, что у человека проблемы с сердцем, и нам нужно было выяснить вероятность того, что он страдает ожирением. Таким образом, вероятность в данном случае, как говорят, обусловлена ​​тем, что у него проблемы с сердцем. Если вероятность возникновения события A обусловлена ​​событием B, мы представляем его как

P (A | B)

Теперь есть теорема, которая помогает нам вычислить эту условную вероятность. Это называется Правило Байеса .

P (A | B) = P (A и B) / P (B)

Вы можете проверить эту теорему, подключив только что обсужденный пример. Если вы уже поняли, вы можете начать со следующего - Наивный байесовский . Он использует условные вероятности, чтобы определить, является ли электронное письмо спамом. Он может выполнять множество других задач классификации. Но по сути, условная вероятность лежит в основе .

Статистика:

Статистика используется для обобщения и вывода большого количества точек данных. В науках о данных и машинном обучении вы часто встретите следующую терминологию

как добавить в Java
  • Меры центральности
  • Распределения (особенно нормальные)

Меры центральности и меры спредов

Значить:

Среднее - это просто среднее число . Чтобы узнать среднее значение, вам нужно сложить числа и разделить его на количество чисел. Например, среднее значение [1,2,3,4,5] составляет 15/5 = 3.

mean-statistics-for-machine-learning

Медиана:

Медиана - это средний элемент набора чисел когда они расположены в порядке возрастания. Например, числа [1,2,4,3,5] расположены в порядке возрастания [1,2,3,4,5]. Среднее из них - 3. Следовательно, медиана равна 3. Но что, если число чисел четное и, следовательно, не имеет среднего числа? В этом случае вы берете среднее из двух самых средних чисел. Для последовательности из 2n чисел в порядке возрастания усредните n-е и (n + 1)thчисло, чтобы получить медианное значение. Пример - [1,2,3,4,5,6] имеет медианное значение (3 + 4) / 2 = 3,5

Режим:

Режим - это просто наиболее частое число в наборе чисел . Например, режим [1,2,3,3,4,5,5,5] равен 5.

Разница:

Дисперсия - не мера центральности. Он измеряет как ваши данные распределяются вокруг среднего . Количественно это выражается как

Икс- среднее значение N чисел. Вы берете точку, вычитаете среднее значение, возводите эту разницу в квадрат. Сделайте это для всех N чисел и усредните их. Квадратный корень из дисперсии называется стандартным отклонением. Далее в этой статье о статистике машинного обучения давайте разберемся с нормальным распределением.

Нормальное распределение

Распространение помогает нам понять, как распространяются наши данные . Например, в выборке возрастов у нас может быть больше молодых людей, чем пожилых людей, и, следовательно, меньшие значения возраста больше, чем большие значения. Но как определить распределение? Рассмотрим пример ниже

По оси ординат отложена плотность. Режим этого распределения равен 30, поскольку это пик и, следовательно, наиболее частый. Мы также можем найти медианное значение. Медиана находится в точке на оси x, где покрывается половина площади под кривой. Площадь под любым нормальным распределением равна 1, потому что сумма вероятностей всех событий равна 1. Например,

Медиана в приведенном выше случае составляет около 4. Это означает, что площадь под кривой до 4 такая же, как и после 4. Рассмотрим другой пример.

Мы видим три нормальных распределения. У синего и красного одинаковое среднее значение. У красного больше дисперсия. Следовательно, он более рассредоточенный, чем синий. Но поскольку площадь должна быть равна 1, пик красной кривой короче синей кривой, чтобы площадь оставалась постоянной.

Надеюсь, вы поняли основную статистику и нормальные распределения. Теперь, в следующей статье о статистике для машинного обучения, давайте узнаем о линейной алгебре.

Линейная алгебра

Современный ИИ был бы невозможен без линейной алгебры. Он составляет основу Глубокое обучение и использовался даже в простых алгоритмах, таких как . Без промедления, приступим.

Вы должны быть знакомы с векторами. Это своего рода геометрические изображения в пространстве. Например, вектор [3,4] имеет 3 единицы по оси x и 4 единицы по оси y. Рассмотрим следующее изображение -

Вектор d1 имеет 0,707 единиц по оси x и 0,707 единиц по оси y. Вектор имеет одно измерение. У него обязательно есть величина и направление. Например,

На изображении выше есть вектор (4,3). Его величина равна 5, а по оси абсцисс он составляет 36,9 градуса.

Итак, что такое матрица? Матрица - это многомерный массив чисел. Для чего это используется? Посмотрим вперед. Но сначала давайте посмотрим, как это используется.

Матрица

Матрица может иметь много измерений. Давайте рассмотрим двумерную матрицу. В нем есть строки (m) и столбцы (n). Следовательно, он имеет m * n элементов.

Например,

Эта матрица состоит из 5 строк и 5 столбцов. Назовем его A. Следовательно, A (2,3) - это запись во второй строке и третьем столбце, которая равна 8.

программа java для подключения к базе данных mysql

Теперь, когда вы знаете, что такое матрица, давайте рассмотрим различные операции матрицы.

Матричные операции

Добавление матриц

Две матрицы такой же размеры могут быть добавлены. Добавление происходит поэлементно.

Скалярное умножение

Матрицу можно умножить на скалярную величину. Такое умножение приводит к тому, что каждая запись в матрице умножается на скаляр. Скаляр - это просто число

Матрица транспонирования

Переставить матрицу просто. Для матрицы A (m, n) пусть A ’будет ее транспонированием. потом

A '(i, j) = A (j, i)

Например,

Умножение матриц

Это, вероятно, немного сложнее, чем другие операции. Прежде чем мы углубимся в это, давайте определим скалярное произведение двух векторов.

Рассмотрим вектор X = [1,4,6,0] и вектор Y = [2,3,4,5]. Тогда скалярное произведение между X и Y определяется как

X.Y = 1 * 2 + 4 * 3 + 6 * 4 + 0 * 5 = 38

Итак, это поэлементное умножение и сложение. Сейчас же,давайте рассмотрим две матрицы A (m, n) и B (n, k), где m, n, k - размеры и, следовательно, целые числа. Мы определяем умножение матриц как

В приведенном выше примере первый элемент произведения (44) получается скалярным произведением первой строки левой матрицы на первый столбец правой матрицы. Точно так же 72 получается скалярным произведением первой строки левой матрицы на второй столбец правой матрицы.

Обратите внимание, что для левой матрицы количество столбцов должно быть равно количеству строк в правом столбце. В нашем случае продукт AB существует, но не BA, поскольку m не равно k. Для двух матриц A (m, n) и B (n, k) определено произведение AB, и размерность продукта равна (m, k) (самые внешние размеры (m, n), (n, k )). Но BA не определен, если m = k.

На этом мы подошли к концу статьи о статистике машинного обучения. Я надеюсь, что вы кое-что поняли из жаргона машинного обучения. Но на этом все не заканчивается. Чтобы убедиться, что вы готовы к работе в отрасли, вы можете посетить курсы Edureka по Data Science и AI. Их можно найти