Что такое смещение-дисперсия в машинном обучении?



В этой статье рассматриваются концепции систематической ошибки и дисперсии в машинном обучении, а также взаимосвязь между ними, определяющая точность прогнозов модели.

В , эффективность модели основана на ее прогнозах и на том, насколько хорошо она обобщается на невидимые, независимые данные. Один из способов измерить точность модели - это учитывать смещение и дисперсию модели. В этой статье мы узнаем, как дисперсия смещения играет важную роль в определении подлинности модели. В этой статье обсуждаются следующие темы:

Неприводимая ошибка

Любая модель в оценивается на основе ошибки предсказания на новом независимом, невидимом наборе данных. Ошибка - это не что иное, как разница между фактическим и прогнозируемым выходом. Чтобы вычислить ошибку, мы суммируем уменьшаемую и неснижаемую погрешности, также известное как разложение отклонения и дисперсии.





Необратимая ошибка - это не что иное, как те ошибки, которые нельзя уменьшить независимо от того, что вы используете в модели. Это вызвано необычными переменными, которые имеют прямое влияние на выходную переменную. Таким образом, чтобы сделать вашу модель эффективной, мы остаемся с уменьшаемой ошибкой, которую нам необходимо оптимизировать любой ценой.

Приводимая ошибка состоит из двух компонентов: Смещение и отклонение , наличие смещения и дисперсии влияет на точность модели несколькими способами, например переоснащение, недооборудование , так далее.Давайте посмотрим на смещение и дисперсию, чтобы понять, как бороться с уменьшаемой ошибкой в .



Что такое предвзятость в машинном обучении?

Смещение - это в основном то, насколько далеко мы предсказали значение от фактического. Мы говорим, что смещение слишком велико, если средние прогнозы далеки от фактических значений.

Большое смещение приведет к тому, что алгоритм упустит доминирующий образец или взаимосвязь между входными и выходными переменными. Когда смещение слишком велико, предполагается, что модель довольно проста и не учитывает сложность набора данных для определения взаимосвязи и, таким образом,вызывая недооборудование.

Дисперсия в модели машинного обучения?

На независимом, невидимом наборе данных или наборе проверки. Когда модель работает не так хорошо, как с обученным набором данных, существует вероятность того, что модель имеет дисперсию. Это в основном показывает, насколько предсказанные значения отличаются от фактических значений.



Высокая дисперсия в наборе данных означает, что модель обучалась с большим количеством шума и нерелевантных данных. Это приводит к переобучению модели. Когда модель имеет высокую дисперсию, она становится очень гибкой и делает неверные прогнозы для новых точек данных. Потому что он настроился на точки данных обучающего набора.

ssis учебник для начинающих 2012 с примерами

Давайте также попробуем математически понять концепцию отклонения-дисперсии. Пусть переменная, которую мы прогнозируем, будет Y, а другие независимые переменные - X. Теперь давайте предположим, что между двумя переменными существует такая взаимосвязь, что:

Y = f (X) + е

В приведенном выше уравнении Здесь является - расчетная ошибка со средним значением 0. Когда мы создаем классификатор с использованием таких алгоритмов, как линейная регрессия , и т. д., ожидаемая квадратичная ошибка в точке x будет:

err (x) = Смещение2+ Дисперсия + несводимая ошибка

Давайте также поймем, как отклонение смещения повлияет на Машинное обучение производительность модели.

Как это влияет на модель машинного обучения?

Мы можем разделить отношения между отклонением и дисперсией на четыре категории, перечисленные ниже:

  1. Высокая дисперсия - высокое смещение - модель непоследовательна и в среднем неточна.
  2. Низкая дисперсия - высокое смещение - модели согласованы, но в среднем низкие
  3. Высокая дисперсия - низкая погрешность - довольно точная, но непоследовательная по средним значениям
  4. Низкая дисперсия - низкий уровень смещения - это идеальный сценарий, модель в среднем последовательна и точна.

смещение-дисперсия в машинном обучении-edureka

Хотя обнаружение смещения и дисперсии в модели вполне очевидно. Модель с высокой дисперсией будет иметь низкую ошибку обучения и высокую ошибку проверки. А в случае высокого смещения модель будет иметь высокую ошибку обучения, а ошибка проверки будет такой же, как ошибка обучения.

Хотя обнаружение кажется простым, настоящая задача - свести его к минимуму. В этом случае мы можем сделать следующее:

  • Добавить дополнительные функции ввода
  • Повышение сложности за счет введения полиномиальных функций
  • Уменьшить срок регуляризации
  • Получение дополнительных данных для обучения

Теперь, когда мы знаем, что такое смещение и дисперсия и как они влияют на нашу модель, давайте посмотрим на компромисс смещения и дисперсии.

Компромисс смещения и отклонения

Поиск правильного баланса между смещением и дисперсией модели называется компромиссом смещения и дисперсии. По сути, это способ убедиться, что модель ни в коем случае не переоборудована или не переоборудована.

Если модель слишком проста и имеет очень мало параметров, она будет страдать от высокого смещения и низкой дисперсии. С другой стороны, если модель имеет большое количество параметров, она будет иметь высокую дисперсию и низкую систематическую ошибку. Этот компромисс должен привести к идеально сбалансированным отношениям между ними. В идеале низкая систематическая ошибка и низкая дисперсия являются целью любой модели машинного обучения.

Общая ошибка

В любой модели машинного обучения хороший баланс между смещением и дисперсией служит идеальным сценарием с точки зрения точности прогноза и предотвращения переобучения или неполного подбора. Оптимальный баланс между смещением и дисперсией с точки зрения сложности алгоритма гарантирует, что модель никогда не будет переоснащена или недооценена.

Среднеквадратичная ошибка в статистической модели рассматривается как сумма квадрата систематической ошибки и дисперсии и дисперсии ошибки. Все это можно поместить в общую ошибку, где у нас есть систематическая ошибка, дисперсия и неснижаемая ошибка в модели.

Давайте разберемся, как можно уменьшить общую ошибку с помощью практической реализации.

Мы создали классификатор линейной регрессии в Линейная регрессия в машинном обучении статья об Edureka с использованием набора данных о диабете в модуле наборов данных scikit учиться библиотека.

как передать по значению в java

Когда мы оценили среднеквадратичную ошибку классификатора, мы получили общую ошибку около 2500.

Чтобы уменьшить общую ошибку, мы загрузили в классификатор больше данных, и взамен среднеквадратичная ошибка была уменьшена до 2000.

Это простая реализация уменьшения общей ошибки путем подачи в модель большего количества обучающих данных. Точно так же мы можем применять другие методы, чтобы уменьшить ошибку и поддерживать баланс между смещением и дисперсией для эффективной модели машинного обучения.

На этом мы подошли к концу этой статьи, где мы узнали о отклонении смещения в Mach.In Learning с его реализацией и вариантом использования. Я надеюсь, что вы понимаете все, о чем вам рассказали в этом руководстве.

Если вы нашли эту статью «Дисперсия смещения в машинном обучении» релевантной, ознакомьтесь с надежная компания онлайн-обучения с сетью из более чем 250 000 довольных учащихся по всему миру.

Мы здесь, чтобы помочь вам на каждом этапе вашего пути и предложить учебную программу, предназначенную для студентов и профессионалов, которые хотят учиться. . Курс разработан, чтобы дать вам фору в программировании на Python и обучить вас как основным, так и продвинутым концепциям Python, а также различным любить , , так далее.

Если у вас возникнут какие-либо вопросы, не стесняйтесь задавать все свои вопросы в разделе комментариев «Отклонение-отклонение в машинном обучении», и наша команда будет рада ответить.