В , эффективность модели основана на ее прогнозах и на том, насколько хорошо она обобщается на невидимые, независимые данные. Один из способов измерить точность модели - это учитывать смещение и дисперсию модели. В этой статье мы узнаем, как дисперсия смещения играет важную роль в определении подлинности модели. В этой статье обсуждаются следующие темы:
- Неприводимая ошибка
- Что такое предвзятость в машинном обучении?
- Дисперсия в модели машинного обучения?
- Как это влияет на модель машинного обучения?
- Компромисс смещения и отклонения
- Общая ошибка
Неприводимая ошибка
Любая модель в оценивается на основе ошибки предсказания на новом независимом, невидимом наборе данных. Ошибка - это не что иное, как разница между фактическим и прогнозируемым выходом. Чтобы вычислить ошибку, мы суммируем уменьшаемую и неснижаемую погрешности, также известное как разложение отклонения и дисперсии.
Необратимая ошибка - это не что иное, как те ошибки, которые нельзя уменьшить независимо от того, что вы используете в модели. Это вызвано необычными переменными, которые имеют прямое влияние на выходную переменную. Таким образом, чтобы сделать вашу модель эффективной, мы остаемся с уменьшаемой ошибкой, которую нам необходимо оптимизировать любой ценой.
Приводимая ошибка состоит из двух компонентов: Смещение и отклонение , наличие смещения и дисперсии влияет на точность модели несколькими способами, например переоснащение, недооборудование , так далее.Давайте посмотрим на смещение и дисперсию, чтобы понять, как бороться с уменьшаемой ошибкой в .
Что такое предвзятость в машинном обучении?
Смещение - это в основном то, насколько далеко мы предсказали значение от фактического. Мы говорим, что смещение слишком велико, если средние прогнозы далеки от фактических значений.
Большое смещение приведет к тому, что алгоритм упустит доминирующий образец или взаимосвязь между входными и выходными переменными. Когда смещение слишком велико, предполагается, что модель довольно проста и не учитывает сложность набора данных для определения взаимосвязи и, таким образом,вызывая недооборудование.
Дисперсия в модели машинного обучения?
На независимом, невидимом наборе данных или наборе проверки. Когда модель работает не так хорошо, как с обученным набором данных, существует вероятность того, что модель имеет дисперсию. Это в основном показывает, насколько предсказанные значения отличаются от фактических значений.
Высокая дисперсия в наборе данных означает, что модель обучалась с большим количеством шума и нерелевантных данных. Это приводит к переобучению модели. Когда модель имеет высокую дисперсию, она становится очень гибкой и делает неверные прогнозы для новых точек данных. Потому что он настроился на точки данных обучающего набора.
ssis учебник для начинающих 2012 с примерами
Давайте также попробуем математически понять концепцию отклонения-дисперсии. Пусть переменная, которую мы прогнозируем, будет Y, а другие независимые переменные - X. Теперь давайте предположим, что между двумя переменными существует такая взаимосвязь, что:
Y = f (X) + е
В приведенном выше уравнении Здесь является - расчетная ошибка со средним значением 0. Когда мы создаем классификатор с использованием таких алгоритмов, как линейная регрессия , и т. д., ожидаемая квадратичная ошибка в точке x будет:
err (x) = Смещение2+ Дисперсия + несводимая ошибка
Давайте также поймем, как отклонение смещения повлияет на Машинное обучение производительность модели.
Как это влияет на модель машинного обучения?
Мы можем разделить отношения между отклонением и дисперсией на четыре категории, перечисленные ниже:
- Высокая дисперсия - высокое смещение - модель непоследовательна и в среднем неточна.
- Низкая дисперсия - высокое смещение - модели согласованы, но в среднем низкие
- Высокая дисперсия - низкая погрешность - довольно точная, но непоследовательная по средним значениям
- Низкая дисперсия - низкий уровень смещения - это идеальный сценарий, модель в среднем последовательна и точна.
Хотя обнаружение смещения и дисперсии в модели вполне очевидно. Модель с высокой дисперсией будет иметь низкую ошибку обучения и высокую ошибку проверки. А в случае высокого смещения модель будет иметь высокую ошибку обучения, а ошибка проверки будет такой же, как ошибка обучения.
Хотя обнаружение кажется простым, настоящая задача - свести его к минимуму. В этом случае мы можем сделать следующее:
- Добавить дополнительные функции ввода
- Повышение сложности за счет введения полиномиальных функций
- Уменьшить срок регуляризации
- Получение дополнительных данных для обучения
Теперь, когда мы знаем, что такое смещение и дисперсия и как они влияют на нашу модель, давайте посмотрим на компромисс смещения и дисперсии.
Компромисс смещения и отклонения
Поиск правильного баланса между смещением и дисперсией модели называется компромиссом смещения и дисперсии. По сути, это способ убедиться, что модель ни в коем случае не переоборудована или не переоборудована.
Если модель слишком проста и имеет очень мало параметров, она будет страдать от высокого смещения и низкой дисперсии. С другой стороны, если модель имеет большое количество параметров, она будет иметь высокую дисперсию и низкую систематическую ошибку. Этот компромисс должен привести к идеально сбалансированным отношениям между ними. В идеале низкая систематическая ошибка и низкая дисперсия являются целью любой модели машинного обучения.
Общая ошибка
В любой модели машинного обучения хороший баланс между смещением и дисперсией служит идеальным сценарием с точки зрения точности прогноза и предотвращения переобучения или неполного подбора. Оптимальный баланс между смещением и дисперсией с точки зрения сложности алгоритма гарантирует, что модель никогда не будет переоснащена или недооценена.
Среднеквадратичная ошибка в статистической модели рассматривается как сумма квадрата систематической ошибки и дисперсии и дисперсии ошибки. Все это можно поместить в общую ошибку, где у нас есть систематическая ошибка, дисперсия и неснижаемая ошибка в модели.
Давайте разберемся, как можно уменьшить общую ошибку с помощью практической реализации.
Мы создали классификатор линейной регрессии в Линейная регрессия в машинном обучении статья об Edureka с использованием набора данных о диабете в модуле наборов данных scikit учиться библиотека.
как передать по значению в java
Когда мы оценили среднеквадратичную ошибку классификатора, мы получили общую ошибку около 2500.
Чтобы уменьшить общую ошибку, мы загрузили в классификатор больше данных, и взамен среднеквадратичная ошибка была уменьшена до 2000.
Это простая реализация уменьшения общей ошибки путем подачи в модель большего количества обучающих данных. Точно так же мы можем применять другие методы, чтобы уменьшить ошибку и поддерживать баланс между смещением и дисперсией для эффективной модели машинного обучения.
На этом мы подошли к концу этой статьи, где мы узнали о отклонении смещения в Mach.In Learning с его реализацией и вариантом использования. Я надеюсь, что вы понимаете все, о чем вам рассказали в этом руководстве.
Если вы нашли эту статью «Дисперсия смещения в машинном обучении» релевантной, ознакомьтесь с надежная компания онлайн-обучения с сетью из более чем 250 000 довольных учащихся по всему миру.
Мы здесь, чтобы помочь вам на каждом этапе вашего пути и предложить учебную программу, предназначенную для студентов и профессионалов, которые хотят учиться. . Курс разработан, чтобы дать вам фору в программировании на Python и обучить вас как основным, так и продвинутым концепциям Python, а также различным любить , , так далее.
Если у вас возникнут какие-либо вопросы, не стесняйтесь задавать все свои вопросы в разделе комментариев «Отклонение-отклонение в машинном обучении», и наша команда будет рада ответить.