Распознавание речи Python: как преобразовать речь в текст?



В этом блоге рассматривается концепция распознавания речи в Python с примером программы, которая переводит речь в текст с помощью распознавания речи.

Речь - наиболее распространенное средство общения во всем мире. Большинство населения мира использует речь для общения друг с другом. Предположим, мы строим модель и вместо письменного подхода мы хотим, чтобы наша система реагировала на речь, это становится довольно сложным и требует обработки большого количества данных. Система распознавания речи преодолевает этот барьер, переводя речь в текст. В этом блоге мы рассмотрим распознавание речи модуль в python . Вот список того же:

Как работает распознавание речи?

Система распознавания речи в основном переводит произнесенные высказывания в текст. Существуют различные примеры из реальной жизни системы распознавания речи. Например, siri, который принимает речь как ввод и переводит ее в текст.





Преимущество использования системы распознавания речи в том, что она преодолевает барьер грамотности. Модель распознавания речи может служить как грамотной, так и неграмотной аудитории, поскольку она ориентирована на речевые высказывания.

Мы также можем провести инвентаризацию всех языков мира, находящихся под угрозой исчезновения, с помощью системы распознавания речи. Хотя это выглядит довольно интригующим и совсем несложным, система распознавания речи сталкивается с множеством проблем в процессе создания.



Проблемы, с которыми сталкивается распознавание речи Система

Систему распознавания речи сделать сложно, потому что у нас очень много источников изменчивости, когда дело касается речи.

Стиль разговора

Каждый человек говорит по-разному, включая акценты. Как мы все знаем, у нас разные акценты в разговоре по-английски. Когда речь идет о самом распространенном языке в мире, есть американский английский, британский английский и множество других акцентов. Произношение также затрудняет для системы распознавания речи перевод речи в целом.



Окружающая среда

Окружающая среда также добавляет системе много фонового шума. Изолированная комната по сравнению с аудиторией будет иметь много разных фоновых шумов. Даже эхо может добавить в систему много шума.

Характеристики динамика

Голос пожилого человека может отличаться от голоса младенца. Характеристики речи человека зависят от многих факторов, в том числе от резкости и ясности.

Языковые ограничения

Некоторые устные высказывания могут не иметь реального значения, когда дело доходит до перевода.

Преодолев эти проблемы, любая система распознавания речи вполне может преобразовать речь в текст. Теперь, когда мы знаем, как работает распознавание речи, давайте посмотрим на разные которые доступны для распознавания речи в Python.

Доступные пакеты для распознавания речи на Python

  • Apiai

  • Распознавание речи

  • Google_speech_cloud

  • сборка

  • Карманный сфинкс

  • Watson_developer_cloud

  • белый

Мы рассмотрим детали пакета SpeechRecognition в этом блоге, а также давайте заглянем в полосу памяти, чтобы понять, как системы распознавания речи развивались за эти годы.

Самым первым прототипом распознавания речи была игрушка под названием радио рекс который пришелся примерно на 1920-е годы. Там была собака, сидящая в собачьей будке, которая выскакивала, как только кто-нибудь произносил слово «рекс».

Единственная проблема модели заключалась в том, что пружина была прикреплена к электромагниту, который был чувствителен к энергии в диапазоне около 500 Гц. Будучи чисто частотным детектором, его можно было бы дистанционно назвать моделью распознавания речи.

В 1962 году IBM представила обувная коробка модель, которая могла распознавать отдельные слова, а также выполнять несколько арифметических операций.

Потом пришел HARPY от CMU, который смог распознать связную речь из словаря из 1000 слов. Примерно в 1980-х годах люди начали использовать статистические модели, и одной из наиболее часто используемых парадигм машинного обучения была модель скрытого маркова.

После внедрения глубоких нейронных сетей большинство моделей распознавания речи работают в нейронных сетях. Возможности невообразимы с нейронными сетями, словарный запас может увеличиваться до 10 тысяч слов и более.

Как установить SpeechRecognition в Python?

Чтобы установить пакет SpeechRecognition - это python, выполните следующую команду в терминале, и он будет установлен в вашей системе.

установка-распознавание речи python-edureka

Другой подход к этому может заключаться в добавлении пакета из интерпретатора проекта, если вы используете

В пакете есть класс Recognizer, в котором, по сути, происходит волшебство. По сути, это класс, который используется для распознавания речи. Ниже приведены семь методов, которые могут читать различные аудиоисточники с использованием разных API.

  • признать_бинг ()
  • признать_google ()
  • признать_google_cloud ()
  • признать_houndify ()
  • признать_ibm ()
  • признать_wit ()
  • признать_сфинкс ()

Теперь распознавание_sphinx можно использовать для автономного запуска системы распознавания речи. Требуется установка Pocketsphinx.

импортировать распознавание речи как sr # экземпляр класса распознавателя r = sr.Recognizer ()

Вход с микрофонов

Чтобы использовать микрофоны, нам также необходимо установить модуль pyaudio. Мы используем класс микрофона для получения входной речи с микрофона вместо любого другого метода ввода, такого как аудиофайл.

Для большинства проектов мы можем использовать микрофоны по умолчанию. Но если вы не хотите использовать микрофон по умолчанию,вы можете получить список имен микрофонов с помощью метода list_microphone_names.

Чтобы захватить вход с микрофона, мы используем метод прослушивания.

импортировать распознавание речи как sr r = sr.Recognizer () с sr.Microphone () в качестве источника: audio = sr.listen (source)

Как установить Pyaudio в Python?

Чтобы установить Pyaudio в python, выполните следующую команду в терминале или, если вы используете pycharm, добавьте пакет из интерпретатора проекта в настройках.

Пример использования

Мы создадим программу, использующую модуль распознавания речи на Python, для распознавания речи и выполним следующее:

  1. преобразовать речь в текст
  2. открыть URL-адрес с помощью модуля веб-браузера
  3. передать запрос с использованием распознавания речи, чтобы выполнить поиск по URL-адресу

Ниже приводится программа для указанной выше постановки задачи:

импортировать распознавание речи как sr импортировать веб-браузер как wb r1 = sr.Recognizer () r2 = sr.Recognizer () r3 = sr.Recognizer () с sr.Microphone () в качестве источника: print ('[search edureka: search youtube]') print ('говорить сейчас') audio = r3.listen (source) if 'edureka' в r2.recognize_google (audio): r2 = sr.Recognizer () url = 'https://www.edureka.co/' с sr .Microphone () как источник: print ('поиск по запросу') audio = r2.listen (source) try: get = r2.recognize_google (audio) print (get) wb.get (). Open_new (url + get) except sr.UnknownValueError: print ('error'), кроме sr.RequestError как e: print ('failed'.format (e)), если' video 'в r1.recognize_google (audio): r1 = sr.Recognizer () url =' https://www.youtube.com/results?search_query= 'с sr.Microphone () в качестве источника: print (' поиск видео ') audio = r2.listen (source) try: get = r1.recognize_google (audio ) print (get) wb.get (). open_new (url + get), кроме sr.UnknownValueError: print ('не могу понять'), кроме sr.RequestError как e: print (не удалось получить результаты '' .format (e) )

Вы получите результат, как показано на изображении. Если вы скажете edureka, он предложит вам произнести запрос, который вы хотите искать, в URL-адресе edureka, который мы написали в переменной url. Если вы скажете «python», в браузере откроется следующая веб-страница.

В этом блоге мы обсудили, как мы можем использовать распознавание речи в Python для перевода речи в текст с помощью пакета распознавания речи. время стало потребностью в таких понятиях, как распознавание речи или уныние от объекта, с которые предоставляют невообразимые возможности системам распознавания речи, где мы можем обучать и тестировать огромные речевые данные для построения системы. для глубоких нейронных сетей, чтобы улучшить свои навыки и начать обучение.

как создавать файлы журналов в Java

есть вопросы? упомяните их в комментариях, мы свяжемся с вами.