The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Обновление голосовых данных Mozilla Common Voice 9.0

28.04.2022 22:15

Компания Mozilla представила обновление наборов голосовых данных Common Voice, включающих примеры произношения около 200 тысяч человек. Данные опубликованы как общественное достояние (CC0). Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи.

По сравнению с прошлым обновлением объём речевого материала в коллекции увеличился на 10% - с 18.2 до 20.2 тысяч часов речи. Число поддерживаемых языков возросло с 87 до 93. Для 27 языков накоплено более 100 часов речевых данных, а для 9 - более 500 часов речевых данных. Для 9 языков также удалось добиться доли женской речи, составляющей как минимум 45%.

В подготовке материалов на английском языке приняли участие более 81 тысяч человек, надиктовавших 2953 часов речи (было 79 тысяч участников и 2886 часов). Набор для белорусского языка охватывает 6326 участников и 1054 часа речевого материала (было - 6160 участников и 987 часов), русского языка - 2585 участников и 201 час (было 2452 участника и 193 часа), узбекского - 1503 участника и 231 час (было 1355 участников и 227 часов), украинского языка - 696 участников и 79 часов (было 684 участника и 76 часов).

Проект Common Voice нацелен на организацию совместной работы по накоплению базы голосовых шаблонов, учитывающей всё разнообразие голосов и манер речи. Пользователям предлагается озвучить выводимые на экран фразы или оценить качество данных, добавленных другими пользователями. Накопленную базу данных c записями различного произношения типовых фраз человеческой речи без ограничений можно использовать в системах машинного обучения и в исследовательских проектах.



  1. Главная ссылка к новости (https://hacks.mozilla.org/2022...)
  2. OpenNews: Обновление голосовых данных Mozilla Common Voice 8.0
  3. OpenNews: Компания Mozilla представила движок распознавания речи DeepSpeech 0.9
  4. OpenNews: Новые модели для распознавания русской речи в библиотеке Vosk
  5. OpenNews: Инициатива по созданию полнофункциональной свободной системы распознавания речи
  6. OpenNews: NVIDIA инвестирует 1.5 млн долларов в проект Mozilla Common Voice
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/57102-mozilla
Ключевые слова: mozilla, voice
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (20) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, nshmyrev (ok), 22:22, 28/04/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Друзья, про Воск можно не повторять в каждом новом выпуске MCV ;) Один раз написал уже.
     
  • 1.2, Аноним (2), 22:38, 28/04/2022 Скрыто ботом-модератором [﹢﹢﹢] [ · · · ]     [к модератору]
  • +/
     

     ....ответы скрыты (2)

  • 1.5, Kuromi (ok), 23:20, 28/04/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +6 +/
    Меня в некотором смысле удивляет дикая активность белорусов - в 5 раз больше материала чем на русском (и всего примерно в 3 раза меньше английского). Кроме того, у них даже прирост больше - 67 часов против 8 у русского, т.е. отставание нарастает.
    Впечатляет.
     
     
  • 2.8, Аноним (8), 00:06, 29/04/2022 [^] [^^] [^^^] [ответить]  
  • +6 +/
    И это при том, что в самой Беларуси все говорят на русском, кроме 3,5 змагаров
     
     
  • 3.29, Аноним (29), 02:14, 01/05/2022 [^] [^^] [^^^] [ответить]  
  • +/
    У нас много людей говорит на родном языке. А со своим шовинизмом можешь проследовать по известному адресу.
     
  • 2.28, Аноним (29), 02:13, 01/05/2022 [^] [^^] [^^^] [ответить]  
  • +/
    У нас много людей понимает, что это важная штука в плане потенциальной голосовой поддержки языка в разных сервисах, была целая информационная кампания в соцсетях, много активных людей и энтузиастов подключилось
     
  • 2.31, Аноним (31), 11:59, 05/05/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Вне городов говорящих довольно много. Это просто искажение восприятия из-за того, что многие дальше Минска нигде не были (а в реальности даже и в Минске зачастую не были).
    Во-вторых, на самом крупном (теперь уже самом) новостном ресурсе была новость в своё время - привлекла внимание многих.
    Ну и в-третьих, важность родного языка, даже если в повседневности им не говоришь, у многих сохраняется. Его "непопулярность" - явление довольно искуственное.
     

  • 1.6, Андрей (??), 23:48, 28/04/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    А есть торрент ?
     
     
  • 2.21, Аноним (21), 10:21, 29/04/2022 [^] [^^] [^^^] [ответить]  
  • +/
    нету. для скачивания можно рандомную почту вводить
     

  • 1.7, Андрей (??), 23:51, 28/04/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    До сих пор умиляет призыв "Пожертвуйте свой голос"
     
  • 1.9, Аноним (9), 07:30, 29/04/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Принимал участие в записи, и там есть фатальный недостаток: мало текстов.
    Их можно добавлять, но это сделано не совсем удобно и очевидно.

    В итоге есть желание и дальше записывать, а по факту нечего - идут дубли.

     
     
  • 2.10, Аноним (9), 07:31, 29/04/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Если кто-то хочет сейчас помочь, добавляйте тексты из источников относящихся к культурному наследию.
     
     
  • 3.22, Аноним (21), 10:23, 29/04/2022 [^] [^^] [^^^] [ответить]  
  • +/
    а не проще войну и мир один раз добавить? там на миллиард часов наберётся
     
     
  • 4.27, Аноним (27), 05:24, 30/04/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Добавь.
    Тебе придётся разбивать её на кучу мелких предложений (меньше твитов) и для каждого заполнять анкету с указанием источника и капчей (вроде, не помню).
     
  • 4.30, Аноним (9), 08:00, 04/05/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Глянул.

    Короче. Капчи нет. Но там кто-то уже залил целую Анну Каренину, теперь нужно проверить и подтвердить фразы вот тут: https://commonvoice.mozilla.org/sentence-collector/#/en/review

    Не достаточно их добавить, нужно ещё что кто-то проверил и утвердил на соответствие правилам.

     

  • 1.15, Аноним (21), 10:06, 29/04/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +3 +/
    > белорусского языка ... 6326 участников и 1054 часа
    > русского языка ... 2585 участников и 201 час

    АХАХА

     
     
  • 2.16, Аноним (21), 10:08, 29/04/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    даже узбекского больше, я пердоле)
     
     
  • 3.26, Аноним (-), 15:56, 29/04/2022 [^] [^^] [^^^] [ответить]  
  • +/
    >даже узбекского больше

    Ой шайтан!

     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру