The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



"Опубликована AI-модель ChatTTS для синтеза речи"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Опубликована AI-модель ChatTTS для синтеза речи"  +/
Сообщение от opennews (??), 29-Май-24, 15:18 
Проект ChatTTS опубликовал модель и связанный с ней инструментарий машинного обучения для синтеза эмоциональной речи. Проект ChatTTS специально оптимизирован для использования в диалоговых системах, таких как интерактивные помощники, и нацелен на воспроизведение свойств естественного эмоционального общения. Поддерживается взаимодействие с несколькими говорящими и построение интерактивного диалога. Корректно отслеживаются и воспроизводятся при синтезе просодические элементы, такие как смех, паузы и междометия...

Подробнее: https://www.opennet.ru/opennews/art.shtml?num=61265

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения [Сортировка по ответам | RSS]

2. Сообщение от Аноним (2), 29-Май-24, 15:18   +2 +/
А можно синтезировать синтезатор Стивена Хокинга с его помощью?
Ответить | Правка | Наверх | Cообщить модератору

3. Сообщение от Tron is Whistling (?), 29-Май-24, 15:24   +11 +/
> для защиты от использования модели для совершения мошеннических и криминальных действий при обучении модели использована подстановка высокочастотного шума и задействован максимальный уровень сжатия звука

Короче сама модель даёт на выходе Г, но вы это, слушайте свист с бульканьем, и наслаждайтесь "возможностями" "AI".

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #5, #12

4. Сообщение от Tron is Whistling (?), 29-Май-24, 15:31   +/
И да, сторонники альтернативной теории информации - ну что, отделите шум от плевел в данном вопросе? Если бы было так легко - всё бы было легко и просто.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #6, #11

5. Сообщение от Аноним (-), 29-Май-24, 15:31   +/
Держу пари, что только в бесплатной версии.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #3

6. Сообщение от Аноним (6), 29-Май-24, 15:50   +1 +/
А что это ещё за альтернативная теория информации?
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #4 Ответы: #10, #22

7. Сообщение от Аноним (7), 29-Май-24, 16:12   +1 +/
> для русского языка можно рекомендовать фреймворк TTS и модель XTTS-v2, которые кроме синтеза поддерживают клонирование голоса по короткой записи речи, в том числе для синтеза на другом языке

Нет, лучше уж модель TTS от OpenAI. Она хоть и проприетарная, и с американским акцентом говорит, но результат больше похож на русскую речь, чем этот синтезатор, который даже числительные не может нормально озвучить.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #19

8. Сообщение от Аноним (8), 29-Май-24, 17:01   +2 +/
Microsoft Agent и Ivona как-то же работают без RTX4090.
Ответить | Правка | Наверх | Cообщить модератору

9. Сообщение от Женя Вертолёт (?), 29-Май-24, 17:46   +2 +/
Где это можно попробовать онлайн?
Ответить | Правка | Наверх | Cообщить модератору

10. Сообщение от n00by (ok), 29-Май-24, 17:50   –2 +/
Это где T9 называют "ИИ".
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #6 Ответы: #15

11. Сообщение от Женя Вертолёт (?), 29-Май-24, 17:52   +/
Ты сам то понял что написал?!
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #4

12. Сообщение от Женя Вертолёт (?), 29-Май-24, 17:54   +4 +/
Вообще нездоровая тенденция. Почему кто-то ограничивает одних, ради того, чтобы огородить других? Это примерно из той же оперы, когда государство лезет к тебе на кухню и отнимает ножи, веди ими зарэзать можно.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #3 Ответы: #17

13. Сообщение от Женя Вертолёт (?), 29-Май-24, 17:57   +3 +/
> Кроме того, для защиты от использования модели для совершения мошеннических и криминальных действий при обучении модели использована подстановка высокочастотного шума и задействован максимальный уровень сжатия звука, используя формат MP3.

А если я хочу использовать это для озвучки видосиков на ютуб? Нафига вообще эта модель тогда нужна, если из неё нельзя извлечь никакого практического толка?

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #39

14. Сообщение от InuYasha (??), 29-Май-24, 18:13   +1 +/
> Для генерации 30-секундной записи требуется GPU с 4 ГБ памяти. На GPU NVIDIA GeForce RTX 4090D скорость генерации составляет приблизительно 7 семантических токенов в секунду.

Вот же ж блин! И как я только живу со своим espeak, который кушает КИЛОбайты и о GPU никогда и не слыхал?..

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #23, #28, #41

15. Сообщение от Аноним (15), 29-Май-24, 18:29   +/
вот только это уже давно и близко не t9, внутри там все очень сложно
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #10 Ответы: #24

17. Сообщение от Аноним (-), 29-Май-24, 18:35   –1 +/
> Вообще нездоровая тенденция. Почему кто-то ограничивает одних, ради того, чтобы огородить других?

О, ты не представляешь как я благодарен государству, за то что оно огораживает отбойниками меня от всяких нехороших людей, которые по встречке прутся.
И вокруг остановок столбики от пакрующихся чудаков.
Еще бы что-то с бухими самокатчиками сделать и вообще будет ништяк!


Ответить | Правка | Наверх | Cообщить модератору
Родитель: #12 Ответы: #25, #43, #56

19. Сообщение от Аноним (-), 29-Май-24, 18:46   +3 +/
> Нет, лучше уж модель TTS от OpenAI. Она хоть и проприетарная, и с американским
> акцентом говорит, но результат больше похож на русскую речь, чем этот синтезатор,
> который даже числительные не может нормально озвучить.

Если что, "CC BY-NC-ND 4.0 (Creative Commons Attribution-NonCommercial-NoDerivatives 4.0)" не сильно далеко от проприетарных лицензий ушел.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #7

22. Сообщение от Tron is Whistling (?), 29-Май-24, 18:59   +/
> А что это ещё за альтернативная теория информации?

Это где чтобы шум, превышающий уровень полезного сигнала, отделить, надо набрать чуть-чуть рандомной статистики. Обычно эксперды в безопастности.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #6 Ответы: #33

23. Сообщение от Аноним (23), 29-Май-24, 20:18   +/

> Вот же ж блин! И как я только живу со своим espeak,
> который кушает КИЛОбайты и о GPU никогда и не слыхал?..

Еще и не булькает поди как вон то. Экий ты читер!

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #14

24. Сообщение от Аноним (24), 29-Май-24, 20:36   +/
Ничего сложного там и в помине нету...
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #15

25. Сообщение от Аноним (25), 29-Май-24, 21:06   +4 +/
Вот когда их огородят на столько что ограда вокруг тебя  сомкнется - вот тогда-то ты запоешь по другому..
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #17 Ответы: #42

26. Сообщение от Аноним (26), 29-Май-24, 21:16   +/
Когда они наконец сделают рилтайм замену голоса. Я давно хочу попробовать под гитару попеть голосом челентано, или бейонсе, или... ну короче не своим отстойным голосом, а заипадым вокалом.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #38, #40, #53

27. Сообщение от Геймер (?), 29-Май-24, 21:23   –2 +/
Юниксвей для нейросеток. Нейросетка должна делать что-то одно и делать это хорошо, и весить не более 50 мегабайт. ChatTTS всё таки ещё не юниксвей. Но может им быть.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #29

28. Сообщение от Аноним (28), 29-Май-24, 21:26   +/
Послушал. Поржал. По-моему, даже SAM естественнее звучит.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #14

29. Сообщение от Аноним (28), 29-Май-24, 21:29   –1 +/
> и весить не более 50 мегабайт.

А лучше 50 килобайт, чтобы прямо в PDP-7 влазила. Вот тогда точно юниксвей будет.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #27 Ответы: #30, #31, #48

30. Сообщение от Геймер (?), 29-Май-24, 21:38   –1 +/
"640 КБ должно хватить для любых задач"
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #29

31. Сообщение от Геймер (?), 29-Май-24, 21:42   –3 +/
Если нейросеть заточена под только одну функцию и при этом может работать вместе с другими нейрсетями, используя универсальный текстовой интерфейс, то её объём не будет стремиться к бесконечности.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #29

33. Сообщение от Анонимemail (33), 29-Май-24, 22:00   +/
Эксперды в __теории__ безопасности, важно учесть.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #22 Ответы: #35

35. Сообщение от Tron is Whistling (?), 29-Май-24, 22:06   +/
В практике, думаю, выйдут не хуже ;)
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #33

38. Сообщение от Аноним (25), 29-Май-24, 22:34   +/
RVC
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #26

39. Сообщение от Аноним (25), 29-Май-24, 22:58   –2 +/
переводи в wav. выводи синтез на колонки и снимай с них микрофоном
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #13

40. Сообщение от nshmyrev (ok), 29-Май-24, 23:39   +/
Скорее на основе RVC https://github.com/w-okada/voice-changer
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #26

41. Сообщение от nshmyrev (ok), 29-Май-24, 23:41   +/
Попробуйте https://github.com/alphacep/vosk-tts. Качество выше, скорость высокая. На CPU 0.06xRT
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #14 Ответы: #46

42. Сообщение от Аноним (42), 29-Май-24, 23:57   +/
тех кого государство не отгородило от придурков на встречной уже не запоют вааще никак...
а у него есть шанс проверить твое нелепое предположение...

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #25 Ответы: #45

43. Сообщение от Аноним (43), 30-Май-24, 02:10   +1 +/
Если бы государство не ограничивала тебя от решения своих проблем, то нехороших людей на встречке, паркующихся чудаков, бухих самокатчиков было бы сильно меньше и жили бы они не долго. Но т.к. максимум что ты можешь с ними сделать это смириться, то страдай и плати налоги, может часть из них пойдёт на отбойники и столбики.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #17

45. Сообщение от нейм (?), 30-Май-24, 07:57   +/
нет, ну технически, у них сейчас тоже оградка есть и практическм сомкнутая
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #42

46. Сообщение от InuYasha (??), 30-Май-24, 11:26   +/
> Languages Python 99.9%

Нет, спасибо, не надо. Минимизирую зависимости.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #41

47. Сообщение от InuYasha (??), 30-Май-24, 11:30   +/
Кстати, а никто не знает, какой MLG voice использовали Pendulum в своём эпичном Blood Sugar? :)

It's drum and bass - what you gonna do?

Ответить | Правка | Наверх | Cообщить модератору

48. Сообщение от _kp (ok), 30-Май-24, 12:57   +/
Минимальный TTS на Spectrum влазил в 0.7 кБ! Качество соответсвующее, но размер, точнее его отсутствие, все равно впечатляет.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #29 Ответы: #49

49. Сообщение от Аноним (28), 30-Май-24, 13:11   +/
Предпочитаю впечатляться качеством, а не размером, всё-таки не времена спектрумов.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #48 Ответы: #50

50. Сообщение от _kp (ok), 30-Май-24, 13:44   +/
Про качество логично.

Но, если у ПО совсем непомерные требования к железу, то пахнет плохим проектированием, а то и JS/Pytnon.
Подобное ПО с качеством можно использовать для наговаривания книг, генерации озвучки, но между делом в фоне работать подобному ПО тяжеловато.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #49 Ответы: #51

51. Сообщение от Аноним (28), 30-Май-24, 14:45   +/
Требования-то, конечно, да, но размер модели меня не напрягает. ≈Гигабайт локально, если будет _нормальный_ голос — это ни о чём.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #50 Ответы: #52

52. Сообщение от _kp (ok), 30-Май-24, 15:17   +/
Проблема не в ги6абайтах, что дешево, в том что для генерации на лету надо ещё и толстую видеокарту, которая не будет выводить видео, а займется синтезом речи.

А в сотни мегабайт уже влазит база с полностью нароворененными фразами, с интонацией и правильным произношением, и далее работает не требуя ресурсов, хоть на игрушечном esp32.
А вот как такая база готовится, то секрет, ибо делать "в лоб" долго. А для её генерации подобный движок уже более чем уместен, с любыми его требованиями.


Ответить | Правка | Наверх | Cообщить модератору
Родитель: #51 Ответы: #54

53. Сообщение от Аноним (53), 30-Май-24, 16:40   +1 +/
Так голос поменять не проблема, проблема в вокале. Если петь ты не умеешь то меняй хоть на голос шакиры - будешь голосом шакиры, но так же как и раньше хреново петь.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #26

54. Сообщение от Аноним (28), 31-Май-24, 10:10   +1 +/
Ветка началась с мерянья пиписьками, у кого меньше.

А так-то проблема всех нейросетей сейчас не в объёме, а в вычислительной мощности. Пока не появятся массовые недорогие NPU, для персональных компьютеров это всё малоприменимо. Вот, может, MS с квалкомом пендаля в этом направлении дадут.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #52

55. Сообщение от rvs2016 (ok), 31-Май-24, 10:23   +/
Из описания не понял - можно ли эту "модель" использовать где-то у себя и какой пакадж для этого установить надо?
Ответить | Правка | Наверх | Cообщить модератору

56. Сообщение от Аноним (-), 31-Май-24, 17:08   +/
> Еще бы что-то с бухими самокатчиками сделать и вообще будет ништяк!

Можно просто тебя в тюрьму посадить. Заранее. Сразу столько проблем одним махом! И с отбойниками, и с столбиками, и самокаты там не ездят. Красота.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #17

57. Сообщение от Аноним (57), 31-Май-24, 19:40   +/
Если почитать сабж в Гите то оно обучалось на китайском и английском языках. Поэтому основное применение его именно там. Хотеть от нее хорошего русского... Ну такое...
Ответить | Правка | Наверх | Cообщить модератору


Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2025 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру