forum.opennet.ru - "Опубликована AI-модель ChatTTS для синтеза речи" (47)

"Опубликована AI-модель ChatTTS для синтеза речи"

Форум Разговоры, обсуждение новостей
Вариант для распечатки		Пред. тема \| След. тема
Изначальное сообщение		[ Отслеживать ]

"Опубликована AI-модель ChatTTS для синтеза речи"	+/–
Сообщение от opennews (??), 29-Май-24, 15:18
Проект ChatTTS опубликовал модель и связанный с ней инструментарий машинного обучения для синтеза эмоциональной речи. Проект ChatTTS специально оптимизирован для использования в диалоговых системах, таких как интерактивные помощники, и нацелен на воспроизведение свойств естественного эмоционального общения. Поддерживается взаимодействие с несколькими говорящими и построение интерактивного диалога. Корректно отслеживаются и воспроизводятся при синтезе просодические элементы, такие как смех, паузы и междометия... Подробнее: https://www.opennet.ru/opennews/art.shtml?num=61265
Ответить \| Правка \| Cообщить модератору

Оглавление

А можно синтезировать синтезатор Стивена Хокинга с его помощью , Аноним (2), 15:18 , 29-Май-24, (2) +2
Короче сама модель даёт на выходе Г, но вы это, слушайте свист с бульканьем, и н, Tron is Whistling (?), 15:24 , 29-Май-24, (3) +11

Держу пари, что только в бесплатной версии , Аноним (-), 15:31 , 29-Май-24, (5)
Вообще нездоровая тенденция Почему кто-то ограничивает одних, ради того, чтобы , Женя Вертолёт (?), 17:54 , 29-Май-24, (12) +4

О, ты не представляешь как я благодарен государству, за то что оно огораживает о, Аноним (-), 18:35 , 29-Май-24, (17) –1

Вот когда их огородят на столько что ограда вокруг тебя сомкнется - вот тогда-т, Аноним (25), 21:06 , 29-Май-24, (25) +4

тех кого государство не отгородило от придурков на встречной уже не запоют вааще, Аноним (42), 23:57 , 29-Май-24, (42)

нет, ну технически, у них сейчас тоже оградка есть и практическм сомкнутая, нейм (?), 07:57 , 30-Май-24, (45)

Если бы государство не ограничивала тебя от решения своих проблем, то нехороших , Аноним (43), 02:10 , 30-Май-24, (43) +1
Можно просто тебя в тюрьму посадить Заранее Сразу столько проблем одним махом , Аноним (-), 17:08 , 31-Май-24, (56)

И да, сторонники альтернативной теории информации - ну что, отделите шум от плев, Tron is Whistling (?), 15:31 , 29-Май-24, (4)

А что это ещё за альтернативная теория информации , Аноним (6), 15:50 , 29-Май-24, (6) +1

Это где T9 называют ИИ , n00by (ok), 17:50 , 29-Май-24, (10) –2

вот только это уже давно и близко не t9, внутри там все очень сложно, Аноним (15), 18:29 , 29-Май-24, (15)

Ничего сложного там и в помине нету , Аноним (24), 20:36 , 29-Май-24, (24)

Это где чтобы шум, превышающий уровень полезного сигнала, отделить, надо набрать, Tron is Whistling (?), 18:59 , 29-Май-24, (22)

Эксперды в __теории__ безопасности, важно учесть , Аноним (33), 22:00 , 29-Май-24, (33)

В практике, думаю, выйдут не хуже , Tron is Whistling (?), 22:06 , 29-Май-24, (35)

Ты сам то понял что написал , Женя Вертолёт (?), 17:52 , 29-Май-24, (11)

Нет, лучше уж модель TTS от OpenAI Она хоть и проприетарная, и с американским а, Аноним (7), 16:12 , 29-Май-24, (7) +1

Если что, CC BY-NC-ND 4 0 Creative Commons Attribution-NonCommercial-NoDerivat, Аноним (-), 18:46 , 29-Май-24, (19) +3

Microsoft Agent и Ivona как-то же работают без RTX4090 , Аноним (8), 17:01 , 29-Май-24, (8) +2
Где это можно попробовать онлайн , Женя Вертолёт (?), 17:46 , 29-Май-24, (9) +2
А если я хочу использовать это для озвучки видосиков на ютуб Нафига вообще эта , Женя Вертолёт (?), 17:57 , 29-Май-24, (13) +3

переводи в wav выводи синтез на колонки и снимай с них микрофоном, Аноним (25), 22:58 , 29-Май-24, (39) –2

Вот же ж блин И как я только живу со своим espeak, который кушает КИЛОбайты и о, InuYasha (??), 18:13 , 29-Май-24, (14) +1

Еще и не булькает поди как вон то Экий ты читер , Аноним (23), 20:18 , 29-Май-24, (23)
Послушал Поржал По-моему, даже SAM естественнее звучит , Аноним (28), 21:26 , 29-Май-24, (28)
Попробуйте https github com alphacep vosk-tts Качество выше, скорость высокая, nshmyrev (ok), 23:41 , 29-Май-24, (41)

Нет, спасибо, не надо Минимизирую зависимости , InuYasha (??), 11:26 , 30-Май-24, (46)

Когда они наконец сделают рилтайм замену голоса Я давно хочу попробовать под ги, Аноним (26), 21:16 , 29-Май-24, (26)

RVC, Аноним (25), 22:34 , 29-Май-24, (38)
Скорее на основе RVC https github com w-okada voice-changer, nshmyrev (ok), 23:39 , 29-Май-24, (40)
Так голос поменять не проблема, проблема в вокале Если петь ты не умеешь то мен, Аноним (53), 16:40 , 30-Май-24, (53) +1

Юниксвей для нейросеток Нейросетка должна делать что-то одно и делать это хорош, Геймер (?), 21:23 , 29-Май-24, (27) –2

А лучше 50 килобайт, чтобы прямо в PDP-7 влазила Вот тогда точно юниксвей будет, Аноним (28), 21:29 , 29-Май-24, (29) –1

640 КБ должно хватить для любых задач , Геймер (?), 21:38 , 29-Май-24, (30) –1
Если нейросеть заточена под только одну функцию и при этом может работать вместе, Геймер (?), 21:42 , 29-Май-24, (31) –3
Минимальный TTS на Spectrum влазил в 0 7 кБ Качество соответсвующее, но размер,, _kp (ok), 12:57 , 30-Май-24, (48)

Предпочитаю впечатляться качеством, а не размером, всё-таки не времена спектрумо, Аноним (28), 13:11 , 30-Май-24, (49)

Про качество логично Но, если у ПО совсем непомерные требования к железу, то пах, _kp (ok), 13:44 , 30-Май-24, (50)

Требования-то, конечно, да, но размер модели меня не напрягает Гигабайт локаль, Аноним (28), 14:45 , 30-Май-24, (51)

Проблема не в ги6абайтах, что дешево, в том что для генерации на лету надо ещё и, _kp (ok), 15:17 , 30-Май-24, (52)

Ветка началась с мерянья пиписьками, у кого меньше А так-то проблема всех нейрос, Аноним (28), 10:10 , 31-Май-24, (54) +1

Кстати, а никто не знает, какой MLG voice использовали Pendulum в своём эпичном , InuYasha (??), 11:30 , 30-Май-24, (47)
Из описания не понял - можно ли эту модель использовать где-то у себя и какой , rvs2016 (ok), 10:23 , 31-Май-24, (55)
Если почитать сабж в Гите то оно обучалось на китайском и английском языках Поэ, Аноним (57), 19:40 , 31-Май-24, (57)

Сообщения [Сортировка по ответам | RSS]

2. Сообщение от Аноним (2), 29-Май-24, 15:18 +2 +/–

А можно синтезировать синтезатор Стивена Хокинга с его помощью?

Ответить | Правка | Наверх | Cообщить модератору

3. Сообщение от Tron is Whistling (?), 29-Май-24, 15:24 +11 +/–

> для защиты от использования модели для совершения мошеннических и криминальных действий при обучении модели использована подстановка высокочастотного шума и задействован максимальный уровень сжатия звука
Короче сама модель даёт на выходе Г, но вы это, слушайте свист с бульканьем, и наслаждайтесь "возможностями" "AI".

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #5, #12

4. Сообщение от Tron is Whistling (?), 29-Май-24, 15:31 +/–

И да, сторонники альтернативной теории информации - ну что, отделите шум от плевел в данном вопросе? Если бы было так легко - всё бы было легко и просто.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #6, #11

5. Сообщение от Аноним (-), 29-Май-24, 15:31 +/–

Держу пари, что только в бесплатной версии.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #3

6. Сообщение от Аноним (6), 29-Май-24, 15:50 +1 +/–

А что это ещё за альтернативная теория информации?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #4 Ответы: #10, #22

7. Сообщение от Аноним (7), 29-Май-24, 16:12 +1 +/–

> для русского языка можно рекомендовать фреймворк TTS и модель XTTS-v2, которые кроме синтеза поддерживают клонирование голоса по короткой записи речи, в том числе для синтеза на другом языке
Нет, лучше уж модель TTS от OpenAI. Она хоть и проприетарная, и с американским акцентом говорит, но результат больше похож на русскую речь, чем этот синтезатор, который даже числительные не может нормально озвучить.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #19

8. Сообщение от Аноним (8), 29-Май-24, 17:01 +2 +/–

Microsoft Agent и Ivona как-то же работают без RTX4090.

Ответить | Правка | Наверх | Cообщить модератору

9. Сообщение от Женя Вертолёт (?), 29-Май-24, 17:46 +2 +/–

Где это можно попробовать онлайн?

Ответить | Правка | Наверх | Cообщить модератору

10. Сообщение от n00by (ok), 29-Май-24, 17:50 –2 +/–

Это где T9 называют "ИИ".

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #6 Ответы: #15

11. Сообщение от Женя Вертолёт (?), 29-Май-24, 17:52 +/–

Ты сам то понял что написал?!

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #4

12. Сообщение от Женя Вертолёт (?), 29-Май-24, 17:54 +4 +/–

Вообще нездоровая тенденция. Почему кто-то ограничивает одних, ради того, чтобы огородить других? Это примерно из той же оперы, когда государство лезет к тебе на кухню и отнимает ножи, веди ими зарэзать можно.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #3 Ответы: #17

13. Сообщение от Женя Вертолёт (?), 29-Май-24, 17:57 +3 +/–

> Кроме того, для защиты от использования модели для совершения мошеннических и криминальных действий при обучении модели использована подстановка высокочастотного шума и задействован максимальный уровень сжатия звука, используя формат MP3.
А если я хочу использовать это для озвучки видосиков на ютуб? Нафига вообще эта модель тогда нужна, если из неё нельзя извлечь никакого практического толка?

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #39

14. Сообщение от InuYasha (??), 29-Май-24, 18:13 +1 +/–

> Для генерации 30-секундной записи требуется GPU с 4 ГБ памяти. На GPU NVIDIA GeForce RTX 4090D скорость генерации составляет приблизительно 7 семантических токенов в секунду.
Вот же ж блин! И как я только живу со своим espeak, который кушает КИЛОбайты и о GPU никогда и не слыхал?..

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #23, #28, #41

15. Сообщение от Аноним (15), 29-Май-24, 18:29 +/–

вот только это уже давно и близко не t9, внутри там все очень сложно

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #10 Ответы: #24

17. Сообщение от Аноним (-), 29-Май-24, 18:35 –1 +/–

> Вообще нездоровая тенденция. Почему кто-то ограничивает одних, ради того, чтобы огородить других?
О, ты не представляешь как я благодарен государству, за то что оно огораживает отбойниками меня от всяких нехороших людей, которые по встречке прутся.
И вокруг остановок столбики от пакрующихся чудаков.
Еще бы что-то с бухими самокатчиками сделать и вообще будет ништяк!

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #12 Ответы: #25, #43, #56

19. Сообщение от Аноним (-), 29-Май-24, 18:46 +3 +/–

> Нет, лучше уж модель TTS от OpenAI. Она хоть и проприетарная, и с американским
> акцентом говорит, но результат больше похож на русскую речь, чем этот синтезатор,
> который даже числительные не может нормально озвучить.
Если что, "CC BY-NC-ND 4.0 (Creative Commons Attribution-NonCommercial-NoDerivatives 4.0)" не сильно далеко от проприетарных лицензий ушел.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #7

22. Сообщение от Tron is Whistling (?), 29-Май-24, 18:59 +/–

> А что это ещё за альтернативная теория информации?
Это где чтобы шум, превышающий уровень полезного сигнала, отделить, надо набрать чуть-чуть рандомной статистики. Обычно эксперды в безопастности.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #6 Ответы: #33

23. Сообщение от Аноним (23), 29-Май-24, 20:18 +/–

> Вот же ж блин! И как я только живу со своим espeak,
> который кушает КИЛОбайты и о GPU никогда и не слыхал?..
Еще и не булькает поди как вон то. Экий ты читер!

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #14

24. Сообщение от Аноним (24), 29-Май-24, 20:36 +/–

Ничего сложного там и в помине нету...

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #15

25. Сообщение от Аноним (25), 29-Май-24, 21:06 +4 +/–

Вот когда их огородят на столько что ограда вокруг тебя сомкнется - вот тогда-то ты запоешь по другому..

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #17 Ответы: #42

26. Сообщение от Аноним (26), 29-Май-24, 21:16 +/–

Когда они наконец сделают рилтайм замену голоса. Я давно хочу попробовать под гитару попеть голосом челентано, или бейонсе, или... ну короче не своим отстойным голосом, а заипадым вокалом.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #38, #40, #53

27. Сообщение от Геймер (?), 29-Май-24, 21:23 –2 +/–

Юниксвей для нейросеток. Нейросетка должна делать что-то одно и делать это хорошо, и весить не более 50 мегабайт. ChatTTS всё таки ещё не юниксвей. Но может им быть.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #29

28. Сообщение от Аноним (28), 29-Май-24, 21:26 +/–

Послушал. Поржал. По-моему, даже SAM естественнее звучит.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #14

29. Сообщение от Аноним (28), 29-Май-24, 21:29 –1 +/–

> и весить не более 50 мегабайт.
А лучше 50 килобайт, чтобы прямо в PDP-7 влазила. Вот тогда точно юниксвей будет.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #27 Ответы: #30, #31, #48

30. Сообщение от Геймер (?), 29-Май-24, 21:38 –1 +/–

"640 КБ должно хватить для любых задач"

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #29

31. Сообщение от Геймер (?), 29-Май-24, 21:42 –3 +/–

Если нейросеть заточена под только одну функцию и при этом может работать вместе с другими нейрсетями, используя универсальный текстовой интерфейс, то её объём не будет стремиться к бесконечности.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #29

33. Сообщение от Аноним (33), 29-Май-24, 22:00 +/–

Эксперды в __теории__ безопасности, важно учесть.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #22 Ответы: #35

35. Сообщение от Tron is Whistling (?), 29-Май-24, 22:06 +/–

В практике, думаю, выйдут не хуже ;)

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #33

38. Сообщение от Аноним (25), 29-Май-24, 22:34 +/–

RVC

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #26

39. Сообщение от Аноним (25), 29-Май-24, 22:58 –2 +/–

переводи в wav. выводи синтез на колонки и снимай с них микрофоном

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #13

40. Сообщение от nshmyrev (ok), 29-Май-24, 23:39 +/–

Скорее на основе RVC https://github.com/w-okada/voice-changer

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #26

41. Сообщение от nshmyrev (ok), 29-Май-24, 23:41 +/–

Попробуйте https://github.com/alphacep/vosk-tts. Качество выше, скорость высокая. На CPU 0.06xRT

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #14 Ответы: #46

42. Сообщение от Аноним (42), 29-Май-24, 23:57 +/–

тех кого государство не отгородило от придурков на встречной уже не запоют вааще никак...
а у него есть шанс проверить твое нелепое предположение...

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #25 Ответы: #45

43. Сообщение от Аноним (43), 30-Май-24, 02:10 +1 +/–

Если бы государство не ограничивала тебя от решения своих проблем, то нехороших людей на встречке, паркующихся чудаков, бухих самокатчиков было бы сильно меньше и жили бы они не долго. Но т.к. максимум что ты можешь с ними сделать это смириться, то страдай и плати налоги, может часть из них пойдёт на отбойники и столбики.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #17

45. Сообщение от нейм (?), 30-Май-24, 07:57 +/–

нет, ну технически, у них сейчас тоже оградка есть и практическм сомкнутая

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #42

46. Сообщение от InuYasha (??), 30-Май-24, 11:26 +/–

> Languages Python 99.9%
Нет, спасибо, не надо. Минимизирую зависимости.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #41

47. Сообщение от InuYasha (??), 30-Май-24, 11:30 +/–

Кстати, а никто не знает, какой MLG voice использовали Pendulum в своём эпичном Blood Sugar? :)
It's drum and bass - what you gonna do?

Ответить | Правка | Наверх | Cообщить модератору

48. Сообщение от _kp (ok), 30-Май-24, 12:57 +/–

Минимальный TTS на Spectrum влазил в 0.7 кБ! Качество соответсвующее, но размер, точнее его отсутствие, все равно впечатляет.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #29 Ответы: #49

49. Сообщение от Аноним (28), 30-Май-24, 13:11 +/–

Предпочитаю впечатляться качеством, а не размером, всё-таки не времена спектрумов.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #48 Ответы: #50

50. Сообщение от _kp (ok), 30-Май-24, 13:44 +/–

Про качество логично.
Но, если у ПО совсем непомерные требования к железу, то пахнет плохим проектированием, а то и JS/Pytnon.
Подобное ПО с качеством можно использовать для наговаривания книг, генерации озвучки, но между делом в фоне работать подобному ПО тяжеловато.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #49 Ответы: #51

51. Сообщение от Аноним (28), 30-Май-24, 14:45 +/–

Требования-то, конечно, да, но размер модели меня не напрягает. ≈Гигабайт локально, если будет _нормальный_ голос — это ни о чём.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #50 Ответы: #52

52. Сообщение от _kp (ok), 30-Май-24, 15:17 +/–

Проблема не в ги6абайтах, что дешево, в том что для генерации на лету надо ещё и толстую видеокарту, которая не будет выводить видео, а займется синтезом речи.
А в сотни мегабайт уже влазит база с полностью нароворененными фразами, с интонацией и правильным произношением, и далее работает не требуя ресурсов, хоть на игрушечном esp32.
А вот как такая база готовится, то секрет, ибо делать "в лоб" долго. А для её генерации подобный движок уже более чем уместен, с любыми его требованиями.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #51 Ответы: #54

53. Сообщение от Аноним (53), 30-Май-24, 16:40 +1 +/–

Так голос поменять не проблема, проблема в вокале. Если петь ты не умеешь то меняй хоть на голос шакиры - будешь голосом шакиры, но так же как и раньше хреново петь.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #26

54. Сообщение от Аноним (28), 31-Май-24, 10:10 +1 +/–

Ветка началась с мерянья пиписьками, у кого меньше.
А так-то проблема всех нейросетей сейчас не в объёме, а в вычислительной мощности. Пока не появятся массовые недорогие NPU, для персональных компьютеров это всё малоприменимо. Вот, может, MS с квалкомом пендаля в этом направлении дадут.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #52

55. Сообщение от rvs2016 (ok), 31-Май-24, 10:23 +/–

Из описания не понял - можно ли эту "модель" использовать где-то у себя и какой пакадж для этого установить надо?

Ответить | Правка | Наверх | Cообщить модератору

56. Сообщение от Аноним (-), 31-Май-24, 17:08 +/–

> Еще бы что-то с бухими самокатчиками сделать и вообще будет ништяк!
Можно просто тебя в тюрьму посадить. Заранее. Сразу столько проблем одним махом! И с отбойниками, и с столбиками, и самокаты там не ездят. Красота.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #17

57. Сообщение от Аноним (57), 31-Май-24, 19:40 +/–

Если почитать сабж в Гите то оно обучалось на китайском и английском языках. Поэтому основное применение его именно там. Хотеть от нее хорошего русского... Ну такое...

Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2025 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру

2. Сообщение от Аноним (2), 29-Май-24, 15:18	+2 +/–
А можно синтезировать синтезатор Стивена Хокинга с его помощью?
Ответить \| Правка \| Наверх \| Cообщить модератору

3. Сообщение от Tron is Whistling (?), 29-Май-24, 15:24	+11 +/–
> для защиты от использования модели для совершения мошеннических и криминальных действий при обучении модели использована подстановка высокочастотного шума и задействован максимальный уровень сжатия звука Короче сама модель даёт на выходе Г, но вы это, слушайте свист с бульканьем, и наслаждайтесь "возможностями" "AI".
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #5, #12

4. Сообщение от Tron is Whistling (?), 29-Май-24, 15:31	+/–
И да, сторонники альтернативной теории информации - ну что, отделите шум от плевел в данном вопросе? Если бы было так легко - всё бы было легко и просто.
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #6, #11

5. Сообщение от Аноним (-), 29-Май-24, 15:31	+/–
Держу пари, что только в бесплатной версии.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #3

6. Сообщение от Аноним (6), 29-Май-24, 15:50	+1 +/–
А что это ещё за альтернативная теория информации?
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #4 Ответы: #10, #22

7. Сообщение от Аноним (7), 29-Май-24, 16:12	+1 +/–
> для русского языка можно рекомендовать фреймворк TTS и модель XTTS-v2, которые кроме синтеза поддерживают клонирование голоса по короткой записи речи, в том числе для синтеза на другом языке Нет, лучше уж модель TTS от OpenAI. Она хоть и проприетарная, и с американским акцентом говорит, но результат больше похож на русскую речь, чем этот синтезатор, который даже числительные не может нормально озвучить.
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #19

8. Сообщение от Аноним (8), 29-Май-24, 17:01	+2 +/–
Microsoft Agent и Ivona как-то же работают без RTX4090.
Ответить \| Правка \| Наверх \| Cообщить модератору

9. Сообщение от Женя Вертолёт (?), 29-Май-24, 17:46	+2 +/–
Где это можно попробовать онлайн?
Ответить \| Правка \| Наверх \| Cообщить модератору

10. Сообщение от n00by (ok), 29-Май-24, 17:50	–2 +/–
Это где T9 называют "ИИ".
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #6 Ответы: #15

11. Сообщение от Женя Вертолёт (?), 29-Май-24, 17:52	+/–
Ты сам то понял что написал?!
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #4

12. Сообщение от Женя Вертолёт (?), 29-Май-24, 17:54	+4 +/–
Вообще нездоровая тенденция. Почему кто-то ограничивает одних, ради того, чтобы огородить других? Это примерно из той же оперы, когда государство лезет к тебе на кухню и отнимает ножи, веди ими зарэзать можно.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #3 Ответы: #17

13. Сообщение от Женя Вертолёт (?), 29-Май-24, 17:57	+3 +/–
> Кроме того, для защиты от использования модели для совершения мошеннических и криминальных действий при обучении модели использована подстановка высокочастотного шума и задействован максимальный уровень сжатия звука, используя формат MP3. А если я хочу использовать это для озвучки видосиков на ютуб? Нафига вообще эта модель тогда нужна, если из неё нельзя извлечь никакого практического толка?
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #39

14. Сообщение от InuYasha (??), 29-Май-24, 18:13	+1 +/–
> Для генерации 30-секундной записи требуется GPU с 4 ГБ памяти. На GPU NVIDIA GeForce RTX 4090D скорость генерации составляет приблизительно 7 семантических токенов в секунду. Вот же ж блин! И как я только живу со своим espeak, который кушает КИЛОбайты и о GPU никогда и не слыхал?..
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #23, #28, #41

15. Сообщение от Аноним (15), 29-Май-24, 18:29	+/–
вот только это уже давно и близко не t9, внутри там все очень сложно
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #10 Ответы: #24

17. Сообщение от Аноним (-), 29-Май-24, 18:35	–1 +/–
> Вообще нездоровая тенденция. Почему кто-то ограничивает одних, ради того, чтобы огородить других? О, ты не представляешь как я благодарен государству, за то что оно огораживает отбойниками меня от всяких нехороших людей, которые по встречке прутся. И вокруг остановок столбики от пакрующихся чудаков. Еще бы что-то с бухими самокатчиками сделать и вообще будет ништяк!
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #12 Ответы: #25, #43, #56

19. Сообщение от Аноним (-), 29-Май-24, 18:46	+3 +/–
> Нет, лучше уж модель TTS от OpenAI. Она хоть и проприетарная, и с американским > акцентом говорит, но результат больше похож на русскую речь, чем этот синтезатор, > который даже числительные не может нормально озвучить. Если что, "CC BY-NC-ND 4.0 (Creative Commons Attribution-NonCommercial-NoDerivatives 4.0)" не сильно далеко от проприетарных лицензий ушел.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #7

22. Сообщение от Tron is Whistling (?), 29-Май-24, 18:59	+/–
> А что это ещё за альтернативная теория информации? Это где чтобы шум, превышающий уровень полезного сигнала, отделить, надо набрать чуть-чуть рандомной статистики. Обычно эксперды в безопастности.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #6 Ответы: #33

23. Сообщение от Аноним (23), 29-Май-24, 20:18	+/–
> Вот же ж блин! И как я только живу со своим espeak, > который кушает КИЛОбайты и о GPU никогда и не слыхал?.. Еще и не булькает поди как вон то. Экий ты читер!
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #14

24. Сообщение от Аноним (24), 29-Май-24, 20:36	+/–
Ничего сложного там и в помине нету...
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #15

25. Сообщение от Аноним (25), 29-Май-24, 21:06	+4 +/–
Вот когда их огородят на столько что ограда вокруг тебя сомкнется - вот тогда-то ты запоешь по другому..
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #17 Ответы: #42

26. Сообщение от Аноним (26), 29-Май-24, 21:16	+/–
Когда они наконец сделают рилтайм замену голоса. Я давно хочу попробовать под гитару попеть голосом челентано, или бейонсе, или... ну короче не своим отстойным голосом, а заипадым вокалом.
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #38, #40, #53

27. Сообщение от Геймер (?), 29-Май-24, 21:23	–2 +/–
Юниксвей для нейросеток. Нейросетка должна делать что-то одно и делать это хорошо, и весить не более 50 мегабайт. ChatTTS всё таки ещё не юниксвей. Но может им быть.
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #29

28. Сообщение от Аноним (28), 29-Май-24, 21:26	+/–
Послушал. Поржал. По-моему, даже SAM естественнее звучит.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #14

29. Сообщение от Аноним (28), 29-Май-24, 21:29	–1 +/–
> и весить не более 50 мегабайт. А лучше 50 килобайт, чтобы прямо в PDP-7 влазила. Вот тогда точно юниксвей будет.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #27 Ответы: #30, #31, #48

30. Сообщение от Геймер (?), 29-Май-24, 21:38	–1 +/–
"640 КБ должно хватить для любых задач"
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #29

31. Сообщение от Геймер (?), 29-Май-24, 21:42	–3 +/–
Если нейросеть заточена под только одну функцию и при этом может работать вместе с другими нейрсетями, используя универсальный текстовой интерфейс, то её объём не будет стремиться к бесконечности.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #29

33. Сообщение от Аноним (33), 29-Май-24, 22:00	+/–
Эксперды в __теории__ безопасности, важно учесть.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #22 Ответы: #35

35. Сообщение от Tron is Whistling (?), 29-Май-24, 22:06	+/–
В практике, думаю, выйдут не хуже ;)
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #33

38. Сообщение от Аноним (25), 29-Май-24, 22:34	+/–
RVC
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #26

39. Сообщение от Аноним (25), 29-Май-24, 22:58	–2 +/–
переводи в wav. выводи синтез на колонки и снимай с них микрофоном
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #13