Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 562 149 322
Голосовых нейронок тред (TTS, STS, STT) #6 /speech/ Аноним 08/03/24 Птн 02:43:18 664162 1
Вал не крутись.mp4 6481Кб, 1280x720, 00:01:09
1280x720
Крипи-стори.mp4 23025Кб, 1280x720, 00:09:04
1280x720
Wellerman.mp4 4225Кб, 1024x1024, 00:00:20
1024x1024
Слово Неко-Арк.mp4 8326Кб, 640x480, 00:01:09
640x480
Так уж вышло.webm 829Кб, 512x384, 00:01:02
512x384
XTTSv2 finetune.webm 7519Кб, 1544x840, 00:02:06
1544x840
aggressive scie[...].mp4 5291Кб, 1152x720, 00:00:01
1152x720
Я болен тобой.mp4 1744Кб, 512x768, 00:01:20
512x768
Обсуждаем нейросети, связанные с синтезом, преобразованием и распознаванием речи. Не забываем публиковать свои шедевры в треде.

Прошлый тред: >>552016 (OP)

Вики треда: https://2ch-ai.gitgud.site/wiki/speech/

FAQ

Q: Хочу озвучивать пасты с двача голосом Путина/Неко-Арк/и т.п.

1. Используешь любой инструмент для синтеза голоса из текста - есть локальные, есть онлайн через huggingface или в виде ботов в телеге:
https://2ch-ai.gitgud.site/wiki/speech/#синтез-голоса-из-текста-tts

Спейс без лимитов для EdgeTTS:
https://huggingface.co/spaces/NeuroSenko/rus-edge-tts-webui

Так же можно использовать проприетарный комбайн Soundworks (часть фич платная):
https://dmkilab.com/soundworks

2. Перегоняешь голос в нужный тебе через RVC. Для него есть огромное число готовых голосов, можно обучать свои модели:
https://2ch-ai.gitgud.site/wiki/speech/sts/rvc/rvc/

Q: Как делать нейрокаверы?

1. Делишь оригинальную дорожку на вокал и музыку при помощи Ultimate Vocal Remover:
https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/UVR

2. Преобразуешь дорожку с вокалом к нужному тебе голосу через RVC:
https://2ch-ai.gitgud.site/wiki/speech/sts/rvc/rvc/

3. Объединяешь дорожки при помощи Audacity или любой другой тулзы для работы с аудио

Опционально: на промежуточных этапах обрабатываешь дорожку - удаляешь шумы и прочую кривоту. Кто-то сам перепевает проблемные участки.

Качество нейрокаверов определяется в первую очередь тем, насколько качественно выйдет разделить дорожку на составляющие в виде вокальной части и инструменталки. Если в треке есть хор или беквокал, то земля пухом в попытке преобразовать это.

Нейрокаверы проще всего делаются на песни с небольшим числом инструментов - песня под соло гитару или пианино почти наверняка выйдет без серьёзных артефактов.

Q: Хочу говорить в дискорде/телеге голосом определённого персонажа.

Используй RVC (запуск через go-realtime-gui.bat) либо Voice Changer:
https://github.com/w-okada/voice-changer/blob/master/README_en.md

Гайд по Voice Changer, там же рассказывается, как настроить виртуальный микрофон:
https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/Voice‐Changer (часть ссылок похоже сдохла)

Q: Как обучить свою RVC-модель?

Гайд на русском: https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/RVC#создание-собственной-модели
Гайд на английском: https://docs.aihub.wtf/guide-to-create-a-model/model-training-rvc
Определить переобучение через TensorBoard: https://docs.aihub.wtf/guide-to-create-a-model/tensorboard-rvc
Если тыква вместо видеокарты, можно тренить в онлайне: https://www.kaggle.com/code/varaslaw/rvc-v2-no-gradio-https-t-me-aisingers-ru/notebook?scriptVersionId=143284909 (инструкция: https://www.youtube .com/watch?v=L-emE1pGUOM )

Q: Надо распознать текст с аудио/видео файла

Используй Whisper от OpenAI: https://github.com/openai/whisper
Быстрый скомпилированный для винды вариант: https://github.com/Purfview/whisper-standalone-win
Так же есть платные решения от Сбера/Яндекса/Тинькофф.

Коммерческие системы

https://elevenlabs.io перевод видео, синтез и преобразование голоса
https://heygen.com перевод видео с сохранением оригинального голоса и синхронизацией движения губ на видеопотоке. Так же доступны функции TTS и ещё что-то
https://app.suno.ai генератор композиций прямо из текста. Есть отдельный тред на доске >>662527 (OP)

Шаблон для переката: https://2ch-ai.gitgud.site/wiki/speech/speech-shapka/
Аноним 08/03/24 Птн 06:21:12 664226 2
>>664162 (OP)
>Вал не крутись.mp4
Как же ахуенно
МимоКабанчиком тут пробегал в другой Ллама тред
Аноним 08/03/24 Птн 07:15:46 664236 3
БАПМ
Аноним 08/03/24 Птн 08:23:35 664246 4
Поднебесный - т[...].mp4 7426Кб, 1000x1000, 00:01:54
1000x1000
ВОЖДЬ И СКАЗКА С МАТОМ!!!
Аноним 08/03/24 Птн 08:24:40 664247 5
Ветер пригожина[...].mp4 18395Кб, 1920x1080, 00:00:29
1920x1080
Аноним 08/03/24 Птн 08:25:38 664248 6
>>664246
кстати оцените ударения. едж ттс делало
Аноним 08/03/24 Птн 10:06:47 664279 7
Анонесы, кто-то пытался делать анимешные стоны? Поделитесь опытом
Аноним 08/03/24 Птн 10:15:13 664283 8
>>664279
ну сам постони в микро и через рвс
Аноним 08/03/24 Птн 11:03:41 664309 9
>>664283
Ну постонал и пропустил. Нейронка отчаянно пытается найти слоги в моих стонах, поэтому получается странно.
Аноним 08/03/24 Птн 14:17:29 664481 10
Аноним 08/03/24 Птн 18:17:01 664790 11
Э слыште! подайте мне ту нейронку что песни делает с мелодией итд. Вродея понская какая-то, надеюсь без впн работает.
Аноним 08/03/24 Птн 18:26:58 664805 12
Нет, без прикола, я правда пару месяцев назад ей делал, было забавно но прямо никак не вспомню а что за калом вообще я пользовался, у вас в шапке под номером 8 из нее говнецо как раз, как эта срань называется, вот хоть убейте не помню, неплохую песенку себе на ней сделал просто и сейчас еще захотелось. Шапку вашу прочитал, более инфомусорной шапки я не видел нигде лол, походу с аудио совсем пиздец, даже хуже чем с картинками.
Аноним 08/03/24 Птн 18:44:12 664834 13
Аноним 08/03/24 Птн 20:35:42 665008 14
jerma985 coreco[...].mp4 8834Кб, 1280x720, 00:01:36
1280x720
jerma985 coreco[...].mp4 8045Кб, 1280x720, 00:00:07
1280x720
Warhammer mecha[...].mp4 1356Кб, 438x480, 00:00:58
438x480
Warhammer mecha[...].mp4 813Кб, 438x480, 00:00:10
438x480
Аноним 08/03/24 Птн 22:17:01 665131 15
>>664162 (OP)
есть бесплатный аналог этого
Аноним 08/03/24 Птн 22:17:42 665133 16
Аноним 09/03/24 Суб 08:40:23 665513 17
Аноним 09/03/24 Суб 08:45:56 665515 18
Аноним 09/03/24 Суб 08:46:19 665516 19
ой. два раза ввел санкции. простите
Аноним 09/03/24 Суб 09:03:43 665520 20
анонче. а давайте сделаем няшную бабскую модель и будем в /b/ набегать типа бабы
Аноним 09/03/24 Суб 09:08:01 665521 21
Аноним 09/03/24 Суб 10:50:40 665552 22
image 43Кб, 933x470
933x470
image 137Кб, 948x374
948x374
Сап, нейрач.
Нужно менять голос в реалтайме. Напишите, пожалуйста, пошаговый гайд, куда и на что жать новичку? Потому что в шапке пик 2, гайда нет.
Аноним 09/03/24 Суб 10:51:56 665553 23
17019563860200.mp4 477Кб, 396x298, 00:00:23
396x298
17018033471800.mp4 530Кб, 1280x720, 00:00:04
1280x720
Как это сделано? Анон пишет, что в елевенлабс, но в бесплатном акке такое делать нельзя.
Аноним 09/03/24 Суб 11:59:59 665588 24
Аноним 09/03/24 Суб 13:00:25 665621 25
>>665588
а почему оно не работает? Буквально вчера работало а сегодня нет
Аноним 09/03/24 Суб 16:14:12 665807 26
Аноним 09/03/24 Суб 16:14:51 665809 27
>>665807
потом переделаю немного и всю рекламу уберу
Аноним 09/03/24 Суб 17:06:14 665839 28
Аноним 09/03/24 Суб 19:27:59 665963 29
Тред. создал модель бабы. оцените. Ну питч там подвигайте в сторону >3 у меня на 3 нормальный голос вышел. https://disk.yandex.ru/d/FsACTX3EezNDvA
Аноним 09/03/24 Суб 20:19:32 666035 30
дождь.webm 14433Кб, 488x360, 00:04:09
488x360
Был один такой полурофельный перевод. А как с ним справится нейронка?
Аноним 09/03/24 Суб 20:25:17 666043 31
сверхъестествен[...].webm 18120Кб, 854x480, 00:09:58
854x480
Аноним 09/03/24 Суб 20:26:38 666046 32
загадка.webm 11289Кб, 614x480, 00:04:12
614x480
О чём ещё поют в известных древних хитах? Wait, oh sh~
Аноним 10/03/24 Вск 02:50:55 666514 33
image.png 55Кб, 652x429
652x429
image.png 57Кб, 696x488
696x488
>>664162 (OP)
Voice Changer - ПОМОГИТЕ ПОЖАЛУЙСТА!!!
Сегодня несколько раз идеально модель работала, но чаще всего баговалась на значении "crepe". А она только на нем работает как надо. Просто все жутко лагать начинает, задержка растет и не думает падать.
И вот эта надпись в консоли смущает
Аноним 10/03/24 Вск 09:56:37 666683 34
Аноним 10/03/24 Вск 09:58:51 666684 35
>>664162 (OP)
Пользователям TTS. А какое применение вы видите вообще в этом? Мой кейс был такой - выдернул текст из файла субтитров для того чтобы прогнать через ТТС и затем прогнать через РВЦ для дубляжа. Итог такой что все эти ТТС начитывают максимально механически и для +- нормальной озвучки не подходят вообще. Есть какая ТТС которая как то играет голосом немного? И почему при прогоне через РВЦ в готовом оутпуте как будто не применяется файл черт голосовой модели, потому что на выходе звучит так же механически только другим голосом

я так и не понял как субтитры озвучивать
Аноним 10/03/24 Вск 17:20:46 666945 36
>>666684
ну у меня после прогона через rvc норм все выходит. мимо еджттсник
Аноним 10/03/24 Вск 22:26:31 667361 37
>>666945
>>666945
>еджттсник

и как заставить еджттс читать по таймингам сабов
Аноним 10/03/24 Вск 23:38:15 667448 38
image.png 1703Кб, 1024x1024
1024x1024
>>667361
>>666945
Двачую этого.
Недавно замутил себе speech2speech на нескольких нейросетках (yt-dlp -> whisperx + выравнивание от туда же -> deepl -> edgetts -> ffmpeg клеим обратно). Осталось лишь выровнять зачитку по временным отметкам старта и финала. У edgetts есть коэффициент ускорения, но как прикинуть длительность итоговой зачитки? Вариант "в лоб" – сгенерировать аудио, взять его длину и поделить, после чего заново сгенерировать.

Возможно, есть более изящные решения в опенсурце? Если у кого-то есть идеи или наработки — заделитель ништяками в тредике.
Аноним 10/03/24 Вск 23:55:40 667473 39
>>667448
тменно по временым отметкам>>667448
>edgetts
>>667448
почему не заебашишь студию озвучки
скрипт на автоматическу скачку с пиратбея. RARBG а дальше свой комбайн
и заливаешь автоматом свое говно на рутор
для дорам и всяких сериалов уровня , учитывая скорость
идея вроде хорошая
Аноним 11/03/24 Пнд 00:16:56 667493 40
image.png 1335Кб, 1024x1024
1024x1024
>>667473
Тогда к этому комбайну нужно подключить расстановку ударений и определение эмоций в речи. Если не путаю, edgetts может не только монотонно зачитывать, но и кричать, шептать, радоваться и все такое. Ещё сетку на различение голосов, хотя бы женский/мужской, выбор соответствующего в edgetts.

Можешь заняться, скиллов никаких не нужно: всё готовое переклеить.

Мои же задачи куда тривиальнее — палить по дискорду ютуб с корешами, кто языка не понимает.
Аноним 11/03/24 Пнд 00:40:58 667507 41
>>667493
можно просто готовый файл перегнать через rvc голосом володарского
монотоность в итоге заамаскированна
эстеты оценять
мне осталось как понять edgetts
читать по временым меткам а не сплошняком
Аноним 11/03/24 Пнд 07:03:53 667642 42
>>667507
так если по временным меткам так разрезай то емае
Аноним 11/03/24 Пнд 07:52:54 667657 43
Аноним 11/03/24 Пнд 11:24:55 667767 44
>>667642
автоматом никак ?
хотя я думаю можно придумать для этого скрипт чтобы нарезать изначальный материал по меткам сабов
Аноним 11/03/24 Пнд 14:13:22 667903 45
Что за говняный тред пиздец? никто никому не помогает.

Нахуй вы тогда нужны?
Аноним 11/03/24 Пнд 14:13:55 667904 46
>>667903
а че за проблема?
Аноним 11/03/24 Пнд 15:24:41 667975 47
Аноним 11/03/24 Пнд 15:44:54 667996 48
Аноним 11/03/24 Пнд 16:15:37 668042 49
Аноним 12/03/24 Втр 02:08:32 668629 50
.png 16Кб, 806x133
806x133
.png 172Кб, 1307x674
1307x674
Аноним 12/03/24 Втр 02:11:02 668631 51
.png 31Кб, 1154x420
1154x420
>>668629
Что-то ссылку не выходит нормально вставить. Вот это.
Аноним 12/03/24 Втр 04:05:07 668726 52
>>665553
да, для доступа к instant voice cloning нужно купить минимальную подписку (первый месяц стоит 1$)
Аноним 12/03/24 Втр 17:35:29 669182 53
image.png 116Кб, 1293x592
1293x592
в чем проблема
Аноним 12/03/24 Втр 18:18:15 669229 54
>>669182
файла нету какого то
Аноним 12/03/24 Втр 19:30:14 669277 55
>>668726
>>668629
>>667996
Спасибо. Скоро буду пробовать. По результатам напишу в тред, поддержите, пожалуйста, ребюята.
Аноним 12/03/24 Втр 20:02:42 669316 56
Аноним 12/03/24 Втр 20:47:23 669362 57
>>669182
Как нет файл есть в папке проекта я укпзывыю полный путь тоже самое
Аноним 12/03/24 Втр 21:02:39 669383 58
>>669362
а что ты запустить хочешь?
Аноним 12/03/24 Втр 22:00:26 669457 59
image.png 121Кб, 1800x690
1800x690
>>669383
скрипт не дожелан мне нужно проверить как это работает пока что
Аноним 13/03/24 Срд 07:01:58 669797 60
>>669457
путь полностью указывай. а не эти точки
Аноним 13/03/24 Срд 11:39:43 669904 61
>>669797
все равно>>669797
кодек 'unicodeescape' не может декодировать байты в позиции 2-3: усеченный \UXXXXXXXX escape
Аноним 13/03/24 Срд 17:04:08 670200 62
>>669904
а че ты запустить пытаешься? можешь сюда скинуть?
Аноним 13/03/24 Срд 17:23:52 670227 63
Аноним 13/03/24 Срд 17:27:36 670237 64
>>670227
ты сначала пробуй по отдельности. запусти терра ттс добейся его норм работы а потом уже добавляй что то
Аноним 13/03/24 Срд 19:20:44 670370 65
Скачивал где то "RVC0813Nvidia"
Где новую скачать таким же архивом, чтоб распаковал и запустилось, без установок питоновских библиотек?
Аноним 13/03/24 Срд 19:40:56 670388 66
Аноним 14/03/24 Чтв 12:38:44 670800 67
Хочу озвучить персонажа в таверне, что посоветуете?
Озвучка на английском
Аноним 14/03/24 Чтв 23:28:17 671311 68
>>664162 (OP)
Анон, а где брать копирайченые модели? Типо всяких асмр ютуберш и японских va?
жесть, тред мертвый
Аноним 15/03/24 Птн 00:57:10 671356 69
Аноним 15/03/24 Птн 12:13:13 671641 70
>>671311
в смысле копирайченые?
Аноним 16/03/24 Суб 17:32:13 672575 71
Из реального применения вижу запиливание нормального дубляжа для игр, ну и для ютуба если что хочешь сказать чтобы не палить голос. А вы?
Аноним 16/03/24 Суб 18:52:57 672649 72
>>672575
ну да. так и есть. еще можно приколы делать типа Путин рекламирует сервер в майне и т.д.
Аноним 17/03/24 Вск 01:20:03 672978 73
Вечер в радость, аноны. Может кто знает, какие есть модификации для Whisper или альтернативы?
Запускаю на локальной машине с Whisper GUI от grisk.
Что удобно: можно обрабатывать файлы пачкой, работает просто, закинул, через время готовое забрал.
Что неудобно: нельзя настроить таймкод, нестабильное разделение на спикеров (иногда есть, иногда нет), отсутствует прогресс бар и вообще какое-либо отображение процесса обработки, только файл начат - файл закончен.
От гугления только больше запутался. Гуев много, но все субъективно хуже.
В погромировании не шарю, хочу решение для локального запуска с кнопкой "Сделать заебись". Может, есть какие-то модели чисто под русский язык, или модифицированный для русского Whisper, с возможностью настраивать какие-то параметры типа тех же таймкодов и без особого красноглазия?
Аноним 17/03/24 Вск 03:16:16 673069 74
Внимание вопрос:
Как на елевенлабс сделать спич-ту-спич с кастомным голосом?
Аноним 17/03/24 Вск 07:43:04 673131 75
>>673069
хз. никогда не заходил на это говно
Аноним 17/03/24 Вск 10:07:57 673178 76
17018033471800.mp4 530Кб, 1280x720, 00:00:04
1280x720
>>673131
Хуясе говно. А может ты говно?
Аноним 17/03/24 Вск 10:13:18 673189 77
image 180Кб, 1280x720
1280x720
image 47Кб, 516x290
516x290
image 102Кб, 1280x720
1280x720
image 69Кб, 400x225
400x225
Аноним 17/03/24 Вск 17:48:08 673491 78
Аноним 19/03/24 Втр 23:26:40 675592 79
mashyknya.mp4 11045Кб, 1080x1920, 00:00:44
1080x1920
mashykneco.mp4 9939Кб, 1080x1920, 00:00:44
1080x1920
Глубокая очистка звука 20/03/24 Срд 03:45:24 675757 80
Доброго времени суток! Меня интересует возможность очистки от нежелательных эффектов бэк-вокала и прочей шумовой составляющей, которая ухудшает качество кавер-версий. В данный момент я использую UVR с такими плагинами: Kim Vocal 2, UVR-DeNoise, UVR DeEcho-DeReverb, а также плагин
MDX-B Karaoke (lead/back vocals) на MVSEP. Итак, вопрос к знатокам: какие существуют более продвинутые методы очистки и изоляции вокала?
Аноним 20/03/24 Срд 06:57:51 675809 81
>>675757
а больше и нету. только плагины UVR
Аноним 20/03/24 Срд 20:22:41 676384 82
А есть что-то которое музыку превращает в 8-16 бит?
Аноним 20/03/24 Срд 20:56:13 676414 83
>>676384
это даже не нейронки. Гугли
Аноним 20/03/24 Срд 21:27:32 676440 84
Аноним 24/03/24 Вск 12:48:38 679714 85
Аноним 24/03/24 Вск 13:01:39 679718 86
image 218Кб, 1901x802
1901x802
>>668629>>668042>>667996
Пытаюсь запустить этот ваш VoiceChanger. Сразу вот это.

Два вопроса:
1. На кой хер эта хрень в интернет просится? Я не для того скачал локальную нейросетку с этой пердольной консолью, чтобы она ещё и в интернет лезла.
2. Я даже не вижу, чтобы она просила разрешения в интернет. Я бы в фаерволле увидел. Она через какой-то другой сервис пытается сделать какое-то коннект? Объясните, что там включается у неё?
Аноним 24/03/24 Вск 14:10:43 679759 87
>>679718
Веса скачать пытается, судя по всему.
То бишь то, что за смену голоса отвечать и должно.
А ты ей не даешь.
Аноним 24/03/24 Вск 14:12:39 679760 88
>>679759
Уже разобрался, спасибо.
Аноним 24/03/24 Вск 15:57:21 679864 89
image 177Кб, 771x884
771x884
Как сделать собственный голос? Хочу сделать голос В. В. Пыни.
Где тут аудиофайл закинуть чтобы работало?
Оно везде какие-то модели просит.
Аноним 24/03/24 Вск 15:57:54 679867 90
Аноним 24/03/24 Вск 16:36:02 679949 91
>>679864
нафига вы все в этот реалтайм хотите? качай рвс и делай. Там все лучше и проще.
Аноним 24/03/24 Вск 18:43:40 680073 92
>>679864
Нашёл как загрузить модели с сайта. А как сделать свою собственную из аудио?
Аноним 24/03/24 Вск 19:29:38 680119 93
pynya1.mp4 2670Кб, 720x720, 00:01:15
720x720
Нейросетка фейлит происношение некоторых слогов и букв, преимущественно шипящих и свистящих (Ш, Щ, С, Ж). Как пофиксить?
Аноним 26/03/24 Втр 12:53:03 682035 94
>>679714
а также плагин MDX-B Karaoke (lead/back vocals) на выходе звучит так если что пока что за проблема?
Аноним 26/03/24 Втр 13:36:50 682072 95
17108489596640.mp4 13715Кб, 600x900, 00:03:00
600x900
Аноним 26/03/24 Втр 13:45:06 682079 96
>>680119
База на английских фонемах. Походу никак это не пофиксить, пока кто-нибудь новый беслптный инструмент не высрет без этого врожденного дефекта.
Аноним 26/03/24 Втр 13:53:15 682089 97
17009386865690.mp4 1108Кб, 480x256, 00:00:06
480x256
>>682079
Ну вот доводится слышать качественные фейки без этих проблем. Может, дело в настройке?
Аноним 26/03/24 Втр 13:57:05 682094 98
>>682089
Хуй знает. Ещё ни разу не слышал результат работы RVC и его форков без этих артефактов. Если есть возможность в треде или где обязательно надо спросить у людей кто такие фейки делал как добились. Может там вообще какой-то платный сервис на самом деле используется или какая диковиная хуйня не доступная бесплатно.
Я ещё помню был софт по изменению голоса от российских разработчиков (забыл как называется) и его изьяли из открытого доступа из за того что наебщики бабок по телефону моментально его на вооружение взяли.
Аноним 26/03/24 Втр 23:36:11 682891 99
Сап, голосовые мои. Скажите что мне из это в шапке может озвучивать текст не просто голосом диктора, а чтоб была опция, где выбрать с какой эмоцией бот будет это говорить - страх, гнев, радость и т.п.
Я видел в онлайн сервисах такой выбор. Уточняю мне надо ТТС именно с разными эмоциями на выбор, RVC я уже оформил пару месяце назад, но потом забил, чтоб потом голосом избранных персонажей говорить.
Аноним 27/03/24 Срд 11:42:39 683458 100
>>682891
а с голосом только силеро как то может работать. там с помощью разметки надо это делать
Аноним 27/03/24 Срд 14:08:13 683630 101
>>683458
У меня не устанавливается ваше костыльное силеро.
Аноним 27/03/24 Срд 19:01:56 684084 102
Кстати, а почему последние два треда (полгода) нет этого супер-пупер Силеро в шапке? Оно ВСЁ?
Аноним 27/03/24 Срд 21:56:47 684370 103
>>684084
так нету больше ничего. силеро едге все
Аноним 27/03/24 Срд 23:25:09 684502 104
>>684370
А чому так? Технологии древних утеряны спустя полгода?
А любят кричать зато - посмотрите какой у нас открытый исходный код, а сами на хуг фейс выжимают платную машину, чтоб нельзя было скопировать себе и не ждать в очередях.
Я пробовал сегодня ХТТС. Конечно я это программистичкое для линуксоидов устанавливать не буду и чето там в консоли писать, это пиздец кал. Но получалось оно что-то рабочее, реально из 6 секунд похожий голос получался онлайн на хуйгфейсе. Но там очереди долгиеЮ нет фич для поднастройки и копировать себе нельзя, нужна платная машина. Кал.
Остаётся реально чтоли онлайн на сайтах ИИС пользоваться где у ботов разные эмоции на выбор и в РВС преобразовывать? Нет альтернатив?
Это ж блять просто сделать моделей 8 типов людей по возрасту и полу и у каждой по штук 10 эмоций, за неделю можно натренировать. То есть уже сделали, жиды не дают пользоваться бесплатно. Два стула, что либо плати, либо жри кал с отрытым кодом костыльный линуксоидный программистический для бомжей.
Аноним 28/03/24 Чтв 00:44:19 684697 105
System in Chains.mp4 15151Кб, 284x262, 00:04:46
284x262
Эта софтина Ultimate Vocal Remover из шапки просто золото среди говна! Бесплатная, да и то ещё не для программистов-аутистов.
Я так охуел и не ожидал, что сразу на радостях сделал аи кавер.
Аноним 28/03/24 Чтв 14:33:05 685491 106
>>684502
пока альтернатив реально нет( Ждем всем тредом годную альтернативу еджттс и силеро
Аноним 28/03/24 Чтв 14:57:16 685519 107
>>684502
> А любят кричать зато - посмотрите какой у нас открытый исходный код
Тот кто в аср/ттс крутится знает, что силеро потом кричит "хули вы пользуетесь нашим открытым кодом, там в 78 строчке лицензимонного соглашения написано что вам нам должны бабок".
Силеро всегда была компанией-пидорасом, на неё лучше не ориентироваться.
Аноним 28/03/24 Чтв 18:01:09 685821 108
Блять как же заебало. У меня в RVC ошибка с обучением модели КУДА ран оф мемори и не трейнит, че только не пробовал, и меньше требования ставил и форумы читал, анальники хуебясят на форумах и ютубах и тратят моё время. Как-то сам допёр и обновил models.py и заработало. Почему не могут делать говно чтоб работало искаропки?
Такое чувство будто они разрабатывают это всё, но сами не пользуются совсем. А нах делать тогда, если деньги даже не платят??
Аноним 28/03/24 Чтв 19:04:45 685878 109
>>685821
брат. какая карта?
Аноним 28/03/24 Чтв 19:55:43 685946 110
>>685878
3060, ну у меня размер пачки больше и не тянет.
Аноним 28/03/24 Чтв 19:59:44 685948 111
Аноним 28/03/24 Чтв 20:08:49 685950 112
>>685946
>ну у меня размер пачки больше >>12<< и не тянет
фик. куда цифра проебалась?

Алсо странное - я тренил две модели с 250 эпохами, а потом с 700. Думал что вот щас качество так качество услышу, а стало хуже, больше электронных звуков голоса робота стало. Как же так? Это не повезло просто или слишком много нельзя?
Аноним 29/03/24 Птн 20:24:45 687390 113
Слушайте, а можно ли как-то обучить чужую карточку персонажа с вей.гг другой карточкой, которая обучена на кумерскиъ стонах, чтоб первая карточка стонала в характере персонажа, не? Или даже думтаь не стоит? Надо ведь собирать звуки с этим оригинальным персонажем?
И допустим если я соберу звуки и сделаю свою маня карточку только со стонами и ахами этого персонажа, то можно её влить в чужу карточку с этим персонажем или хуйня получится и надо полностью свою со всей базой всего генерить?
Аноним 30/03/24 Суб 02:50:13 687686 114
17117389920761.mp4 3850Кб, 800x532, 00:01:59
800x532
Аноним 04/04/24 Чтв 05:19:50 692858 115
Мне нужно озвучивать огромные объёмы текста на русском. Пока что лучше всех с этим справлялся Evenlabs, но перебанили все аккаунты + бан по ip, а платить разумеется не хочется. А даже если и платить, мне никакой подписки не хватит для моих объёмов. Есть ли альтернативы или обход блокировки? (впн, прокси, тор не канают)
Аноним 05/04/24 Птн 03:13:44 693750 116
Сап! Есть аудио, в котором поверх одного голоса говорит второй. Есть нейронки чтобы эти голоса прилично разделить? Или еще не доросли до такого? Пробовал MDX-B Karaoke на mvsep, но хуйня. Или я че не так настроил?
Аноним 05/04/24 Птн 13:51:33 693979 117
Аноним 07/04/24 Вск 05:36:04 696009 118
Искал софт для озвучки книжек, перепробовал 100500 моделей. В итоге остановился на Demagog с моделью silero tts. Все остальное оказалось хуйней.
Аноним 12/04/24 Птн 16:19:49 701669 119
>>696009
> В итоге остановился на Demagog с моделью silero tts.
Покажи примеры лучшего, что получилось.
Аноним 12/04/24 Птн 21:36:44 701964 120
Аноним 13/04/24 Суб 18:22:48 702958 121
image 22Кб, 318x320
318x320
image 944Кб, 220x220
220x220
>>701964
Это же невозможно слушать.
Оно даже не там смысловые ударения ставит. Причём не просто на уровне плохой актёрской игры, а на уровне банальном, натурально проваливает точки и запятые.
И это всего три минуты, из которых я с усилием дослушал две. Как такую белиберду целый час слушать не представляю.
Скажи честно, это ты такой лоускилл, что не смог настроить её нормально, или нейросетка в целом такая отстойная? Не имею цели тебя обидеть, если что.
Аноним 13/04/24 Суб 19:04:52 703003 122
16052627578480.png 880Кб, 811x1081
811x1081
>>702958
Настроить можно так что от живой речи не отличить.
Но нужно править сам текст вручную и расставлять ударения плюсами. Никто для разового прослушивания - подобной хуйней заниматься не будет. За 3 минуты там пяток неправильных ударений что более чем годно. Конкурирующие нейросетки выдают либо такой же либо худший по сравнению с этим результат, но у этой есть плюс в виде автономной работы без ограничений. Если что я еще и аудиокниги слушаю на скорости в 220-240% так что мои мозг работает почти все время в ускоренном режиме и сам адаптирует качество до приемлемого. Люди не понимают что мозг очень гибкий инструмент и он может сам адаптироваться, всего день прослушиваний и мозг сам начнет правильно выставлять ударения при прослушивании и ты перестанешь замечать какие либо шероховатости.
Аноним 14/04/24 Вск 00:45:56 703441 123
>>703003
> Если что я еще и аудиокниги слушаю на скорости в 220-240% так что мои мозг работа
Как в таком порядке можно вообще что то услышать, понять и главное прочувствовать из книги? Это художественное произведение, а не состав продукта "говяжьи анусы идентичные натуральным". Тут важны игра образов, слова, атмосфера, почище, чем в кино, собственное осознание. Это не краткий пересказ послушать. Я уже писал про то что и на стандартной скорости этот кал слушать невозможно
Аноним 14/04/24 Вск 00:46:32 703443 124
>>703003
Спасибо, не имею желания адаптироваться к хуёвым продуктам; предпочитаю нормальное качество.
Аноним 14/04/24 Вск 09:53:41 703658 125
>>703441
>>703443
Дураки вы. Мозг очень быстро адаптируется и сам переключает передачи. День два тренировок и вы будете воспринимать скорость в 240% как 100% даже не понимая на какой скорости вы сейчас смотрите\слушаете. Это те кто никогда ничего не слушал на ускорении думает что там каша получается, но со временем мозг вырабатывает свои режим работы и вы будете понимать и игру слов и интонации и вообще будете смотреть на себя в прошлом как на дурачков что проебали кучу времени. Недавно я попробовал посмотреть Дюну Вильнева на 100% так чуть не сдох от уныния, как я раньше вообще смотрел фильмы на такой скорости не пойму. 200% это минимальная комфортная скорость для потребления контента.

Мозг всегда сам настраивает восприятие течения времени и имеет встроенный эквалайзер. Раньше я думал что аудиофилы прогревают наушники после покупки но потом понял что прогревается именно мозг. Мозг сам меняет восприятие и занимается выравниванием АЧХ. Мозг всегда занимается адаптацией своих функций хотите вы этого или нет.
Аноним 14/04/24 Вск 10:31:51 703664 126
>>703658
Ебать шизик тиктокоголовый. Какая каша у тебя в голове боюсь представить. Ни о каком запоминании и восприятии тут естественно не может быть и речи.
Аноним 14/04/24 Вск 11:52:54 703710 127
>>703664
Каша у тебя в голове. Но ты этого не поймёшь пока сам не попробуешь.
Аноним 14/04/24 Вск 17:26:10 704033 128
Анонче, поделитесь если у кого есть гайд установки coqui-ai/TTS на WSL2. Или для запуска через Docker. Не хочется винду говнять миллиардом библиотек
Аноним 14/04/24 Вск 22:01:32 704331 129
Подскажите хорошую speech-to-speech модель для русского женского голоса. Просто хочется потраллировать чуваков в воис чате. Англоязычных моделей полно, но они все шепелявят, когда говоришь на русском. Русские ищу по конкретным персонажам, которые в голову приходят, но обычно оказываются низкокачественные. Мне бы хоть какую-нибудь, лишь бы был женский голос и правдоподобно звучал.
Аноним 14/04/24 Вск 23:44:57 704430 130
>>704331
сенко или некоарк
Аноним 15/04/24 Пнд 15:47:20 704822 131
image 164Кб, 993x702
993x702
Почему Voice changer w-okada не работает без подключения к интернету? Нейросетка же загружена локально, модели тоже.

Что я делаю не так?
Аноним 17/04/24 Срд 00:53:51 706512 132
>>704822
Че делать если все скачал но при двойном нажатии на файл start.http ничего не происходит?
Аноним 17/04/24 Срд 17:27:03 707388 133
>>706512
Мутировать в гидралиска.
не знаю
Ананасы, помогите заплатить барыгам на Plati.Market Аноним 17/04/24 Срд 21:24:48 707602 134
image.jpeg 4Кб, 240x240
240x240
Раз в несколько месяцев я набираю себе воду из родничка подписки на ElevenLabs - сделать это можно только через Plati.Market, потому что наши карты (особенно Беларуси) зарубежные сервисы не принимают.

Раньше я делал это через любого доступного барыгу: выбирал в способах оплаты карту Казахстана и оно пропускало. Со временем кто-то пораскинул своими тремя извилинами и убрал этот способ, так что пришлось переходить на Киви - итог известен.

Я конечно понимаю, что переводы денег между Россией и Беларусью это охуеть какая сложная международная задача уровня Мстителей, но неужели не осталось больше никаких способов, кроме ЮMoney (бывший яндекс-кошелёк, который не даёт себя пополнить без скана паспорта на фоне жопы в трёх проекциях)?

В наличии есть беларуская карта МИР, которая нормально оплачивала в России, но у барыг конкретно такого варианта нету. Крипта тоже не пойдёт, её тут хуй купишь без мозгоебли и тех самых фоток с жопой (или я чего-то не знаю). Если кто-то тоже попал в такую ситуацию, то напишите пожалуйста, если остался какой-нибудь рабочий способ
Аноним 17/04/24 Срд 21:50:41 707628 135
>>707602
прикладывай фото к жопе и заводи юмани, не выёбывайся.
Аноним 17/04/24 Срд 22:02:51 707640 136
>>707628
Да если бы только жопу прислать, как когда-то в вебмани, и всё - там же целая куча мозгоебли, которую принимает лишь один банк. Ещё и взнос такой, будто я медицинскую страховку открываю, а не электронный кошелёк
Аноним 17/04/24 Срд 22:37:10 707687 137
>>707640
белинвестбанк прикручивай и всё. они сами фотки твоего ануса в союзное государство перешлют.
Аноним 17/04/24 Срд 23:25:17 707745 138
>>707602
Зачем платить ElevenLabs если silero tts выдает такое же качество но при этом бесплатно и без ограничений?
Аноним 18/04/24 Чтв 13:15:47 708286 139
>>707745
>silero tts
Да не, это буквально небо и земля
Аноним 18/04/24 Чтв 14:07:47 708368 140
>>708286
Ну как знаешь. Я вбивал неподготовленный текст в обе модели и обе модели обсирались в одних и тех же местах. У меня вообще сложилось впечатление что это одна и та же модель но с разными голосами.
Аноним 18/04/24 Чтв 16:00:14 708533 141
Кто-нибудь слышал про забугор.рф? Они оплачивают подписки своими картами по идее
Аноним 18/04/24 Чтв 16:12:56 708562 142
ElevenLabs.mp4 204Кб, 1280x640, 00:00:12
1280x640
>>708368
>вбивал неподготовленный текст
Ну вот что у меня выходит.

Тупо залил аудио из вот этого видео
https://www.youtube.com/watch?v=Kmy7h7lSSPg
Нажал Instant Voice Cloning, вбил текст, и все.
Аноним 19/04/24 Птн 00:02:24 709268 143
Аноны, у меня технический вопрос по железу.
Если пользоваться локальными моделями, то на что лучше обращать внимания по железу т.к. в скором времени хочу сменить компуктер.
Аноним 19/04/24 Птн 13:39:56 709754 144
>>709268
Видюха с поддержкой CUDA а больше требований и нет.
Да и локальных моделей раз два и обосрался.
Аноним 21/04/24 Вск 01:33:40 711998 145
>>704822
БАМП ВОПРОСУ

Аноны, подскажите
Аноним 21/04/24 Вск 01:48:43 712018 146
>>711998
Ставь Wireshark и анализируй трафик куда он обращается.
Аноним 21/04/24 Вск 19:05:13 712691 147
Есть опенсорс ТТСки которые могут в эмоции?
Аноним 22/04/24 Пнд 00:02:05 713154 148
>>684697
Что за хуйню ты сделал? Невозможно слушать
Аноним 22/04/24 Пнд 12:13:45 713572 149
image.png 1002Кб, 573x719
573x719
>>664162 (OP)
Аноны, нейрокаверы вам в хату, такой вопрос - как переделать голос с мужского на женский и вообще реально ли это? Я записываю свой и на женской модели полный треш выходит. Делать высокий pitch тоже не помогает. Но при этом когда я даю модели запись голоса какой нибудь тянки, то плюс минус похоже получается.
Аноним 22/04/24 Пнд 14:00:46 713729 150
image.png 211Кб, 1903x1041
1903x1041
>>664162 (OP)
так почему нет выхлопа и куча ошибок
Аноним 22/04/24 Пнд 15:23:49 713803 151
Аноним 23/04/24 Втр 17:56:06 715145 152
image.png 11Кб, 450x37
450x37
Аноним 24/04/24 Срд 00:22:25 715693 153
>>715145
Как я путь не менял не находит
Аноним 25/04/24 Чтв 20:32:41 717741 154
>>664162 (OP)
Аноны, дайте всю базу, если я хочу себе натренить голоса 2д девочек для moe-tts или что там сейчас топовое вышло. Еще что-то нужно сделать с эмоциями и интонациями. Вроде есть какой-то параметр питча, который в теории можно было бы менять прямо во время фразы. Но находил только какой-то университетский дроч. В общем, если кто-то что-то знает, подскажите.
Аноним 26/04/24 Птн 01:39:06 718006 155
>>664162 (OP)
Какая сейчас актуальная база для тренировки своей модели?
Обновления выходили для RVC? Или ещё какие модели появились?
Аноним 26/04/24 Птн 11:54:38 718208 156
Где можно бесплатно и реалистично клонировать свой голос для работы с русским языком?
Аноним 26/04/24 Птн 14:13:50 718331 157
где надыбать каественных образцов голоса к xtts2 ?
может какой то архив есть с wav?
Аноним 26/04/24 Птн 16:29:26 718490 158
Аноним 27/04/24 Суб 19:49:02 719957 159
Нужно быстрая ттс модель + стс чтобы преобразовать ее в нужный голос, для реалтайм чатбота. Попробовал xtts v2, но он медленный как жопа даже на сторонней апишке. Есть какая-нибудь средняя по качеству моделька на 400кк параметров которая может в русский и быстрая конвертация в другой голос?
Аноним 28/04/24 Вск 21:02:35 720991 160
RVC Web UI грузит процессор не на полную, генерация происходит медленнее чем хотелось бы. Чзх
Аноним 29/04/24 Пнд 14:04:05 721611 161
>>683630
Я в одном из прошлых тредов писал свой опыт по установке этого говна. В общем там черех жопу надо скачивать модель с сайта силеро, с директории, на которую ниоткуда нет ссылок, так что найти ее можно только подрочив в присядку. Не советую начинать ставить силеро, так как тот же AllTalk на порядки лучше.
Аноним 29/04/24 Пнд 14:14:14 721620 162
Аноним 29/04/24 Пнд 14:18:14 721623 163
>>721620
Кстати, еще ни разу до конца списка не доходил. В последний раз отвалился, как наевшийся клещ, к концу английских голосов.
Аноним 30/04/24 Втр 12:57:38 722348 164
Аноним 30/04/24 Втр 14:15:17 722381 165
>>722348
Вот если бы еще делали плавный переход между idle состоянием и разговором, то я бы даже захотел себе какую нибудь такую ассистентку запилить.
Аноним 30/04/24 Втр 15:28:53 722421 166
>>722381

https://www.youtube.com/watch?v=hPS7dtJn00s
https://www.youtube.com/watch?v=en6uW595DM8

Оно раньше было еще хуже, но автор подошел к делу со страстью и всего за два месяца такой прогресс. Надеюсь он не забросит проект. По сути он ничего нового не делает, а просто оптимизирует рабочие варики. Если судить по старым видео раньше он вообще использовал нейронки яндекса, гугла и говнАлису.
Аноним 30/04/24 Втр 17:59:21 722542 167
Почему Суно из дк выпилили модели нейронки? У меня с сайтом давно проблемы, ничего генерить не выходит. Вылетает при каждом удобном случае, как с впн, так и без. С разных устройств
Аноним 02/05/24 Чтв 03:48:30 723852 168
Tech-Priest.mp4 3402Кб, 720x720, 00:01:14
720x720
>>665008
> 4
Так проиграл, что сделал свою версию, и проиграл ещё больше.
Аноним 02/05/24 Чтв 10:58:34 723956 169
>>704822
БАМП ВОПРОСУ
У вас так же?
Аноним 02/05/24 Чтв 11:09:46 723960 170
image 188Кб, 1406x869
1406x869
>>713572
Чем записываешь? Какие модели юзаешь?

>>721620
А где там голоса брать?
Аноним 03/05/24 Птн 21:00:33 725068 171
Хелп срочно нужна модель голоса володарскокого
Аноним 05/05/24 Вск 00:46:02 726575 172
Аноним 06/05/24 Пнд 18:03:52 728827 173
Аноним 07/05/24 Втр 01:07:01 729665 174
>>728827
В коментах автор же написал 11 labs
Аноним 08/05/24 Срд 14:58:55 731819 175
reverieng.mp4 532Кб, 0x0, 00:00:27
0x0
reverirus.mp4 268Кб, 640x480, 00:00:10
640x480
>>729665
>В коментах автор же написал 11 labs
Действительно. Спасибо.

Интересует именно дубляж. Но автодубляж не тащит. Платные планы позволяют фиксить пере0еденный текст и ударения?

Так же халявный план не позволяет загружать аудио, только видео. Я в ffmpeg прицепил к mp3 изображение залитым одним цветом для меньшего веса:
ffmpeg -loop 1 -i input.jpg -i input.mp3 -vf "scale=640:480:force_original_aspect_ratio=decrease,pad=640:480:-1:-1:color=black,setsar=1,format=yuv420p" -shortest -fflags +shortest output.mp4

Но вы все скорее всего все это уже знаете. Когда указал как источник минутный ютуб ролик, оно уже пол часа его обрабатывает.
Аноним 08/05/24 Срд 16:35:37 731945 176
Проебал ссылку на билиотеку с войс моделями
На каждую поп-певичку по 100 моделей на каждую эру, и видно какая модель самая залайканая.
Аноним 08/05/24 Срд 17:05:46 731981 177
1715177146755.jpg 70Кб, 640x640
640x640
>>731945
Сам спросил сам ответил, weights.gg
Аноним 09/05/24 Чтв 00:32:12 732562 178
>>731981
Ужос какой-то. Все голоса как будто исполнены пьезоэлектрической зажигалкой или микросхемой из тостера.
Аноним 09/05/24 Чтв 00:34:38 732568 179
>>732562
Хотя нет, напутал - не микросхемой, а реле. Не все знают, кстати, что старинные реле можно использовать в качестве динамика.
Аноним 09/05/24 Чтв 08:19:13 732685 180
>>731819
Бесплатный аккаунт позволил скачать только первый голосовой перевод. Все остальные попытки что-то перевести не позволяют скачать результат, только прослушать первые 3-5 секунд.

Интересно если создать еще один бесплатный аккаунт, вычислят ли меня что я пытаюсь обойти их жадность?
Аноним 09/05/24 Чтв 09:34:30 732693 181
Аноним 10/05/24 Птн 16:35:02 734104 182
>>732693
Но это не нейронка.
Аноним 10/05/24 Птн 18:49:05 734305 183
Слушайте, а как в RVC перегнать в желаемый голос всякие нестандартные голосовые звуки, т.е. не речь, а всякие крики, стоны, визги, мычания, ну вы понили.
Я пробовал разные модели с weights.gg, но получается коряво, присутствую разрывы и странности, артефакты. Всё потому что они натренерованы под речь, а надо тренировать специально под что описал выше, да?
Аноним 12/05/24 Вск 13:51:48 736115 184
welcome to le c[...].mp4 136Кб, 540x360, 00:00:02
540x360
Аноним 14/05/24 Втр 20:14:44 739422 185
>>664162 (OP)
У кого сейчас самое лучшее коммерческое решение синтеза речи? Планирую запилить свое собственное и выйти на азиатские рынки, надо посмотреть какое говно имеют сейчас мои конкуренты.
Аноним 14/05/24 Втр 20:37:41 739458 186
>>739422
(((а таки какое у тебя? поделись кодом)))
Аноним 16/05/24 Чтв 00:37:03 741117 187
Аноним 19/05/24 Вск 00:23:12 746102 188
>>732568
Если ты про ту хуйню с май бэби лавс ми, то это не показатель. Там надо качать и в деле слушать.
Аноним 20/05/24 Пнд 09:51:01 748212 189
Анон, а для голосовых нейронок(TTS) есть интерфейс вроде автоматика для картинок или убабуги для текста?
Что бы в него просто подкидывать модели и пользоваться.
Аноним 20/05/24 Пнд 15:09:31 748740 190
Аноним 21/05/24 Втр 14:16:30 750257 191
>>748740
Для Silero или для Tera.
Для текстовых нейронок можно в разных форматах качать и все работает в одном интерфейсе, а для генерации текста в речь как то все сложно.
Аноним 21/05/24 Втр 15:34:00 750357 192
Аноним 22/05/24 Срд 03:56:57 751214 193
alltalk.PNG 13Кб, 1133x506
1133x506
>>748740
У alltalk есть. В http://localhost:7851 все настройки и генерация текста.
Аноним 22/05/24 Срд 04:04:03 751217 194
>>746102
Я про реле, которые в жлектрических приборах. Я в детстве подключал к радиоточке и оно транслировало передачу, даже голос можно было разобрать постаравшись.
А если про голоса - то я на том сайте прослушал рандомно из списка десяток, и все как на подбор откровенно искусственные, так что даже ухо режет. Вот например в Alltalk если положить в voice более или менее качественный файл с исходным голосом, то результат будет хуманизированный, и только по возможным багам можно понять, что это все сгенерировано.
Аноним 22/05/24 Срд 10:42:15 751396 195
А как подменить слова в песне на свои тем же голосом?
Аноним 24/05/24 Птн 06:53:10 754503 196
але мале нах. че там ваши нейросети умные да? Чат жпт на тоннах книг учился. а где нейронка для того чтоб любую песню на аккорды разбить?
Аноним 24/05/24 Птн 09:49:24 754610 197
Аноним 24/05/24 Птн 10:54:36 754666 198
Аноним 24/05/24 Птн 10:58:39 754675 199
>>754666
А хуев тебе не завернуть?
Аноним 24/05/24 Птн 11:37:40 754735 200
>>754675
заверни.. главное чтоб с открытым иходным кодом
Аноним 24/05/24 Птн 18:09:01 755274 201
Как в Edge TTS ударения ставить?
Аноним 25/05/24 Суб 07:30:30 756425 202
Купил подписку на Elevenlabs самую дешманскую, пробую создавать модели и генерить текст. Сам голос в принципе неплох, но я не могу понять, как заставить ее расставлять ударения в нужных местах, а также выдавать нужные эмоции в определенных местах.
Аноним 25/05/24 Суб 07:56:53 756435 203
>>755274
по слогам разбиваешь слово
Аноним 29/05/24 Срд 17:51:59 763174 204
Сделал модель в RVC, но так и не понял как делать TTS с использованием моей модели. Подскажите плез, а то все что лазил из шапки - там уже встроенные модели. Или придется сначала делать текст - готовый голос - голос из модели?
Аноним 30/05/24 Чтв 07:55:48 763938 205
>>763174
сначала озвучиваешь простым ттс а потом в рвс его
Аноним 31/05/24 Птн 08:24:43 765265 206
Доставьте видос, где неко арк с огромными ушами говорит "ну говори, я тебя слушаю".
Вроде сохранял, а найти немогу.
Аноним 31/05/24 Птн 08:32:27 765268 207
мем неко арк #н[...].webm 605Кб, 1080x1350, 00:00:10
1080x1350
>>765265
Нашёл в гугле, если есть лучше качество то доставьте, пожалуйста.
Аноним 02/06/24 Вск 00:25:25 767035 208
image.png 313Кб, 422x476
422x476
image.png 2497Кб, 1488x1268
1488x1268
image.png 653Кб, 412x641
412x641
video2024-06-01[...].mp4 4183Кб, 464x848, 00:00:23
464x848
Аноны, нуждаюсь в голосовой модели Вилл из чародеек. Не нашел, возможно не там искал, а возможно и нет вообще. долго ли и сложно ли натренить самостоятельно?
Аноним 02/06/24 Вск 02:23:55 767158 209
anekdot.mp4 7688Кб, 470x626, 00:02:12
470x626
Аноним 02/06/24 Вск 21:41:15 767912 210
Аноны. На меня опять нашло вдохновение. И я стал опять озвучивать пасты голосом артаса. Озвучу любую. Пишите в тред!
Аноним 03/06/24 Пнд 15:25:49 768664 211
Аноним 03/06/24 Пнд 15:38:56 768673 212
Аноним 04/06/24 Втр 01:00:04 769388 213
>RVC
Оно вздохи пуки когда-нибудь будет нормально конвертировать в персонажей?
Аноним 04/06/24 Втр 23:04:22 770545 214
168395813119767[...].png 853Кб, 700x1053
700x1053
Аноны, посоветуйте нейронку на подобии elevenlabs, точнее её функции дабинга и возможностью stt. Дико впадлу обучать модель 10 секундного отрывка просто потому что захотел другую интонацию.
Аноним 04/06/24 Втр 23:13:21 770554 215
Вопрос. А как в обучении голосовой модели воспринимаются паузы менее чем в пол секунды и единый поток звука без них? Хуево понимаю каков идеал датасета, к которому стоит стремиться и на котором стоит основываться
Аноним 06/06/24 Чтв 02:17:46 772162 216
Приветствую, аноны. Стал с недавних пор вкатываться в аудио-нейронки в реальном времени и есть несколько вопросов.

1. Многое ли изменилось с тех пор, как появились аудио-нейронки? Было ли что-то доработано, исправлено или просто добавлено?
2. Какие косяки имеет нейронки в рил тайме? Я так понимаю, что нейронки палятся на смехе, вздохе или попытке сделать громкий звук? Первый вопрос касается второго, так как вдруг что-то, что я вкратце перечислил, было пофикшено.
3. Возможно ли использовать нормально модель голоса женщины, будучи парнем? У самого голос средний, может звучать как девичий, так и мужской. Думаю если отрыть норм модель голоса по эпохам и покрутить тоналку, то пойдёт.
4. Какие видеокарты щас можно использовать для того, чтобы нейросетка работала грамотно рилтайм, без лагов? Желательно, чтобы не свыше 100к, до 50к. Видел где-то РТХ в ДНС и на Озоне за 30-40к. Но это всё желательно, приму любые советы анона.

Благодарю всех за ответ заранее.
Аноним 06/06/24 Чтв 11:50:51 772424 217
>>772162
30 серии нвидиа карты
Аноним 08/06/24 Суб 04:58:25 775092 218
Друзья, можете дать хорошую rvc модель Путина, я несколько пробовал, но не очень похоже, с тюном игрался и как то не выходит
Аноним 08/06/24 Суб 08:10:53 775159 219
Аноним 08/06/24 Суб 09:12:31 775201 220
>>775092
не доверяй никому. делай все сам. собирай датасет и делай!
Аноним 08/06/24 Суб 12:31:42 775424 221
>>775201
Это вообще дебри для меня. Я не очень знаю, как это делать
Аноним 08/06/24 Суб 12:49:52 775454 222
>>775424
надо учиться! Это очень интересно. Сначала сделай датасет хороший. Советую минут 15-20. Когда сделаешь такой с речью Путина то пиши
Аноним 08/06/24 Суб 16:39:45 775869 223
Аноним 08/06/24 Суб 17:08:20 775930 224
аноны, а что лучше юзать harvest или crepe в войс чейнджере, а также сколько выставлять в параметре S.Tresh
Аноним 08/06/24 Суб 18:16:12 776021 225
>>775930
crepe если карточка норм
Аноним 09/06/24 Вск 01:51:17 776440 226
Друзья, а вообще сложно создавать свои датасеты, просто хочу начать это делать.. Может будет максимальная схожесть, если буду делать сам? И где гайды можно почитать и посмотреть?
Аноним 09/06/24 Вск 21:04:56 777399 227
>>776440
ты про какие датасеты? для рвс? Ну вообще в идеале 15-20 минут чистой речи. И тогда 250-300 эпох ну или выше офигенно будет все
Аноним 10/06/24 Пнд 20:09:05 778722 228
аноны, можете дать скрипт для kaggle или можно коллаб для создание модели RVC
Аноним 10/06/24 Пнд 20:42:18 778769 229
Аноним 11/06/24 Втр 00:30:52 779212 230
друзья, а как правильно делать датасет, я вот отрыл несколько аудио, переформатировал в wav и потом просто объединить их все в Audacity (очистить шумы и тд) в один wav файл и просто в коллаб?
Аноним 11/06/24 Втр 00:59:13 779244 231
Аноним 11/06/24 Втр 01:02:14 779248 232
>>779244
Спасибо огромное, а сколько будет достаточно, чтобы длился wav файл. Я слышал, что вроде 20 минут уже нормально
Аноним 11/06/24 Втр 01:09:00 779256 233
>>779248
Я не думаю, что кто-то тебе точные цифры по оптимальному размеру датасета сможет сказать - тема голосовых нейронок довольно нишевая, по сравнению с картинками/текстом.

В разных гайдах советуют от пяти минут (но с большим охватом спектра голоса), до часа. Я видел хорошие модели на 20 минутах, так что должно хватить.
Аноним 11/06/24 Втр 01:27:01 779268 234
>>779256
Спасибо за полезную информацию
Аноним 11/06/24 Втр 18:12:18 780340 235
аноны, а есть колабы для создания RVC, но где только еще crepe метод присутствует
Аноним 14/06/24 Птн 09:51:25 785494 236
Ещё не приручили озвучивать русских дубляжеров?
Аноним 14/06/24 Птн 12:43:48 785679 237
>>785494
А зачем, если русский текст тебе озвучит любая, даже японская.
Мне наоборот нравится изначально азиатских брать и озвучивать русское.
Аноним 16/06/24 Вск 10:09:09 788591 238
image.png 441Кб, 600x450
600x450
ElevenLabs не переводит лицензированные видосы / клипы, как-то можно обмануть или через что-то другое лучше сделать? Условно там клип сменима на адекватный русский. Не обязательно клип, просто мп3-ишка.
Аноним 16/06/24 Вск 22:35:21 789616 239
image.png 8Кб, 672x100
672x100
image.png 138Кб, 1077x191
1077x191
Почему не устанавливается XTTS-v2 для Windows 11?
Я сука уже как мог ебался, и всё упирается в эту ошибку.
Аноним 17/06/24 Пнд 14:40:10 790377 240
Аноним 17/06/24 Пнд 21:26:20 790979 241
есть сайт с большим выбором языковых моделей?
Аноним 17/06/24 Пнд 21:28:13 790983 242
Аноним 17/06/24 Пнд 21:29:42 790986 243
БАМП
Аноним 17/06/24 Пнд 21:43:11 791017 244
>>790983
ну вот TeraTTS например, там только 4 модели, хочется онлайн интерфейс с большим выбором моделей ну и фри конечно же
Аноним 18/06/24 Втр 01:43:02 791264 245
Напомните канал в дискорде, где выкладывают модели.
Аноним 18/06/24 Втр 04:47:26 791319 246
Аноним 18/06/24 Втр 13:49:15 791573 247
>>791319
Спасибо, искал именно аи хаб. Остальное тоже посмотрю.
Аноним 18/06/24 Втр 22:46:20 792113 248
Интересен локальный TTS с хорошим голосом. Вроде, просмотрел всё с примерами, но нашёл только это https://github.com/zxcq544/russian_text_to_speech
Неужели за 2 года не появилось ничего лучше Silero?
Аноним 20/06/24 Чтв 14:22:36 793230 249
>>792113
это же тоже силеро
Аноним 20/06/24 Чтв 20:47:20 793955 250
>>793230
Потому и спрашиваю.
Аноним 20/06/24 Чтв 21:46:18 794098 251
1665417536980.png 53Кб, 1209x419
1209x419
Аноны, а как понять, что есть оверфиттинг при обучении RVC? В инструкции указано, что надо смотреть на loss/g/total, но у меня нет такого графика, есть только loss/d/total. Чем вообще d от g отличается?
Аноним 26/06/24 Срд 01:23:44 800694 252
VID202406251543[...].mp4 1940Кб, 1280x720, 00:00:34
1280x720
Аноним 26/06/24 Срд 08:40:50 800811 253
>>800694
Там, вроде, только английский. Попробовал в колабе, но почему-то на одну фразу по 5 минут уходило.
Аноним 26/06/24 Срд 11:53:32 800928 254
>>800811
>Там, вроде, только английский.
Странно. Пишут вроде про целую кучу языков.
Аноним 26/06/24 Срд 16:23:06 801155 255
Подскажите, есть какие-то программы в реальном времени меняющие голос? Главное, чтобы реалистично было
Аноним 26/06/24 Срд 16:23:42 801156 256
Подскажите, есть какие-то программы в реальном времени меняющие голос? Главное, чтобы реалистично было
Аноним 26/06/24 Срд 17:00:14 801182 257
>>800928
Меня тоже это смутило. Мб. это только на сайте по подписке.
Аноним 26/06/24 Срд 20:50:02 801512 258
Аноним 26/06/24 Срд 23:10:10 801621 259
изображение.png 30Кб, 1082x36
1082x36
>>789616
Чет слабо ты ебался
Аноним 27/06/24 Чтв 02:46:10 801758 260
>>667657
В общем наконец-то у меня дошли руки скачать и проверить. Хуйня из под коня короче, никому не рекомендую. Качество не лучше RVC, так еще и голос даже не похож на исходный, лул
Аноним 27/06/24 Чтв 13:35:18 802114 261
Аноним 27/06/24 Чтв 14:32:08 802138 262
>>664162 (OP)
Добавьте в шапку оффлайн распознавание речи для андройда.

FUTO Voice Input (70мб) на основе разогнанного whisper.
https://play.google.com/store/apps/details?id=org.futo.voiceinput

Там три модели разного размера для английского и три для всех остальных языков. Для английского в комплекте идет самая маленькая модель, для остальных языков вроде нормально справляется средняя модель(80мб).

Я не очень понимаю что такое языковая модель и как она работает, но случилась фигня которая меня удивила, мне было интересно что случится если я проговорю на двух разных языках. Я спросил "How do you say in russian - это моя бабушка" и оно распознало это так "Как вы говорите по русски - это моя бабушка". То есть оно перевело мои слова с английского на русский. Я немного прифигел. Это точно больше чем обычный stt. Магия.
Аноним 27/06/24 Чтв 18:13:44 802393 263
>>801621
Да суть в том, что нихуя не помогает этот билд тулс - я его ставил и нихуя. Проблему решила только полная установка висуал студио.
Аноним 29/06/24 Суб 18:24:51 804825 264
>>791319
Анон, а что насчет сэмплов голоса для XTTSv2? Я сам тут давал ссылку на огромное собрание сэмплов обычных голосов, но теперь ищу вместо них хорошо поставленные, типа таких, как у дикторов, которые зачитывают многозначительные фразы в рекламных роликах и тизерах, такой мужской выразительный голос. Из самих тизеров не вытащить, так как они обычно с громкой музыкой.
Аноним 29/06/24 Суб 18:32:47 804836 265
Аноним 30/06/24 Вск 17:21:36 805687 266
Аноним 03/07/24 Срд 21:54:41 808478 267
Go to the bathr[...].mp4 3694Кб, 1280x720, 00:00:07
1280x720
Аноним 09/07/24 Втр 10:33:25 812426 268
Хочу японскую порнуху перевести, как?
Аноним 11/07/24 Чтв 17:22:32 814207 269
Аноны, подскажите пожалуйста, я не использовал tts раньше и не разбираюсь. Какие есть реалтайм (ну или хотя бы почти реалтайм, с небольшой задержкой) TTS модели, подходящие для свободного коммерческого использования, и имеющие при этом достаточно живое звучание не как у роботов с различимыми эмоциями? Либо, как вариант, с возможностью дообучить свои голосовые модели с нужными эмоциями.

И какая TTS модель у Evil Neuro, знает кто?
Аноним 12/07/24 Птн 22:50:04 815109 270
>>814207
Я для проекта на работе тоже очень жду хорошей tts. Пока слежу за проектами:
https://github.com/Camb-ai/MARS5-TTS
https://github.com/2noise/ChatTTS
Русский там ещё не завезли, но надеюсь он появится в будущем. Английская версия - впечатляет. Есть возможность копировать и голоса и эмоции из коротких образцов.
А пока, для русского, я остановился на сберовском tts. Голосов там не много, но они звучат почти как живые.
Аноним 13/07/24 Суб 18:22:01 815719 271
>>815109
MARS5 классный, но 20 гигов врам...
Искал что полегче, наткнулся на FastSpeech2. Не лучшая штука, но прикольная, особенно если какую-то постобработку прикрутить, чтобы от шума и артефактов чистить. Правда я локально так и не смог потестить, заебался. Ошибок 10-15 успешно решил, под конец уже начал этот васянский код переписывать и понял, что не хочу этим заниматься - снёс нахуй.

А какие-то совсем лёгкие ттс, на 2-4 гига врам, не знаешь? Я конечно понимаю, что там совсем другое качество, но тем не менее. Вдруг что-то неожиданно хорошее есть.
Аноним 14/07/24 Вск 17:09:49 816224 272
>>815719
>А какие-то совсем лёгкие ттс, на 2-4 гига врам, не знаешь?
Сам всякие варианты просмотрел, пролистал. Но ничего не установил. Как же у меня жопа горит с этих блядских консольных установок, это пиздец. В Coqui AI TTS в раздел установки смотришь - о, как круто, всего в одну строку! Но в самом конце раздела дополнение: для виндовс установка вот тут, и ссылка на stackoverflow с ПЯТНАДЦАТЬЮ шагами и конкретными требованиями типа Python 3.8 (not 3.9+), CUDA Toolkit 10.1 (not 11.0+) и cuDNN v7.6.5 (not cuDNN v8+). При том, что КУДЫ эти ебаные по 3 гига весят например.
Да и что ты не пытаешься установить - везде это многократное дублирование одних и тех же зависимостей, но с разницей в версиях v1.00000001 и v1.00000002. И все эти зависимости по всей нахуй системе раскиданы, у меня уже диск системный почти забит. Ебучие питонопидорасы, вы про установку в один клик не слышали?
Аноним 15/07/24 Пнд 16:38:29 817027 273
>>816224
Ладно. Я правильно понимаю, что не существует TTS качественнее озвучки гугл-переводчика, занимаемой <5 гигов на диске <4 гигов врам и устанавливаемой в 2 клика? Если да, то пошли эти ваши tts нахуй, дождусь лучше полноценных мультимодалок типа гпт4о, но открытых и с нормальными лицензиями, думаю в течение максимум 3х лет такие появятся. Заквантую такую модельку до ненормального состояния и для моих шизо-задач пойдёт даже несмотря на серьезное падение качества.
Аноним 17/07/24 Срд 21:37:08 819195 274
>>664162 (OP)
Не знаете ли нейросеть которая способны ухудшать синтезированный голос, создавая фон, ревербацию, и прочие звуки хуевого голосового сообщения и прочих тому подобных штук?
Аноним 17/07/24 Срд 22:10:37 819229 275
>>819195
знаю. микрофон рядом с колонкой.
Аноним 21/07/24 Вск 16:52:49 822692 276
tB0kcCe.jpeg 171Кб, 1280x1600
1280x1600
Аноны, щас юзаю XTTS web UI гугл колаб из первой выдачи в поиске для озвучивания русского текста, голосом пиндосского ютубера. Юзаю один говяный семпл (с шумом и посторонними звуками) длиной 30 сек в качестве сурса (пытался резать хорошие куски голоса в нормальном качестве и формате, но по итогу результат ещё хуже был). Каждое предложение генерю по 10 раз и потом собираю по частям чтобы была нужная интонация и нормальное произношение. Есть ли в XTSS какая либо разметка для ударений хотя бы? И вообще такой пердолинг норм или щас что то более удобное есть?

P.S. Есть ссылка на XTTSv2 banana finetune из видоса в шапке? А то гугл ничего не выдает.
Аноним 21/07/24 Вск 18:20:09 822774 277
>>822692
Кинь свой семпл в суно и звуч по 3000 знаков текста за раз
Аноним 22/07/24 Пнд 00:29:36 823114 278
Привет, анончик. Подскажи, пожалуйста, какая языковая модель на сегодня максимально похожа на человеческую речь (text to speech)? Я далек от всех этих технологий, к сожалению. Лучше, чтобы с интерфейсом в виде сервиса: загрузил текст, получил голос. Платное подходит, это не проблема. Так, чтобы без пердолинга.
Аноним 23/07/24 Втр 23:44:29 825377 279
Как делаются такие видосы?

https://www.youtube.com/shorts/d93UvoqSA-g

Я пока предполагаю, что чел сам записывает вокал, а потом накидывает на него голос нужного певца. Или же уже есть нейронки, которые такие чудеса делают сами?
Аноним 28/07/24 Вск 05:32:45 830281 280
Такой серьезный вопрос к вам, парни.
Я постоянно за рулём и привык слушать аудиокниги потому что за рулём сложно писать.
Не все книги нормально озвучили, или озвучили вообще и я перепробовал все возможные "старые" синтезы речи которые просто накатывает на андроид и они работают во многих читалках но есть ньюанс. Они зачастую полное говно но лучше чем ничего. Среди нейронок я слышал намного лучше.
Можете посоветовать какое нибудь решение которое сможет пиздато озвучивать десятки часов текста? Могу себе позволить заранее на компе "отрендерить" текст на звуковые файлы, но походу в глаза долблюсь и ничего путного не нашел в шапке.
Аноним 28/07/24 Вск 16:38:30 830653 281
Аноним 30/07/24 Втр 07:33:57 832416 282
Видел в тиктоке как переводят и озвучивают песни (цоя там) и даже фильмы советской классики, сохраняя интонацию, голос и шпрехая на всех языках.
Как?
Аноним 30/07/24 Втр 08:45:51 832457 283
Аноним 30/07/24 Втр 11:25:35 832593 284
Ананасы, подскажите нейронку чтобы в реальном времени переводила диалог с иностранцем на русский, а твой ответ переводило и озвучивало на языке иностранца. Встретил чувака в дискорде с такой нейронкой, теперь заинтересовался.
Аноним 30/07/24 Втр 11:51:29 832634 285
>>832593
Голос в текст? Такое даже Гугл переводчик умеет. Выбираешь режим разговора без нажатия кнопок и он распознает говорящих по языку и в реалтайм переводит в текст.
Аноним 30/07/24 Втр 14:32:10 832901 286
>>832593
Так у него бы и спросил, что он использует.
Текстом написал, раз чат уже протух.
Аноним 30/07/24 Втр 22:48:53 833746 287
Привет аноны. Наткнулся на большой объем видео на английском и хотел бы их перевести и сразу же озвучить. Есть какая то нейронка куда просто запихнул дорожку/видео и он/она перевелась? Буду благодарен
Аноним 03/08/24 Суб 11:12:12 839722 288
image.png 95Кб, 854x389
854x389
image.png 558Кб, 998x971
998x971
Не могу пробиться через спам-лист, анон. Поэтому тест скрином, извини.

Непосредственно семпл https://disk.yandex.ru/d/4S-KRUS5hSf7TQ
Аноним 03/08/24 Суб 11:42:10 839764 289
>>839722
дураку понятно что что-бы звучать как баба - нужно говорить как баба. с ихними манерностью ну типа и кароче вот
Аноним 03/08/24 Суб 12:39:13 839806 290
>>839764
Без оскорблений пожалуйста
Аноним 03/08/24 Суб 12:43:54 839812 291
>>839806
ну собственно анон выше прав. нужно говорить по женски и все же иметь хорошую модель которую ты обучишь сам или все же сказать что ты девушка но с низким голосом
Аноним 03/08/24 Суб 13:01:52 839839 292
>>839764
Согласен. Но актерство не решает проблем несовершенства моделирования, глитчей и обрезания шипящих. Поэтому, собственно, и прошу указать на альтернативы или изъяны в настройках. По тех часть не спрашиваю, т.к очевидно, что чем лучше железо и микрофон — тем лучше.
>>839812
Думаю, смогу обучить модель, покурив гайды. Навскидку назовешь несколько главных принципов при подборе голоса и обучении?
Аноним 03/08/24 Суб 14:40:17 839994 293
>>839839
да в принципе главное чтоб датасет хороший был
Аноним 04/08/24 Вск 01:06:57 840733 294
Правильно ли я понимаю, что с моей GTX 660 в RVC для изменения голоса (не тренировки) делать нечего?
Аноним 04/08/24 Вск 10:03:08 840952 295
>>840733
>GTX 660
Можешь даже забыть, тебе как минимум 1660 надо
Аноним 04/08/24 Вск 10:32:26 840967 296
>>840952
хз. на 1050 нормально все. голос изменяю. не в реалтайме конечно. А так аи каверы делаю
Аноним 04/08/24 Вск 17:27:55 841496 297
tldr

Хочу закинуть в любую норм нейросетку свой голос и озвучить текст, например, на английском. Именно чтобы текст → голос на основе сэмпла. Кроме элевенлабс есть ещё варианты? Или, как я понимаю, только элевенлабс более-менее удовлетворит мой запрос?
Аноним 04/08/24 Вск 19:45:14 841714 298
Аноним 04/08/24 Вск 19:46:04 841718 299
Аноним 04/08/24 Вск 21:31:15 841890 300
Аноним 16/08/24 Птн 13:08:04 856570 301
За suno bark что сказать можете?
Аноним 20/08/24 Втр 16:27:19 860935 302
а где можно скачать rvc не через зип а как exe установить
Аноним 20/08/24 Втр 16:36:04 860942 303
>>860935
а для опенсорса нет ехе установщика. Ну в принципе можешь установить апплио рвс
Аноним 22/08/24 Чтв 13:02:05 862579 304
аллилуя.webm 1952Кб, 480x360, 00:00:47
480x360
Аноним 23/08/24 Птн 18:34:47 864038 305
Аноним 24/08/24 Суб 01:12:28 864530 306
>>841714
Weights конечно крутой но там лимит 20 минут на модель, но я пока не нашел ресурса где можно было бы дрочить модель семплами например по 2+ часа.
Аноним 24/08/24 Суб 16:03:32 865009 307
ни разу небыл в треде, однако понравился голос одного перса из игры, есть 25 мп3 со всеми фразами. чтобы мне из этого сделать ттс озвучку текста, чатбот, голосовой помошник и хз че еще, хватит инфы из шапки?
Аноним 24/08/24 Суб 16:03:53 865010 308
Аноним 24/08/24 Суб 16:15:25 865023 309
>>865009
Да, должно хватить инфы. Тебе нужно обучить RVC-модель на перса, 25 минут более чем достаточно. Потом нужно использовать эту модель в паре с любым TTS (есть локальные типа SileroTTO, есть бесплатные облачные типа EdgeTTS).

И дальше организуешь конвейер - отдаёшь нужный текст TTS'ке, она генерирует дорожку дефолтным голосом. Дальше берёшь свою RVC модель и конвертируешь дорожку, получая нужный тебе голос.
Аноним 24/08/24 Суб 18:56:38 865178 310
.png 5Кб, 511x100
511x100
где поменять язык на англ в RVC WebUI?
Аноним 24/08/24 Суб 19:12:59 865193 311
.png 31Кб, 812x304
812x304
.png 29Кб, 634x509
634x509
>>865178
все поменял

у вас кстати в гайде 3 ссылки на англ тухлые
Аноним 24/08/24 Суб 21:45:52 865449 312
.png 6Кб, 449x141
449x141
на скринах в гайде по 1 эпохе в минуту, у меня еле ползет с 1 до 2 за 13 минут, графики не появляются, я так вечно буду тренировать. в чем проблема? видюха слабая?
Аноним 25/08/24 Вск 04:06:36 865943 313
оставил на ночь тренить, проснулся от того, что комп взорвался. спасибо нахуй
>>865449
Аноним 26/08/24 Пнд 12:00:48 867005 314
натренировал 63 эпох и куда аут оф мемори (1660 ti, i5-9400f)
коллаб хуйня видимо, надо все время смотреть чтоб не перетренить так как сохранений нет, еще и тред мертвый
нихуя не достиг, проебал кучу времени, на этом и прощаюсь
Аноним 27/08/24 Втр 18:18:48 868116 315
https://www.youtube.com/watch?v=KgdJSX2mt6c
Аноны! Можете перевести нейронкой хоть кусочек, хоть секунд 10? Буду очень благодарен, с меня нихуя.
Аноним 27/08/24 Втр 18:48:01 868148 316
>>868116
яндекс бравзер ставь и переводи скока хочешь
Аноним 28/08/24 Срд 16:11:29 868836 317
>>868116
Такая милая, ещё до того как шизанулась.
Аноним 28/08/24 Срд 17:33:51 868932 318
>>867005
так ну. нужна минимум 2060
Аноним 30/08/24 Птн 07:04:51 870674 319
Суп
Аноним 30/08/24 Птн 07:11:01 870678 320
Суп, я хочу сделать озвучку книги в машине слушать. Синтез голоса встроенный в андроид та ещё дрянь, а интернет далеко не везде есть.

Есть какой-то удобный пайплайн для этого с встроенным словарем ударений для русского языка?
Аноним 30/08/24 Птн 07:22:16 870684 321
>>870678
ну из нормального это edge TTS есть
Аноним 31/08/24 Суб 10:05:11 871755 322
На Elevenlabs не получается зайти, бесплатный ВПН не помогает
Аноним 07/09/24 Суб 01:48:58 879081 323
Посоветуйте SOTA голосовую модель (необязательно) чтобы поддерживала русский. Мне бы хотя бы уровень второго поколения Eleven Labs
Аноним 07/09/24 Суб 09:09:48 879367 324
image.png 147Кб, 1384x471
1384x471
image.png 154Кб, 1384x459
1384x459
image.png 43Кб, 710x323
710x323
таки это овертрейнинг или нет?
Аноним 07/09/24 Суб 10:11:35 879418 325
если я пропустил нижнюю точку графика и завершил сессию, хотя сохранил в блокнот и скачал .pth файл, могу я как-то откатить тренировку рвс через гугл коллаб к старому чекпоинту, чтобы не начинать тренировать сначала?
Аноним 07/09/24 Суб 11:00:02 879445 326
Можно ли как-то озвучить текст с помощью ии модели, а не преобразовать один голос в другой? Я натренил модель, однако генерация через рвс меняет голос в аудио файле, но и перенимает скорость речи, паузы, интонации и т.д., то есть тон голоса может и тот же, но манера речи от дефолт ттс микрософта, а не от датасета. Наверно это хорошо для песен, но не для обычной речи.
Аноним 07/09/24 Суб 11:08:07 879452 327
>>879445
ну так манеру речи оно не передаст никак. Модель в РВС делает голос схожим но не интонацию и скорость речи
Аноним 07/09/24 Суб 11:21:32 879459 328
>>879452
Ок, а как я могу преобразовавать текст в речь, а не одно аудио в другое, пусть даже не через рвс? Я даже не знаю что гуглить.
Аноним 07/09/24 Суб 11:25:52 879462 329
Артас читает па[...].mp4 5481Кб, 900x900, 00:02:53
900x900
>>879459
текст в речь? ну сначала ттс а потом рвс. Так же можешь просто сам прочитать текст с нужной интонацией паузами и т.д. и потом через рвс прогнать
Аноним 07/09/24 Суб 13:29:31 879628 330
image.png 526Кб, 954x873
954x873
image.png 321Кб, 872x847
872x847
>>879462
мне нужно текст сразу в голос из моего датасета чтоб он не перенимал сухую манеру из инпут аудио как рвс делает

мой голос не подходит пробовал, слишком отличается

лан буду думать
Аноним 07/09/24 Суб 13:51:32 879658 331
>>879628
пока что из опен сурса такого нет. юзай елевенлабс(
Аноним 07/09/24 Суб 14:13:36 879682 332
>>879658
да че ты чешешь нету, ттс давно есть везде, мне надо понять как сделать свой
Аноним 07/09/24 Суб 14:47:32 879718 333
>>879682
так че ты хочешь? текст в речь это ттс да. Если ты хочешь интонацию и скорость речи то это тебе в доп настройки ттс лесть и настраивать. например в silerotts естьт SSML разметка
Аноним 08/09/24 Вск 01:57:13 880254 334
Vanomasedit.mp4 5250Кб, 960x720, 00:00:25
960x720
Ну что, мёртвый тредис, каков положняк? Давно не юзал все эти ваши АИ, новую крутую форку нашего рвс не придумали? Гайд с шапки актуален?
Аноним 08/09/24 Вск 07:51:23 880345 335
>>880254
конечно актуален
Аноним 10/09/24 Втр 21:49:45 882573 336
>>825377
Двачну вопрос, оче интересно.

Если закидывать в сервис дубляж а-ля 11лабс, то там рифмы не будет, но голос похожий будет.

Если прогонять левый голос через модель певца, то получим голос похожий, но надо уметь петь ртом или автотюнить, чтобы звучало хорошо, но как делать женские партии, я давненько пытался, обычный мужской голос перегонять в женский, получалось не оче, плюс тут ещё и петь надо с выражением.

Какие ещё мюсли?
Может можно прописывать текст для дубляжа-переводы как-нибудь в11лабс или тип того?
Аноним 12/09/24 Чтв 02:35:38 883788 337
cmdtr1meAIsrZ.png 27Кб, 929x431
929x431
Аноним 12/09/24 Чтв 02:38:45 883789 338
>>883788
Само говноподелие паджита из залупинска можете поставить на пекарню через :
>clone repo
>run install_env.bat
>run start.bat
>go to "Inference Configuration" in the webpage that just opened
>toggle "Open Inference Server"
>go to http://127.0.0.1:7862 (if it doesn't load, wait a moment then reload)
>scroll down, open "Reference Audio"
>toggle "Enable Reference Audio"
>throw your audio sample in there
Аноним 12/09/24 Чтв 02:45:58 883790 339
audio.mp4 1163Кб, 640x360, 00:00:40
640x360
>>883788
Затестил на HF, результат топ. Буду пользоваться.
Аноним 12/09/24 Чтв 07:11:07 883859 340
>>883789
опять на японском и пиндосском
Аноним 12/09/24 Чтв 07:14:15 883860 341
изображение.png 76Кб, 1022x691
1022x691
НУ ЧЕ ЛОШКИ ЕЛЕВЕНЛАБСНЫЕ. ПОСОСАЛИ? ВОТ И БЛОКНУЛИ ВАШУ ХЕРНЮ ИЗ-ЗА САНКЦИЙ ПИНДОСИИ. ЗАМЕТЬТЕ НЕ МЫ БЛОКНУЛИ А ОНИ. СОСИТЕ. Я Ж ГОВОРИЛ ЧТО НУЖНО ДОБИВАТЬСЯ ОПЕНСОРСА. СОСИТЕ ЕЛЕВЕНЛАБСНИКИ. РВС + ТТС ТОП!!!!!!!
Аноним 12/09/24 Чтв 13:03:12 884002 342
Аноним 12/09/24 Чтв 22:05:57 884603 343
>>664162 (OP)
Скачал из гайда амд версию RVC, а в ней не оказалось go-web.bat
Как без неё свою модель тренить-то?
Аноним 13/09/24 Птн 07:20:28 885001 344
Аноним 13/09/24 Птн 07:35:53 885007 345
Продолжу тему ттс, кто-нибудь пользовался Tortoise TTS? Пендосы о нём лестно отзываются. Чё по поддержке других языков?
https://nonint.com/static/tortoise_v2_examples.html
Аноним 16/09/24 Пнд 18:03:34 888955 346
2024-09-16 (4).png 39Кб, 659x635
659x635
Пыня пидораса кусок
Аноним 17/09/24 Втр 02:22:04 889475 347
Аноним 17/09/24 Втр 12:58:33 889648 348
Аноним 17/09/24 Втр 13:43:36 889688 349
Аноним 18/09/24 Срд 09:11:05 890400 350
>>889648
Тренирую нейросеть на голосах из фильмов. Фильмы дублированные, значит, актёр дубляжа получал за этот дубляж деньги. Конкретно за запись голоса.
>В частности, если использование голоса гражданина осуществляется в государственных, общественных или иных публичных интересах или если запись голоса гражданина производилась за плату.
Всё, нахуй.

>>885007
Черепаха невероятно хороша. По сути, все топовые голосовые нейросети это чуть-чуть черепаха. Но только чуть-чуть, потому что название отражает её скорость работы.
Аноним 23/09/24 Пнд 20:53:36 896486 351
Аноним 24/09/24 Втр 13:07:09 896983 352
Кто-то пользовался копировальщиком голосов ElevenLabs?

https://vocaroo.com/15OMeNLp47Pv (почему-то клипинг небольшой есть)

Текст

In a world more cluttered than a Hoarder's Edition copy of "Garry's Mod," keeping your attention on anything for more than five seconds is rarer than finding a multiplayer lobby for a 2007 RTS. We're constantly under siege—notifications, videos, memes—it's like being in the middle of a free-to-play mobile game, except you're paying with your soul. Result? You've got the attention span of a caffeinated squirrel, anxiety that would make Chernobyl's radiation levels blush, and a never-ending itch for that next dopamine hit.

You want success? You want to improve yourself? You want inner peace? Well, sunshine, you better learn how to wield focus like a knife in a "Thief" speedrun.

And no, it's not all about chanting "om" on some overpriced yoga mat. In fact, the last place you think of—your bathroom—might just be where you hit spiritual nirvana. That's right. Put down the phone, stop doomscrolling, and let me introduce you to a sacred practice lost to time and Wi-Fi: the ancient art of conscious bowel journeys.

Picture it: You’re sitting there, not squatting with a phone like the rest of the digital zombies. Nope, you're focused. Laser-focused. On the task at hand. No TikToks, no memes—just you and the long, slow journey of a well-traveled stool missile. Every contraction, every micro-movement of your intestines, a delicate symphony. The kind of thing Beethoven would have written if he had access to high-fiber diets. And in that moment, you're not just another victim of modern society. You're a walking, breathing monument to the magnificence of human biology, my friend.

This? This isn’t a simple "bio-break." Oh, no. This is a golden opportunity to break free from the modern world’s grip. You are now a primal god, a being in tune with nature, rediscovering the lost art of using your damn brain without staring at a screen.

Each bowel movement is like a zen koan: a riddle meant to be experienced, not solved. You’ll soon realize that your porcelain throne is more than just a toilet; it’s a gateway to enlightenment. A royal seat from which you decree freedom from distraction, a rebellion against the endless tide of meaningless content.

Forget meditation retreats and overpriced self-help seminars. True mastery of life starts here. Let go of your waste and your need for constant stimulation in one swift motion. Close your eyes. Embrace the grotesque glory of the moment. And when you flush, know that you’re not just sending waste down the pipes—you’re flushing away the last remnants of your distracted, lesser self.

Flush. And prosper.


Можно как-то настроить паузы и эмоции для отдельных слов?
Тренировал на видосах https://www.youtube.com/@SsethTzeentach/videos, просто выбрал два рандомных видео и нарезал кусками по 10мб.
Аноним 27/09/24 Птн 08:12:35 899569 353
Подскажите, хочу в вацапе менять голос собеседника, то есть чтобы он менялся у меня в динамике, каким образом можно это сделать?
Аноним 27/09/24 Птн 22:47:54 900159 354
photo2024-09-27[...].jpg 59Кб, 1038x846
1038x846
Аноним 28/09/24 Суб 09:01:26 900327 355
>>899569
А ещё не плохо было бы на пэкарне запустить нейронку, а на телефоне что бы твой голос менялся
Аноним 28/09/24 Суб 09:57:50 900348 356
Взял репортаж.mp4 9022Кб, 464x320, 00:00:41
464x320
Аноним 29/09/24 Вск 12:30:01 901530 357
изображение.png 2095Кб, 1024x1024
1024x1024
изображение.png 2314Кб, 1024x1024
1024x1024
изображение.png 1467Кб, 1024x1024
1024x1024
изображение.png 2543Кб, 1024x1024
1024x1024
млят, я заёпся, какая нейронка локальная?
Чтобы тупо скачать запеканку и запустить на своём компе, нахуй мне эти апи к серверу дяди васи, я хочу генерить хуйню без ограничений и цензуры.
Аноним 29/09/24 Вск 12:52:20 901540 358
Аноним 29/09/24 Вск 17:31:54 901721 359
Есть сейчас годные локальные ТТС? Год назад было одно кривожопое говно, уже появились ИИ видосы, а что с генерацией голоса?
Аноним 29/09/24 Вск 17:55:31 901746 360
>>901721
еджттс из годных
Аноним 04/10/24 Птн 10:39:55 907307 361
Аноны, как избавиться от артефактов как на 48 и 56 секундах?
Использую XTTSv2 c войс-клоном. (использую не webui, а делаю всё в скрипте) Проблема как понимаю связана с тем, что передаю слишком большой текст или же это что-то другое?

https://voca.ro/1oUzvDvldAeQ

Также, возможно ли как-то расставлять ударения для XTTSv2?

Вот сам текст:
Размышляя о смысле бытия, я часто задаюсь вопросом, в чем же заключается наша цель в этом огромном и загадочном мире. Ведь мы - всего лишь крошечные песчинки во Вселенной, затерянные среди бескрайних космических просторов. С одной стороны, это может казаться пугающим - осознавать свою незначительность и хрупкость. Но в то же время меня поражает величие и красота окружающего нас мироздания. Каждая галактика, каждая звезда, каждая песчинка хранит в себе тайну, ожидающую своего открытия. Я верю, что наша задача - не просто существовать, а постоянно познавать, исследовать, учиться. Ведь именно это делает нашу жизнь осмысленной и наполненной. Даже если мы не найдем ответы на все вопросы, сам процесс поиска дарит нам ощущение причастности к чему-то грандиозному. Поэтому я считаю, что смысл бытия - в непрерывном стремлении к познанию, в благоговейном трепете перед тайнами Вселенной. Пусть наше существование ничтожно на космических масштабах, но оно бесценно в своей уникальности. Ведь именно мы, люди, способны постигать все многообразие и красоту мироздания.
Аноним 06/10/24 Вск 08:00:17 909472 362
>>830653
Что то лучше появилось с тех пор?
Аноним 12/10/24 Суб 03:18:21 915271 363
Сап, не слышали про какую-нибудь годную нейронку голосов, которая эмоции, стоны, крики тоже генерирует в персонажей?
Я знаю про RVC, оно годно превращает уже записанную речь в персонажа и даже пение, но со стонами вздохами всё очень плохо. Почему? Я не понимаю.
А TTC эмоциональное кряхтящее бесполезно искать уже готовое. Может вы слышали чтоб не в персонаже, а чтоб просто разные вокальные приёмчики нагенерировать? Может их как-то удастся преобразовать всё-таки в этом RVC.
Аноним 14/10/24 Пнд 01:27:38 917559 364
Аноним 14/10/24 Пнд 03:25:28 917591 365
image.png 117Кб, 1000x800
1000x800
>>917559
Если лень делать секс с кондой и питоном, ставьте через https://pinokio.computer/
Аноним 14/10/24 Пнд 16:19:30 918092 366
6 (1).mp4 2101Кб, 464x824, 00:00:41
464x824
3 (1).mp4 10205Кб, 576x1024, 00:01:31
576x1024
1.mp4 4768Кб, 576x1024, 00:00:52
576x1024
4.mp4 3235Кб, 576x1024, 00:00:30
576x1024
Как они это делают-то блядь, а? С помощью чего? Оригинальная манера, но с кастомным словами, голос понятно, а вот текст как уложить в исполнение?
Аноним 14/10/24 Пнд 16:20:50 918094 367
2.mp4 6670Кб, 576x1024, 00:01:29
576x1024
5.mp4 6150Кб, 576x1024, 00:00:30
576x1024
Говно-говном песня, но сама технология, как?
Аноним 14/10/24 Пнд 17:15:18 918142 368
Аноним 14/10/24 Пнд 17:47:45 918170 369
Аноны, есть порно-рассказ который нужно прочесть голосом сексуальной бабы, разумеется локально. Ваши действия?
Аноним 14/10/24 Пнд 18:16:12 918191 370
>>918170
ищу модель на вейтс гг. качаю ее. потом с помощью едж ттс прогоняю текст и потом его в рвс
Аноним 14/10/24 Пнд 19:10:34 918234 371
Аноним 15/10/24 Втр 08:57:53 918614 372
Реквестирую кружок от злого скуфа (Ты пидорюга ебаная, хуле ты под долбоёба косишь пидор...), переозвученный голосом Неко арк (может уже сделал кто то?)
Аноним 15/10/24 Втр 10:09:15 918632 373
.mp4 3331Кб, 1280x720, 00:00:31
1280x720
Аноним 15/10/24 Втр 14:13:26 918750 374
>>918191
Да кто такой этот ваш едж ттс? От майкрософт всмысле? Линк в студию.
Аноним 15/10/24 Втр 18:01:20 918907 375
>>918142
Там нет ничего про то, что я спрашивал.
Аноним 15/10/24 Втр 21:43:55 919060 376
Аноним 16/10/24 Срд 01:27:21 919175 377
Сап, подскажите где лучше надыбать фоток нормисов? Чтоб активности всякие, игры, разные позы, курсы. Только без шуб и ватников.
Мне для реферов надо. Я заметил img2img на 75% рисует позирование гораздо лучше и быстрее, чем с тегами дрочиться и рандомить пикчу близкую к твоей идее в txt2img. И главное подходящая комплекция персонажей задаётся.
Я знаю, что можно 3дэ болванки расставлять, но это слишком долго для меня тоже.
Неужели в фейсбуке регаться? В гугле как-то мало и не то.
Аноним 16/10/24 Срд 06:54:17 919237 378
>>919175
не тот тред. но лучше в пинтересте на акках баб
Аноним 16/10/24 Срд 07:35:42 919245 379
>>919237
Да, я там на 2 фронта воюю, спасибо.
Аноним 16/10/24 Срд 20:37:43 920017 380
>>664162 (OP)
Нужно перегнать большие объёмы текста (книги) в звук. Какой будет голос - не важно, главное чтобы уши не вяли как от какой-нибудь Балаболки. Онлайн-кал не подходит (то есть не нужно предлагать Edge и Алису).
Аноним 16/10/24 Срд 21:29:54 920086 381
Мимо прохожу, не шарю, няшность услышать хочу.

Пожалуйста, скиньте что-то около анимешное звуковое, прям самое типовое, что у вас есть.

Если будет годно, накачу все ваши приблуды и буду задрачивать, благо железо есть.

Просто немного утомился — уже и так в ллм и сд много работаю. А тут может что-то новенькое для души.
Аноним 17/10/24 Чтв 00:30:36 920315 382
[en] Hallelujah[...].mp4 13516Кб, 1024x1536, 00:04:06
1024x1536
Мы, 22 век (Сен[...].mp4 23309Кб, 1024x1536, 00:06:07
1024x1536
Beast In Black [...].mp4 4520Кб, 576x704, 00:01:57
576x704
[en] Sunrise Av[...].mp4 13842Кб, 1024x1408, 00:03:33
1024x1408
>>920086
Могу только старые нейрокаверы с лисоженой скинуть. Офигеть, уже больше года прошло, как их выкадывал итт.

Использовал Ultimate Vocal Remover для разделения на вокал/инструменталку + тренил RVC модель для изменения голоса. Только на последнем SVC на том же самом датасете.

У локальных голосовых нейронок низкие системные требования, так что если смог запустить SD/LLM, то без проблем сможешь запустить тот же RVC и всё остальное.
Аноним 17/10/24 Чтв 14:04:48 920837 383
markiplier - ru[...].mkv 11954Кб, 1280x592, 00:00:23
1280x592
>>664162 (OP)
Вот такую хуйню сгенерили мне
Аноним 17/10/24 Чтв 14:14:21 920852 384
>>918092
Чуваки из Ai Guitarist рассказывали. Руками пишешь текст, проф певец напевает партию своим голосом, потом voice clone. Других вариантов с сохранением музыки сегодня нет. Есть и удиошные говновозы, но их слышно сразу, удио может склонировать стиль, но в существующую музыку не может.
Аноним 17/10/24 Чтв 16:14:35 921020 385
16883937609920.mp4 18726Кб, 1280x1792, 00:05:24
1280x1792
Аноним 17/10/24 Чтв 17:01:57 921070 386
Аноним 18/10/24 Птн 08:14:17 921864 387
>>921070
>Русский не поддерживается
Ну и нахуй тогда он нужен? Мы собрались здесь для того чтобы слушать каверы говновоза и озвучивать пасты про говно.
Аноним 19/10/24 Суб 01:17:33 922831 388
Сап. Есть записи диктора из которых мне нужно сделать голосовую модель, для дальнейшего использования её в speech-to-text.

Какие библиотеки выбрать для обучения/для использования модели в дальнейшем? Что проще накатить локально? Где лучше результат?
Аноним 19/10/24 Суб 04:57:22 922925 389
>>921070
>Русский не поддерживается
Из их статей не узнать, какой у них датасет, и чего может стоить зафайнтюнить модель под русик?
Аноним 19/10/24 Суб 15:27:35 923247 390
image 29Кб, 428x588
428x588
video.mp4 300Кб, 320x320, 00:00:05
320x320
https://studio.infinity.ai/
А что за голосовая ИИха используется на сайте инфинити? Звучит охуенно
Аноним 19/10/24 Суб 17:14:36 923371 391
>>923247
двачую давно такого качества не слышал
видимо что-то хорошо натюненое
Аноним 19/10/24 Суб 17:44:00 923420 392
Аноны, есть ли инструкция по развертыванию XTTS v2 на своей пекарне, чтобы обучать большие модели и в дальнейшем использовать текст 2 спич?

Может есть какой-то с веб интерфейсом?
Аноним 20/10/24 Вск 13:58:16 924095 393
Какая нейронка используется в character ai для генерации голоса?
Там нет акцента, все звуки хорошо произносит и может говорить на любом языке, в отличие от rvc ебаного
Аноним 20/10/24 Вск 22:25:31 924587 394
16947805564741.mp4 2111Кб, 480x360, 00:02:20
480x360
>>923247
>>923371
>>924095
Да я много где такое встречал, что голосовуха на сайте/программе/в сгенерированном видео на ютубе на 3 головы выше доступного по шапке треда. Хз либо анон нихуя не знает и найти не может, либо это жиды все скрывают
Аноним 21/10/24 Пнд 16:30:43 925225 395
>>924587
ЖИДЫ И МИРОВОЕ ПРАВИТЕЛЬСТВО СКРЫВАЮТ!!!
Аноним 22/10/24 Втр 02:46:38 926007 396
>>814207
> И какая TTS модель у Evil Neuro, знает кто?
Насколько я понимаю, раньше гонялось через EdgeTTS с питчингом, а с V2 версии там какая-то своя моделька сделана, видимо XTTS обученный или что-то такое. Но скорость охуевшая конечно
Аноним 22/10/24 Втр 03:01:35 926010 397
>>926007
>раньше гонялось
Голос Ashley из Azure AI
>с V2 версии
Голос Ashley из Azure AI c другим питчем.
Аноним 22/10/24 Втр 10:05:01 926117 398
>>926010
Ага, Azure, не EdgeTTS, точно. Но у злой то другой голос, который больше на локальные нейронки похож. Особенно эти артефакты на китайских символах, и крики из ада.
Аноним 22/10/24 Втр 10:21:56 926126 399
Как видос наподобие третьего сделать? Тоже с голосом из геншина. И тут еще один вопрос - можно ли сделать перевод голоса так, чтобы сохранить тембр, чтобы было понятно, что это один и тот же человек говорит.
Аноним 23/10/24 Срд 12:57:44 927648 400
684655245044756[...].jpeg 1997Кб, 3024x4032
3024x4032
Какой самый простой способ заставить Шамана перепеть Я РУССКИЙ как Я ГОМИК? Реально нужен фрагмент секунд 10, ну и мб в другой части текста что-нибудь поменял бы. Минус скачал, а капеллу выделил, но чёт именно кастомный текст не найду (хотя как-то Говновоз же перепевают)
Аноним 23/10/24 Срд 13:21:33 927686 401
>>927648
Надо самому спеть Я ГОМИК и сделать voice clone
Аноним 23/10/24 Срд 13:51:00 927720 402
>>927686
меня мама убьет если я такое спою
Аноним 24/10/24 Чтв 21:41:26 930226 403
Аноны, где искать модели? Кроме дискорда aihub и applio есть что-то?
Аноним 24/10/24 Чтв 23:31:50 930392 404
1278958904804.jpg 146Кб, 678x1141
678x1141
Реквестирую замену слов в треке https://www.youtube.com/watch?v=6CHs4x2uqcQ c Good Morning на it's over (да, я я ебанутый). Весь трек делать не надо, только отрезок с 0:11 до 0:35.
С меня как всегда.
Аноним 25/10/24 Птн 12:37:00 930745 405
Аноним 26/10/24 Суб 11:42:01 931740 406
.jpg 122Кб, 729x581
729x581
Антуаны, подскажите, пожалуйста, куда смотреть и чо делать, чтобы озвучить аудиокнигу, и чтоб заебись было?
Аноним 26/10/24 Суб 16:43:35 931945 407
>>930745
Пиздец, какой же всратый сайт. Держу курсор справа на экране и думаю почему нихуя не скролится. Три браузера попробовал и всё не работает.
Оказывается нужно курсор в центре держать. Тупое говно тупого говна говно. Да и скачка анально огорожена.
Аноним 27/10/24 Вск 06:37:41 932540 408
>>927720
В чем она не права?
Аноним 27/10/24 Вск 13:12:47 932680 409
Аноны, как искать подходящие датасеты? Нет, меня не интересуют какие-то известные личности. С ними в общем понятно.
А вот если мне надо просто другое голос заиметь?
Вроде бы, зашёл на ютуб, скачал аудиодорожку и вперёд. Но сама проблема найти подходящее без музыки и других посторонних артефактов.
Как вы решали такой вопрос? Кроме как надеяться на случай никаких мыслей нет.
Аноним 27/10/24 Вск 13:39:18 932713 410
>>932680
вообще видосы прогонял через uvr и все
Аноним 28/10/24 Пнд 13:34:17 933554 411
изображение.png 287Кб, 1920x1080
1920x1080
Аноним 28/10/24 Пнд 13:55:58 933574 412
>>933554
в ошибку вчитайся
Аноним 28/10/24 Пнд 14:19:58 933590 413
изображение.png 493Кб, 1920x1080
1920x1080
>>933574
уже давно установленно
Аноним 28/10/24 Пнд 14:21:58 933591 414
Аноним 28/10/24 Пнд 14:57:37 933637 415
>>664162 (OP)
Подскажите шапка устаревшая? Я зашел по первой ссылке в гитхаб SileroTTS и там нет русского в поддержимаемых языках.
Аноним 28/10/24 Пнд 20:02:43 933987 416
image 288Кб, 604x302
604x302
Сап, а не можете что-нибудь посоветовать по созданию моделей голосов винды, которое роботом говорит?
Мне на самом деле для таверны с чатом нужна озвучка, но там большинство опций это навернуть нейронки, которые будут онлайн генерить тебе озвучку, а это естественно долго, никто не хочет полминуты тишины слушать прежде чем тебе ответят.
Есть опция пресетов голосов винды и я подумал о ней, но мне хотелось бы чтоб были модели нужных мне персонажей, а не каких-то стивинов хоукингов. В сети этих моделей не вижу. Я слепой.
Аноним 30/10/24 Срд 18:54:12 936013 417
Очередной TTS https://x.com/reach_vb/status/1851629504348754202
>Клонирование голоса с нуля
>Эмоциональный TTS
>Обучен на 100 тысячах часов данных
>Синтез длинных форм
>Синтез с переменной скоростью
>Двуязычный - китайский и английский
https://huggingface.co/amphion/MaskGCT
Демо - https://huggingface.co/spaces/amphion/maskgct
Это второй ттс после >>917559 что близок к качеству elevenlabs.
Аноним 31/10/24 Чтв 07:37:54 936537 418
изображение.png 2Кб, 195x109
195x109
>>936013
>>917559
>>917591
Бля а можно их как-то закинуть в Microsoft windows типа что бы вместо дефолтных гугол мужика и бабы такой норм голос? Уже столько времени прошло надоели эти гнусавые говорилки дефолтные неужели нельзя было интегрировать нормальные tts в шинду я ими квесты в ммо-шках озвучиваю себе ну и книжки аля аудио делаю
Аноним 01/11/24 Птн 21:27:31 937869 419
>>936013
Что не день то новый ТТС, на этот раз это голос-в-голос модель без требования к дополнитенльным приколам типа whisper для детекта речи и транскрипта текста. https://huggingface.co/fishaudio/fish-agent-v0.1-3b
Эдакий гпт-4о войсмод на самых минималках.
Аноним 02/11/24 Суб 05:14:08 938203 420
>>918632
эх бульбулятор-бульбулятор
Аноним 04/11/24 Пнд 13:41:55 939693 421
Анонасы, не подскажете, помню проскакивала нейронка генерирующая звуки к видео. Не напомните название, что то не гуглится?
Аноним 07/11/24 Чтв 14:48:29 942325 422
вопрос по тренировке своего голоса в RVC, сколько ни пробовал фигня получалась.
1) сколько минимум звуковых файлов нужно в датасете и какой миниму длины?
2) если у меня есть скажем 30 секунд аудио есть, можно датасет сделать?
Аноним 07/11/24 Чтв 14:55:59 942333 423
>>942325
минут 10 и больше будет афигенно все получаться.
2. вот тут хз вообще. 30 секунд это надо наверно постараться чтоб потом все хорошо вышло
Аноним 07/11/24 Чтв 15:00:23 942343 424
>>942333
а если у меня допустим есть 10 минут записи голоса, мне запись надо нарезать на разные куски или одним куском тренить?
Аноним 07/11/24 Чтв 15:13:04 942363 425
>>942343
лучше разрезать на куски по 10 секунд и тренить. ставь 1000 эпох и с помощью тенсоборда находи лучшую модель. если не хочешь возиться с тенсобордом ставь 250 потом 300 эпох
Аноним 07/11/24 Чтв 15:19:06 942371 426
>>942363
странно в прошлый раз нарезал свою звукозапись как раз где-то на 10 секунд вроде 5 кусков было, получилась фигня, может перетрен был этох 300 и 500 пробовал
Аноним 07/11/24 Чтв 15:41:07 942407 427
>>942371
5 кусков. это даже не 1 минута лол.
Аноним 08/11/24 Птн 17:03:17 943451 428
Neco arc - Родо[...].mp4 13568Кб, 442x714, 00:05:17
442x714
Если делать каверы на запрещенные треки то будет ли это попадать под статью?
Аноним 09/11/24 Суб 08:22:29 944066 429
>>920852
Спасибо за инфо. Но как так? Разве АИ это уже сам не может? Софтварными методами не достижимо? Реально самим петь приходится?
Аноним 09/11/24 Суб 09:32:55 944096 430
Говновоз но это[...].mp4 8558Кб, 640x360, 00:04:52
640x360
>>918092
Так ты смотри описание видео. Adele у тебя прямиком из Udio, например.
Аноним 09/11/24 Суб 13:55:41 944233 431
>>943451
Сам как думаешь? Если в тексте запрещенка, то будет.
Аноним 09/11/24 Суб 13:59:33 944242 432
>>944096
Так а как УДИО заставить пить в РИТМ /НОТЫ ОРИГИНАЛА? Вот в чём вопрос был.
Аноним 09/11/24 Суб 19:08:23 944423 433
17311465010830.mp4 15672Кб, 960x540, 00:01:22
960x540
как они это делают?
Аноним 09/11/24 Суб 22:33:12 944561 434
Ничего лучше читалки Алисы ещё не вышло для озвучивания книг?
Аноним 10/11/24 Вск 01:21:13 944639 435
>>944066
Для реалистичного качественного звучания - да.
Можешь спеть ты сам, не попадаю ни в одну ноту, потом заменить тембр, подредактировать автотюном, потом войсченж нейросеткой, но все артефакты от дикого автотюна останутся. Поэтому лучше петь живому человеку, который близок к оригиналу и как-то может пародировать оригинал. Тогда одно другое дополняет, мы имеем живые интонации, эмоции, придыхания, вздыхания и получается зебись.

https://www.youtube.com/watch?v=beTuZ0mlkn4
Аноним 10/11/24 Вск 02:33:45 944649 436
>>664162 (OP)
Ecть л᠌и кaкoй гoлo឵coвoй бpayзepный чa᠍т бe᠌з peгиcᅠтpaции и нa pyccкoм языкe? Haшeл hume.ai, кaк минимyм нeбoльшиe paзгoвopы пpᅠeкpacнo paбoтaют в бpayзepe и бeз peги, нo мoдeли᠌, кaк я пo᠋нял, тoлькo aнглийcкиe.
Аноним 10/11/24 Вск 06:03:26 944683 437
>>944639
у тебя походу устаревшая инфа, сейчас достаточно одного удио, ну и руки чтоб не из жопы
мимо делаю аи каверы на говновоз
Аноним 10/11/24 Вск 16:40:27 944966 438
Аноним 11/11/24 Пнд 12:46:06 945736 439
>>944966
Купить у актера озвучки запись текста под его голос.
Аноним 11/11/24 Пнд 12:59:07 945741 440
>>945736
ты думаешь создатель видео заморачивается о покупки записи голосов???
Аноним 11/11/24 Пнд 13:12:05 945745 441
>>945741
Может те кто запросили графику для рекламы сами озвучивают/заказывают
Короче один хуй это не нейронка озвучивает, хочешь такие же голоса, либо дёргай откуда-то либо найди где актер говорит без лишнего шума и создай свою модель
Аноним 11/11/24 Пнд 14:46:32 945789 442
whispering.mp4 58Кб, 1280x720, 00:00:19
1280x720
Аноним 14/11/24 Чтв 06:12:11 948126 443
Скорбно прошу помощи, так как в ллм треде никто не ответил.

Кто-нибудь из вас пытался настроить TTS для таверны? Я пытался ебаться с Silero, но нихуя не вышло. Очень заебался, прям пиздец. Жопа горит страшно. И, если что, я никогда не сидел в вашем треде и не пытался генерировать голос. Ничего не знаю, пытался говнокодить через нейросеть только для этого дела, и, возможно, в этом моя ошибка.

Если готовы помочь здесь или в телеге — буду рад. Там я смогу хотя бы подробно всё объяснить, если есть желающие. @schaukel

Изначально моя задача была поставить Silero + RVC, апи сервер для таверны, вроде бы это возможно, но даже silero не пашет без rvc в таверне, хотя вавки тестовые выдает. И оно у меня без webui.

Я установил окружение, сервер, силеро, rvc, но там могут быть какие-то проблемы с зависимости или я маппинг не настроил.. не знаю.

Если у вас есть готовый гайд для ебланайзеров или это можно сделать всё криво и косо, зато быстро, буду рад и такому варианту.
Аноним 14/11/24 Чтв 19:05:09 948631 444
image.png 154Кб, 481x889
481x889
image.png 164Кб, 481x903
481x903
>>948126
Т.к ебка с Таверной сама по себе не самый лёгкий процесс, ебка с ТТС будет менее популярной темой, т.к для ТТС для чатБотов тебе для начала нужна сама Таверна.
Ищешь новые гайды на новые ТТС(выше кидали, не ебу если Таверна их поддерживает) на тех же каналах, если такие имеются.
Аноним 14/11/24 Чтв 23:39:32 948903 445
А знает ли кто как натренить w2v2-vits модель? Чтобы с эмоциями работала. Хочу заняться тренингом моделей и делать качественно.
>>948126
Могу попробовать подсказать что, но для этого тебе придётся тг писать. Здесь общаться невозможно, увы. Конкретно силеро не ставил, потому что он говно потому что мне анимешное нужно было. Но vits с rvc у меня работают.
Аноним 15/11/24 Птн 02:21:41 949052 446
>>948903
Я ориентировался на видеопамять и не знал о твоём варианте. И да, мне как раз тоже нужен был анимешный голос. Просто я хочу хотя бы 12b модель использовать + ттс, оно вроде много жрёт. Но если голос прям наголову выше в твоём варианте, то я готов ради этого уменьшить модель до 9b. В конце концов, мне какой-то крутой ролплей не нужен.

Тогда пиши свой тг, ну или напиши в мой.

>>948631
Таверна у меня есть, я читал документацию, но понял мало, конечно. А роли на английском вообще с трудом воспринимаю. Ну попробую, чо ещё делать.
Аноним 15/11/24 Птн 09:42:02 949362 447
>>949052
Кидай тг тогда. Постараюсь расписать, что делать надо. Сколько у тебя там памяти vram и ram?
Аноним 15/11/24 Птн 10:03:49 949365 448
>>949362
@schaukel

12 врам, 47 рам.

Там документация сильно устарела для таверны, а доки для ТТС и прочие моменты пиздец какие забористые, знаний технических у меня нет. Пытался установить с помощью клода, но вечно обсирался из-за этой документации. Тонну времени потратил на анализ логов и всего такого.

ТТС подключилась к таверне, но по какой-то причине не воспроизводила звук и выдавала ошибку, мол не видит голос. Хотя маппинг был настроен нормально. При этом тестовые вавки она создавала без проблем, то есть без таверны с ней работать можно было.
Аноним 16/11/24 Суб 21:07:32 950767 449
>>925225
Ну а что тогда происходит ты можешь объяснить? Почему буквально все люди генерируют супер качественно, а итт в треде ссылки и советы только по максимально убогим нейронкам?
Аноним 16/11/24 Суб 21:13:21 950773 450
video (1).mp4 578Кб, 240x424, 00:00:17
240x424
Аноним 16/11/24 Суб 21:26:29 950784 451
>>950767
потому что тут надо звать тех гениев из /wm/ которые делают каверы про хохлов. Тут мы пытаемся все в опенсурсе сделать а пока что это не выходит
Аноним 17/11/24 Вск 11:45:45 951105 452
в /wm/ делают афигенные каверы в какой нейронке они это делают?
Аноним 17/11/24 Вск 20:10:42 951605 453
>>951105
пример покажи, но в любом случае это или udio (качественные) или suno (все остальные)
Аноним 17/11/24 Вск 21:19:05 951689 454
17316485365740.mp4 7766Кб, 1280x720, 00:00:57
1280x720
17318576276260.webm 14329Кб, 960x540, 00:02:05
960x540
17311465010830.mp4 15672Кб, 960x540, 00:01:22
960x540
Аноним 17/11/24 Вск 22:44:44 951739 455
>>951689
это udio, но для таких каверов нужна подписка
Аноним 18/11/24 Пнд 12:42:39 952206 456
2024-11-18-12-3[...].webm 943Кб, 1204x348, 00:00:46
1204x348
>>950773
Не угадал же. Это всё работает локально в рилтайме.
Аноним 20/11/24 Срд 00:36:21 953913 457
Белая свадьба.jpg 297Кб, 1440x960
1440x960
>>952206
Подскажи, пожалуйста, что у тебя там за пайплайн?
и tts у тебя XTTSV2 (Coqui) ?
Задолбался, не понимаю, почему никто не говорит как и что.
Аноним 20/11/24 Срд 01:08:52 953938 458
Как сейчас можно более менее адекватно пользоваться ElevenLabs? С компа у меня никак не работате, перепробовал 5 штук разных впн, бесплатных и платных, а вот с телефона, через впн получилось хотя бы попасть на сайт и генерить текст через семпл, на главной странице, но вот чтобы полноценно пользоваться - мне письмо на почту не приходит, чтобы в акк свой зайти((
Аноним 20/11/24 Срд 16:54:55 954465 459
>>953913
Да, в целом, похуй, что у меня там. Это всё можно сделать практически на чём угодно. Нравится xtts - бери его. Работать будет не хуже.
Аноним 22/11/24 Птн 11:16:57 955834 460
Перегруженный с[...].png 78Кб, 302x311
302x311
>>954465
как ты делаешь реалтайм?
xtts.inference_stream(... ?
я уже в их исходниках сижу, пытаюсь это запустить.
Аноним 23/11/24 Суб 18:54:11 957055 461
На элевенслаб оказывается появился генератор звуков недавно, лучшее пока что видел, но дорогое блин.

Алсо, не придумали как бы персонажу (голосу) придать эмоциональный оттенок - ярость там, радость и т.п. А то когда голосом диктора, всё не то.
У меня была мысль что в 3 слоя:
1. TTS на любой голос близкий персонажу, это в 99% голос диктора или нарратора
2. Морф дорожки (в RVC?) моделью, обученной на целовой эмоциональной выразительности.
3. Последующий морф в RVC в уже в нужного персонажа.

Но как 2 пункт реализовать я не знаю. Можно ли вообще модель надрочить чтоб она передавала выраженную радость, ярость и т.п.? Там же меняются тогда паузы, тональность и т.п.
Аноним 23/11/24 Суб 22:06:31 957218 462
>>955834
Речь шла про войсклон, рилтайм в сделку не входил, с ним не всё так просто. С xtts оно у меня работало где-то втрое медленнее, чем на шебм. Момент появления цифр в консоли - это момент, когда генерация фразы завершена и передана на воспроизведение. Так что могу тебе только успехов пожелать, лол.

>>957055
Можно tts надрочить на эмоциональность, нужен датасет большой и модификация модели, чтобы входной слой поддерживал. Занимался чем-то похожим, но забросил в итоге.
Аноним 24/11/24 Вск 06:01:03 957506 463
>>957218
А который ты там локальный ттс надрачивал? Может я тоже хочу надрочить.
Я пробовал угабугу, хттс и воксбокс, но оно всё настолько тугое, что только на дикцию и годится. Силеро элитный вообще не смог установиться, я несколько дней пытался его поднять. Саундворк жиды не дают генерить без инвайта по почте.
Я находил онлайн сервисы, где у бота выбираешь выраженную эмоцию как я описал, они уже надроченные, но не автоматически меняют, а надо рубильник переключать и мне норм, только вот токеныыы за даларыыы.... А без подписки бушешь сидеть бандикаком записывать в прямом эфире что там создал, не дают скачать.
На их фоне елевенслабс просто короли, но там тоже у фри ботов нельзя выбирать эмоцииональность. Там ттс диктороское фри зато дешёвое, можно потом куки чистить.
Странный вообще какой-то этот угол аи озвучки, будто все обиженные петухи собрались. В то время как сд бесплатное и куча плагинов для на энтузиазме за донаты и лайки всё делают. И даже чат боты уже появились как гпт бесплатные без цензур, одни озвучники сапоги защищают.
Аноним 24/11/24 Вск 06:02:09 957507 464
>>957506
>угабугу
То есть торт, опечатался.
Аноним 25/11/24 Пнд 01:30:25 958176 465
Не знаю сюда ли я попал и по теме ли вопрос, но все таки задам.Возможно вопрос тупой.
Есть сервисы по типу Elevenlabs и Heygen, которые переводят видео на другой язык с сохранением голоса, есть ли возможность сделать это у себя на компе/коллабе?Может есть еще аналоги этих сайтов.
Аноним 25/11/24 Пнд 03:04:52 958262 466
>>957506
>Силеро элитный вообще не смог установиться
Как с силеро-то обосраться можно? Я его когда ставил, там в два клика всё установилось. Но у него нет войсклона, кстати, только вшитые спикеры, ну и эмоциональный диапазон уровня гнусавой озвучки 90х.
>сд бесплатное и куча плагинов
Потому что ебли меньше. Даже с текстовыми нейронками ебли меньше. А для звука ебли много. Сбор и классификация датасетов, чистка, настройка. Есть нейронки, которые вроде бы должны всё это делать, но на практике работают настолько криво, что просто пиздец. Для того же SD всё это готово, есть сайты, которые можно парсить автоматически, потом автоматически генерировать теги для картинок и тренировать, что хочешь. Да и архитектур считанные единицы, когда TTS - миллиард и все разные.
>Может я тоже хочу надрочить.
Ну так бери любую нейронку, которую в принципе можно тренировать, и вперёд.

>>958176
Можно, только тебе придётся использовать несколько сеток. Сначала сгенерировать субтитры с помощью STT нейросети типа whisper. Здесь есть минус, он не сохраняет адекватно паузы в речи, не опознаёт интонации и так далее. Но вариантов особо нет, насколько мне известно, чтобы работали лучше него. Дальше у тебя есть текст, его переводишь и озвучиваешь TTS с возможностью клонирования голоса, в качестве образца подсовываешь, очевидно, кусочек оригинальной озвучки.
Аноним 25/11/24 Пнд 04:25:17 958292 467
>>958262
Это разработчики обсрались, сделав кривое силеро. Ты может очень ранню версию устанавливал.
Ну что за истории ты арссказываешь? Что тяжелее генерить - графику, звуки и текст? Что больше данных на диске весит?
>Ну так бери
Ну так дай. нету её. В шапке нет, и нигде в тырнете. Ты про войс клон? Это хуета, нет желания становиться актёром озвучки, и рычать пердеть в микрофон, а потом в персонажа перегонять.
В шапке буквально решение:
1. Используешь любой инструмент для синтеза голоса из текста
2. Перегоняешь голос в нужный тебе через RVC

А как блять настроение из синтезатора голоса выбрать? НЕТ ЕГО. Я по ссылке все варианты наворачивал, зря время потратил. О каких миллионах бесплатных ТТС с эмоциями ты врёшь, малой?
Аноним 27/11/24 Срд 16:50:04 960572 468
Посоветуйте RVC-модель, лучше женскую, для исполнения песен с высоким вокалом, скримо и всякой жестью, где требуются сильные перепады голоса и разные эмоции. Ну, такую, которая в теории может это потянуть. На weights говно одно для того, чтобы LLM озвучивать или баловаться в основном.

Только какая-то модель Сенко неплохо справляется от анона там, и весит она заметно больше всех остальных, кстати.
Аноним 27/11/24 Срд 18:43:52 960677 469
Sup, /ai/!

Аноны, подскажите, пожалуйста. Мне нужен локальный софт для TTS, без извращений всяких с подменой голоса и прочим, мне просто нужна качественная модель для озвучки, что бы потом это использовать в ютубе, куда смотреть? Я прочитал шапку, но тут куча мусора и почти вся инфа про изменение фейк-голоса, а мне это не надо, мне просто TTS нужен
Аноним 01/12/24 Вск 08:54:32 963764 470
>>958292
>Это разработчики обсрались
Специально проверил, установилось за минуту и работает. Хуй знает, что ты там навертел.
>Что тяжелее генерить - графику, звуки и текст?
Текст, очевидно. Но звуком мало кто толком занимается, потому готового нихуя нет, из-за чего работа со звуком требует в разы больших трудозатрат, чем что угодно другое.

>>960677
В ютубе хуй знает, у всех разные лицензии, частенько запрещающие всё на свете. А так, силеро - предельно простая хуйня, которая даже на процессоре может быстро генерировать.
Аноним 01/12/24 Вск 22:02:11 964486 471
image.png 102Кб, 1492x924
1492x924
image.png 6Кб, 675x52
675x52
>>937869
Ставили?
Это https://speech.fish.audio/inference/ работает
А это https://speech.fish.audio/start_agent/ нихера
Ни с аудио, ни с микрофоном, ставил на свою конду, с их батника
Одна и та же ошибка
Не вникал что значит этот апи вызов, но послал на него нужный запрос и эта же ошибка вылезла
Как пофиксить? Как пользоваться?
Аноним 04/12/24 Срд 11:13:49 967225 472
Есть ли сейчас ттс для русского лучше xtts2?
А лучше F5 для английского?

В приоритете узнаваемость. Но хорошо бы, чтобы и в эмоции умело.
Если есть какой-то неоспоримый лидер, но без войсклона/трейна, то тоже интересно.
Аноним 06/12/24 Птн 21:20:27 970264 473
Аноны у кого есть голосовая модель убермаргинала? Скиньте пж если у кого-то она есть
Аноним 15/12/24 Вск 18:20:48 978427 474
Аноним 16/12/24 Пнд 11:07:45 978996 475
>>967225
Fish-Speech.
Уже даже для работы успел заюзать.
Рекомендую.

Я лично накатил виртуалку WSL, туда накатил ручками их гит со всеми дровами, запускаю как tools/server и использую --compile флаг для компилирования модели.
Получаю 90 ток/сек на 3060M.

>>978427
https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI

Удивлен, что тред не засран фишем, зашел сюда случайно. Топовая же модель, эмоции бодрые (хотя настраивать нельзя, немного берет эмоций с референса), русский хорош, прям отлично. Медленная, только, конечно. Онлайне не поболтать.
Аноним 16/12/24 Пнд 11:58:56 979037 476
>>978996
Тоже уже попробовал 1.5
Тебе удалось запустить Fish Agent?
Я уже заёбся переустанавливать и пробовать разные комбинации версий. Обосанная хуйня как-то криво написана и не может скомпилироваться, всё по 10 раз установлено, системных переменных уже жопой жуй, из обычной консоли всё вызывается, а их хуйня почему-то пишет, что не находит то компилятор, то ещё хуй пойми что.
Есть гайд по процессу установки wsl? Не связывался с таким.
Аноним 20/12/24 Птн 14:52:19 983494 477
Сосоны есть нормальные гайды для установки Фишспича 1.5 под виндой? Желательно вообще чтоб блять установил из инсталятора двумя кликами и все.
Аноним 22/12/24 Вск 01:34:47 985600 478
image.png 68Кб, 834x449
834x449
>>983494
Могу помочь с ошибками, у меня поставилось. В целом с самим speech проблем не возникает, только с компиляцией.

https://www.anaconda.com/download
git clone https://github.com/fishaudio/fish-speech
https://github.com/fishaudio/fish-speech/archive/refs/tags/v1.4.3.zip А возможно лучше скачать код версии 1.4.3
https://speech.fish.audio/ Вариант со своей средой

В батник
call conda activate fish-speech
python -m tools.run_webui --llama-checkpoint-path "checkpoints/fish-speech-1.5" --decoder-checkpoint-path "checkpoints/fish-speech-1.5/firefly-gan-vq-fsq-8x1024-21hz-generator.pth" --decoder-config-name firefly_gan_vq

Для компиляции поставил VS Community 2022 > Desktop development with C++, куда 12.4 стояла, в системных переменных CC со значением C:\Program Files (x86)\Microsoft Visual Studio\2022\BuildTools\VC\Tools\MSVC\твоя версия\bin\Hostx64\x64\cl.exe, в PATH добавлена эта же папка без самого файла.

Какой-то шаг, возможно, необязательный.
Аноним 22/12/24 Вск 10:00:34 985770 479
Я нашёл у себя в шкафу трупик говностика
Аноним 22/12/24 Вск 10:01:09 985771 480
Не в тот тред насрал ой бляяя
Аноним 22/12/24 Вск 10:02:56 985773 481
image.png 4Кб, 265x375
265x375
Скачал rvc и пытаюсь свою модель сделать, но чет не выходит. Или выходит, просто нужно ждать неделю? Как понять что он что-то делает? processing вроде идет, в консоли ничего не меняется, нагрузки на видеокарту нет, пикрил охуительно удобный интерфейс в котором уже 500 из 5 и хуй знает что это вообще значит.
Аноним 22/12/24 Вск 10:06:41 985777 482
>>985773
В консоли есть
unboundlocalerror local variable 'logger' referenced before assignment
возможно в этом проблема.
Аноним 22/12/24 Вск 10:25:06 985786 483
>>985773
свою модель делаешь?
Чекай консоль.
А так же наазови характеристики пеки
Аноним 22/12/24 Вск 10:46:19 985793 484
>>985786
Ну я написал что в консоли из ошибок вроде только
UnboundLocalError: Local variable 'Logger' referenced before assignment
Ryzen 5 3600 и rtx 4060ti.
Аноним 22/12/24 Вск 10:50:54 985795 485
>>985793
хммм. тогда хз. ставил как?
Аноним 22/12/24 Вск 10:55:37 985798 486
>>985795
В смысле как? Скачал и запустил
Аноним 23/12/24 Пнд 23:09:29 987581 487
Сап анонасы, я тут у чувачка уже давно увидел https://github.com/Mozer/talk-llama-fast,
оч прикольно выглядит https://youtu.be/ciyEsZpzbM8
Хотелось бы попробовать так же, но чет установка у меня идет наперкосяк, мб кто то видел что то похожее или как установить без гемора
Аноним 26/12/24 Чтв 21:05:06 990072 488
Pinokio.27.Дека[...].png 53Кб, 1163x851
1163x851
>>985600
Все нашел что хотел
Есть программа для автоматического запуска скриптов инсталляции любой попенсорсной модели.
https://pinokio.computer/
просто скачал программу сос скрипотом и за час она мне сама все скачала и настроила. Все работает от двух кликов мышью, как я и хотел.
Аноним 26/12/24 Чтв 22:42:15 990257 489
57.png 16Кб, 847x35
847x35
Помянем
Аноним 26/12/24 Чтв 22:44:42 990264 490
>>990257
Сука, опять не в тот тред!
Аноним 27/12/24 Птн 12:03:05 990693 491
>>990072
Ну так с обычным запуском и не должно быть проблем.
Слышал про эту прогу, не понимаю как оно работает, ллм агент с доступом к консоли что ли, страшно пробовать. Пока всё ставится, если поковыряться самому.
Аноним 31/12/24 Втр 21:28:57 995241 492
с новым годом /ai/
Аноним 31/12/24 Втр 23:32:06 995359 493
как установить rvc на пк? есть гайд для тупицы?
Аноним 01/01/25 Срд 00:11:34 995450 494
ПЕРВЫЙ БАМП В НОВОМ 2025 ГОДУ!
Аноним 01/01/25 Срд 11:09:35 995788 495
Аноны какой нынче положняк по TTS? Больше интересует генерация локально ибо на всяких сайтов качество хоть и на уровне, но с большими объемами текста там не поработать. Пока пользуюсь Silero Speech в целом более менее под мои задачи, но может что уже лучше за это время запилили?
Аноним 01/01/25 Срд 11:43:00 995810 496
Аноним 02/01/25 Чтв 09:47:53 996563 497
>>995788
Silero работает быстрее всех. Fish качественней но генерация идет ну очень долго. За то время что Silero начитывает целую книгу Fish начитывает всего страницу.
Аноним 04/01/25 Суб 07:26:55 998619 498
Аноны, а сейчас есть возможность купить нейронку и через нее генерировать голос, чтобы он был максимально похож на реальный. Чтобы он говорил на русском языке. А то на ютубе попадаются сделанные кое-как видосы с AI-голосом, там вообще не заморачиваются и как-то нереалистично звучит. Мне надо, чтобы звучало солидно, тоже для ютуб-канала, но я по себе знаю, что если с озвучкой лажа, то смотреть совсем не хочется.
Аноним 05/01/25 Вск 00:05:57 1000052 499
Аноним 05/01/25 Вск 00:41:31 1000105 500
>>1000052
Не знаю, пока не смотрел. Спасибо! А есть примеры ихней озвучки?
Аноним 05/01/25 Вск 18:54:23 1001075 501
>>1000105

На евоном сайте есть вниз скролл сделай
Аноним 05/01/25 Вск 19:12:00 1001099 502
Аноним 06/01/25 Пнд 00:32:59 1001495 503
>>1001075
Спасибо! Послушал, все равно как-то искусственно звучит. Интересно, почему так.

>>1001099
Свиток. Страницу вниз прокрути.
Аноним 06/01/25 Пнд 08:35:41 1001762 504
У кого нибудь есть голос Аски из Евангелиона озвученную голосом Ольги Шороховой?
Аноним 06/01/25 Пнд 08:43:12 1001768 505
>>1001762
Внезапно захотелось, чтобы такое было, если эта та олдовая озвучка
Аноним 06/01/25 Пнд 09:06:13 1001783 506
>>1001768
Я пытался её голос очистить что бы на заднем фоне не было японской озвучки, но у меня не получилось. Может кто нибудь другой сможет чистый голос Аски записать без заднего фона и тогда уже получится сделать и для tss и для voice changer
Аноним 06/01/25 Пнд 09:13:16 1001785 507
>>1001783
Пробовал взять ориг дорожку и минусануть ее из дорожки с озвучкой?
Аноним 06/01/25 Пнд 09:13:17 1001786 508
Аноним 06/01/25 Пнд 10:01:15 1001811 509
ВЫ ОБЪЕБОСЫ РУС[...].mp4 190Кб, 854x480, 00:00:04
854x480
>>1001786
>вейтс гг
только на энтешн пауэ ненсентли бб омэриканец хуев блять, you understand me, pidorasina?
Аноним 06/01/25 Пнд 10:02:02 1001812 510
>>1001785
Я такое не умею, до этого со звуком не работал
Аноним 06/01/25 Пнд 18:47:01 1002199 511
Какие есть нейронки для копирования голоса? Попробовал playht, в принципе норм, но всё равно заметно. Для хорошего качества похоже нужна подписка, но $40 и непонятно как из рашки платить (может что-то есть с оплатой по ру карте?). В идеале еще чтоб кидать аудио, а в ответ уже переозвученная запись, а не текстом набирать, что нужно озвучить.
Аноним 07/01/25 Втр 22:36:54 1004133 512
По клонированию голоса есть что-то более актуальное чем в шапке? Как будто бы там уже все должно быть протухшее.
Юзал РВС-Мангио еще год назад. Неужели че нибудь посвежее и получше нету? (ну кроме платного Евенлабса)
Аноним 09/01/25 Чтв 01:44:15 1005172 513
tumblr46b0e6ec7[...].gif 1685Кб, 540x405
540x405
>>1001762
Короче, это снова я. Решил попробовать сам модельку Аски попытаться обучить, благо видеокарта позволяет rtx 3060 12gb. уже сделал первую попытку с 3-х минутным датасетом вырезанным из 8 серии аниме с её голосом, вышло так себе, поскольку голос на заднем фоне японский слышался как бы я не старался его приглушать и убирать + всего лишь 3 минуты набралось пока что и это мало как я понимаю Но мне нужно много голосовых записей Ольги Шороховой в стилистике "Аски", например её персонаж Кендалл Перкинс из мультика "Кик Бутовски" оказывается имеет похожий голос + там нет оригинального голоса на заднем фоне. В общем нужно порыться в мультиках где Ольга озвучивала персонажей с похожим голосом и повырезать оттуда её голос. Кто хочет помочь - скидывайте сюда или сюда https://t.me/anon475 мне ссылки на файлы или сами файлы, если в телеграмм с её вырезанным голосом. Для этого не нужно иметь современную видеокарту, так что любой справится.
Потом, когда модельку доделаю скину ссылку на неё сюда. Всё равно все ей будут пользоваться.

Но если всем вообще насрать будет на эту идею и никто не станет помогать, может я и сам себе модельку оставлю.
Аноним 09/01/25 Чтв 01:52:25 1005176 514
Эксперимент.mp4 229Кб, 1280x720, 00:00:02
1280x720
Аноним 09/01/25 Чтв 03:51:23 1005224 515
AsukaRVCtest.mp4 837Кб, 1920x1080, 00:00:33
1920x1080
Аноним 09/01/25 Чтв 05:08:45 1005249 516
>>1005224
>моделька звучит получше
Неко-арк какой-то.
Аноним 09/01/25 Чтв 05:31:56 1005255 517
>>1005249
Ну да, я тоже так подумал когда вначале попробовал, но всё это хоть что то. Нужно больше чистого голоса потому что для обучения модельки а не 3 минуты всратой записи. Если всё таки кто-нибудь решит помочь, накидав хороших записей голоса, то и результат будет быстрее и лучше. А если просто ждать то хер дождётесь
Аноним 09/01/25 Чтв 23:34:36 1006252 518
>>996563
>Fish качественней но генерация идет ну очень долго
Почти риалтайм же, если скомпилить. И чем длинней запись тем быстрей генерит. Минуту за 30 секунд может осилить.
Аноним 10/01/25 Птн 06:18:37 1006452 519
Есть какая-нибудь сетка которая подошла бы для озвучки разумного существа для мультфильма, чтобы включала милое животное щебетание между словами?
Аноним 10/01/25 Птн 12:09:15 1006623 520
Я правильно понимаю что в 2025 году все еще нет сервиса который позволит озвучивать свои большие текстовые файлы так чтобы это было слушабельно за небольшие деньги (ну 2к в месяц скажем) без ебли с консолькой и апишками?
Аноним 10/01/25 Птн 15:45:25 1006763 521
>>1006623
Едж прямо в браузере бесплатно озвучивает любой текст, дальше сам ищи
Аноним 10/01/25 Птн 15:53:07 1006769 522
Аноним 10/01/25 Птн 15:55:36 1006770 523
Аноним 10/01/25 Птн 16:10:50 1006777 524
Аноны. Ща буду делать голосовую модель Старухи Изергиль(ну та что из АХСиМСЗ)
Аноним 10/01/25 Птн 22:40:00 1007074 525
А как сделать ИИ кавер, но без всей этой хуйни с перепеванием другим голосом, обучением моделей и прочим, а просто заменить в оригинальной песни парочку слов сохранив оригинальный голос? Чет ничего не могу найти толкового
Аноним 11/01/25 Суб 00:46:15 1007211 526
Аноним 12/01/25 Вск 13:10:15 1008607 527
Мужики, как сделать чтобы мне pdf ламповая тяночка читала? На русском или английском (первое предпочтительно).

И чтобы не надо было на Elvenlabs миллион аккаунтов регать и подобные вещи.
Аноним 12/01/25 Вск 13:33:53 1008620 528
>>1008607
ну надо в текст перевести потом в edgeTTS закинуть и потом в рвс с моделью нужной
Аноним 12/01/25 Вск 19:25:25 1008961 529
>>1008620
Спасибо! Я чета как дебил шапку не прочел. А голос можешь посоветовать какой-нибудь анимешный или самому датасет собирать из какого-нибудь даба?
Аноним 13/01/25 Пнд 19:00:12 1010181 530
Порекомендуйте что-нибудь бесплатное для клонирования голоса
Аноним 14/01/25 Втр 02:38:09 1010438 531
>>1010181
Подойдет https://huggingface.co/coqui/XTTS-v2 - клонирует голос на основе 6-10 секунд записи.
Но у меня как раз назрел альтернативный вопрос по этому поводу, а именно, появилось ли что-то современнее этого умершего говна мамонта, которое уже никогда не обновится и представляет собой т. о. тупик. Что-нибудь типа новых версий этих моделей?
Аноним 14/01/25 Втр 15:20:27 1010779 532
Есть ли рекомендации есть ли хочешь переозвучить фразы из игры другим голосом? Хочу сделать небольшой мод для игры
Аноним 15/01/25 Срд 21:26:47 1012214 533
>>1010438
А есть маза с помощью XTTS нагеренить много реплик, а потом на них обучить RVC? Или совсем фигня выйдет?
Аноним 15/01/25 Срд 22:28:31 1012265 534
Чуваки, я новичок. Узнал 10 минут назад про rvc есть что-то лучше или это сейчас стандарт?
Аноним 16/01/25 Чтв 20:22:01 1013051 535
>>1012265
самое то это сейчас. лучше только платное
Аноним 17/01/25 Птн 17:20:17 1013818 536
Аноним 17/01/25 Птн 19:54:40 1013941 537
Аноним 21/01/25 Втр 04:52:55 1018610 538
cPCQaMihDnw.jpg 213Кб, 1000x1000
1000x1000
В гайде написано, что минимальная видеокарта - GTX 1050, у меня GTX 1060 3gb. Запись для тренировки модели длительностью 3 минуты (вокал), ставлю 100 эпох, одна эпоха занимает... 11,5 минут. На всю тренировку модели уйдёт 19 часов. Я могу как-то ускорить этот процесс без существенной потери качества? Например, уменьшить запись с 3 минут до 1 и выставить 50 эпох. Насколько это будет хуёво?

Даже если решиться на 18 (ну или 9 часов), я могу сидеть за компом всё это время? Условно смотреть видосы на ютубе и монтировать простые ролики в давинчи? Там вроде видеокарта и проц особо не нагружаются, так что хз, позволительно ли это.

Нихуя в этом не разбираюсь, но стараюсь разобраться.
Аноним 21/01/25 Втр 04:56:25 1018616 539
>>1018610
А, ну и проц i7 4790k. Вроде не самое худшее железо
Аноним 21/01/25 Втр 06:25:32 1018689 540
>>1006252
Это и есть очень долго. Одна глава книги 22 минуты чтения генерится 15 минут реального времени. Для сравнения Silero генерит 10 часов книгу за 6 минут.
Аноним 21/01/25 Втр 16:08:18 1019594 541
>>1018610
это пипец анон. лучше в создание моделей с картой ниже 20 серии не соваться. Максимум онлайн тренинг в облаке. Могу помочь кстати
Аноним 21/01/25 Втр 20:14:31 1019989 542
>>1019594
Не, у меня была какая-то херня с настройками, 100 эпох по итогу заняли 3 часа при записи длиной в минуту. Итоговое качество говнище, потому что оригинальный голос электронное говнище с кучей фильтров. По итогу кавер получился средний, но в целом меня устраивает. Сегодня попробую с другим нормальным голосом, поставлю 200 эпох и скажу как получилось.

Но про облако хотелось бы узнать. Напиши, пожалуйста, в тг @dmitrysev5
Аноним 24/01/25 Птн 14:35:13 1023917 543
Аноним 24/01/25 Птн 14:41:34 1023926 544
Аноним 04/02/25 Втр 20:59:32 1041492 545
>>1010438
Эту познал, но слишком короткий лимит фраз(
Аноним 04/02/25 Втр 21:13:09 1041536 546
Привет, анонимы. Нужна ттс которую можно поставить на локальный сервер, имеющий русский язык с условно адекватным(понятным) произношением, но главное что бы генерила она условно шустро, то есть меньше 5-10 секунд с видеокарточкой 3060. Какие у меня варианты?
Аноним 04/02/25 Втр 21:23:12 1041554 547
Аноним 05/02/25 Срд 06:28:41 1042155 548
>>1041536
Быстро генерит только Silero но качество голоса так себе.
https://aloys.narod.ru/sof/1/demagog.htm

Fish Speech 1.5 лучшая модель из тех что можно установить на пекарню но генерация голоса идет на много дольше.
Аноним 08/02/25 Суб 14:11:13 1046902 549
Блять так и не нашел как заставить rvc с амуде работать
Аноним 08/02/25 Суб 21:11:30 1047628 550
>>1046902
ZLUDA не работает? Что за проперженная видюха у тебя?
Аноним 10/02/25 Пнд 21:52:59 1049742 551
Аноним 10/02/25 Пнд 21:55:06 1049743 552
image.png 36Кб, 842x630
842x630
Аноним 11/02/25 Втр 16:40:09 1050504 553
Сап, вопросик такой по вейт гг. Вот там дохуя языковых моделей, просто гигантская база, да? Но куда люди несут эти языковые модели все? Не может же быть что на сайте только каверы песен делают?
А как же ттс озвучки реплик всяких или даже онлайн? Каклюди юзают этой вейт.гг?
Мне вообще бы под рвс годную ттс встроенную прямо в него, но таких похоже не существует, приходится на хуйле генерить с текста, а потом в рвс преобразовывать рутинно. (делаю озвучную новелку как хобби)
Аноним 12/02/25 Срд 09:23:09 1051198 554
>>1050504
Кабаньеры делают автоматические коллботы. Это очень распространённая задача. Сгенерить всю реплику с интонациями не выйдет, потому делается гибридный tts: берётся кожаный диктор начитывает "Да, конечно мы доставим вам ваш {product_name} по адресу {customer_address}", потом на этом кожаном обучается модель и дальше в реальном времени заполняются поля в тексте.
Аноним 12/02/25 Срд 15:02:20 1051479 555
>>1051198
Я ничего не понял! Есть же ттс онлайн, где отлично выраженны интонации, особенно в елевенс лаб. Значит и локалку можно поиметь теоретически, но они все такие плохие, что даже не близко.
Я поэтому хуйнёй страдаю, в хуйле ттс юзаю, оно бесплатное и довольно эмоциональное, есть кнопка сохранения, а потом в рвс моделями с вейгхт.гг преобразую в персонажа. Но это всё настолько муторно, что просто не могу успокоиться пока не найду альтернативу.
И не все модели с вейгхт.гг хорошие тоже, они не передают акцент как надо. Там оказывается эти модели прямо на сайте тренируют, закинув пару файликов, а я думал там какие-то крутаны их собирают отборно.
Аноним 12/02/25 Срд 16:11:47 1051553 556
>>1051479
ЕлевенЛабс от Фишспич отличается только тем что в 90% случаев правильно ставит ударения в неподготовленном тексте. Другие модели требуют для этого подготавливать сам текст, самому ставить метки на какую букву ставить ударения.
Аноним 13/02/25 Чтв 04:48:40 1052186 557
>>1051553
А хуйло так может? Я не нашёл как там ставить метки.
Аноним 13/02/25 Чтв 06:24:50 1052205 558
>>1052186
Так же как и везде, выделить букву с ударениями апострофами с двух сторон.

быстро поднять бобл'а'
Аноним 13/02/25 Чтв 17:31:12 1052588 559
>>1052205
А блин, а я заклавные писал, ну или по слогам делил, полезно знать.
Тред катиться не собирается? Вот бы какой крутан инфу в шапке старую скуфовскую обновил. У на суже елевенс лаб и хуйло появилось с тех пор. Может ещё что полезное.
Также в шапке полно мусора, например Soundworks локалка полностю платная, фришка там по инвайтам на емейл, удалить из шапки.
Аноним 14/02/25 Птн 12:01:34 1053291 560
17019563860200.mp4 477Кб, 396x298, 00:00:23
396x298
АНОНИДЫ, ПОМОГАЙ
НУЖНА ГОЛОСОВАЯ МОДЕЛЬ МЭДДИСОНА
, как на видрил. Все, что удалось найти, звучат намного хуже, непохоже.
Аноним 14/02/25 Птн 18:06:56 1053622 561
Есть аналог adobe podcast (он же adobe enhance) но только, чтоб русский язык нормально обрабатывался?
Аноним 16/02/25 Вск 12:21:20 1055412 562
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов