3. Объединяешь дорожки при помощи Audacity или любой другой тулзы для работы с аудио
Опционально: на промежуточных этапах обрабатываешь дорожку - удаляешь шумы и прочую кривоту. Кто-то сам перепевает проблемные участки.
Качество нейрокаверов определяется в первую очередь тем, насколько качественно выйдет разделить дорожку на составляющие в виде вокальной части и инструменталки. Если в треке есть хор или беквокал, то земля пухом в попытке преобразовать это.
Нейрокаверы проще всего делаются на песни с небольшим числом инструментов - песня под соло гитару или пианино почти наверняка выйдет без серьёзных артефактов.
Q: Хочу говорить в дискорде/телеге голосом определённого персонажа.
https://elevenlabs.io перевод видео, синтез и преобразование голоса https://heygen.com перевод видео с сохранением оригинального голоса и синхронизацией движения губ на видеопотоке. Так же доступны функции TTS и ещё что-то https://app.suno.ai генератор композиций прямо из текста. Есть отдельный тред на доске >>662527 (OP)
Нет, без прикола, я правда пару месяцев назад ей делал, было забавно но прямо никак не вспомню а что за калом вообще я пользовался, у вас в шапке под номером 8 из нее говнецо как раз, как эта срань называется, вот хоть убейте не помню, неплохую песенку себе на ней сделал просто и сейчас еще захотелось. Шапку вашу прочитал, более инфомусорной шапки я не видел нигде лол, походу с аудио совсем пиздец, даже хуже чем с картинками.
>>664162 (OP) Voice Changer - ПОМОГИТЕ ПОЖАЛУЙСТА!!! Сегодня несколько раз идеально модель работала, но чаще всего баговалась на значении "crepe". А она только на нем работает как надо. Просто все жутко лагать начинает, задержка растет и не думает падать. И вот эта надпись в консоли смущает
>>664162 (OP) Пользователям TTS. А какое применение вы видите вообще в этом? Мой кейс был такой - выдернул текст из файла субтитров для того чтобы прогнать через ТТС и затем прогнать через РВЦ для дубляжа. Итог такой что все эти ТТС начитывают максимально механически и для +- нормальной озвучки не подходят вообще. Есть какая ТТС которая как то играет голосом немного? И почему при прогоне через РВЦ в готовом оутпуте как будто не применяется файл черт голосовой модели, потому что на выходе звучит так же механически только другим голосом
>>667361 >>666945 Двачую этого. Недавно замутил себе speech2speech на нескольких нейросетках (yt-dlp -> whisperx + выравнивание от туда же -> deepl -> edgetts -> ffmpeg клеим обратно). Осталось лишь выровнять зачитку по временным отметкам старта и финала. У edgetts есть коэффициент ускорения, но как прикинуть длительность итоговой зачитки? Вариант "в лоб" – сгенерировать аудио, взять его длину и поделить, после чего заново сгенерировать.
Возможно, есть более изящные решения в опенсурце? Если у кого-то есть идеи или наработки — заделитель ништяками в тредике.
>>667448 тменно по временым отметкам>>667448 >edgetts >>667448 почему не заебашишь студию озвучки скрипт на автоматическу скачку с пиратбея. RARBG а дальше свой комбайн и заливаешь автоматом свое говно на рутор для дорам и всяких сериалов уровня , учитывая скорость идея вроде хорошая
>>667473 Тогда к этому комбайну нужно подключить расстановку ударений и определение эмоций в речи. Если не путаю, edgetts может не только монотонно зачитывать, но и кричать, шептать, радоваться и все такое. Ещё сетку на различение голосов, хотя бы женский/мужской, выбор соответствующего в edgetts.
Можешь заняться, скиллов никаких не нужно: всё готовое переклеить.
Мои же задачи куда тривиальнее — палить по дискорду ютуб с корешами, кто языка не понимает.
>>667493 можно просто готовый файл перегнать через rvc голосом володарского монотоность в итоге заамаскированна эстеты оценять мне осталось как понять edgetts читать по временым меткам а не сплошняком
Вечер в радость, аноны. Может кто знает, какие есть модификации для Whisper или альтернативы? Запускаю на локальной машине с Whisper GUI от grisk. Что удобно: можно обрабатывать файлы пачкой, работает просто, закинул, через время готовое забрал. Что неудобно: нельзя настроить таймкод, нестабильное разделение на спикеров (иногда есть, иногда нет), отсутствует прогресс бар и вообще какое-либо отображение процесса обработки, только файл начат - файл закончен. От гугления только больше запутался. Гуев много, но все субъективно хуже. В погромировании не шарю, хочу решение для локального запуска с кнопкой "Сделать заебись". Может, есть какие-то модели чисто под русский язык, или модифицированный для русского Whisper, с возможностью настраивать какие-то параметры типа тех же таймкодов и без особого красноглазия?
Доброго времени суток! Меня интересует возможность очистки от нежелательных эффектов бэк-вокала и прочей шумовой составляющей, которая ухудшает качество кавер-версий. В данный момент я использую UVR с такими плагинами: Kim Vocal 2, UVR-DeNoise, UVR DeEcho-DeReverb, а также плагин MDX-B Karaoke (lead/back vocals) на MVSEP. Итак, вопрос к знатокам: какие существуют более продвинутые методы очистки и изоляции вокала?
Два вопроса: 1. На кой хер эта хрень в интернет просится? Я не для того скачал локальную нейросетку с этой пердольной консолью, чтобы она ещё и в интернет лезла. 2. Я даже не вижу, чтобы она просила разрешения в интернет. Я бы в фаерволле увидел. Она через какой-то другой сервис пытается сделать какое-то коннект? Объясните, что там включается у неё?
>>680119 База на английских фонемах. Походу никак это не пофиксить, пока кто-нибудь новый беслптный инструмент не высрет без этого врожденного дефекта.
>>682089 Хуй знает. Ещё ни разу не слышал результат работы RVC и его форков без этих артефактов. Если есть возможность в треде или где обязательно надо спросить у людей кто такие фейки делал как добились. Может там вообще какой-то платный сервис на самом деле используется или какая диковиная хуйня не доступная бесплатно. Я ещё помню был софт по изменению голоса от российских разработчиков (забыл как называется) и его изьяли из открытого доступа из за того что наебщики бабок по телефону моментально его на вооружение взяли.
Сап, голосовые мои. Скажите что мне из это в шапке может озвучивать текст не просто голосом диктора, а чтоб была опция, где выбрать с какой эмоцией бот будет это говорить - страх, гнев, радость и т.п. Я видел в онлайн сервисах такой выбор. Уточняю мне надо ТТС именно с разными эмоциями на выбор, RVC я уже оформил пару месяце назад, но потом забил, чтоб потом голосом избранных персонажей говорить.
>>684370 А чому так? Технологии древних утеряны спустя полгода? А любят кричать зато - посмотрите какой у нас открытый исходный код, а сами на хуг фейс выжимают платную машину, чтоб нельзя было скопировать себе и не ждать в очередях. Я пробовал сегодня ХТТС. Конечно я это программистичкое для линуксоидов устанавливать не буду и чето там в консоли писать, это пиздец кал. Но получалось оно что-то рабочее, реально из 6 секунд похожий голос получался онлайн на хуйгфейсе. Но там очереди долгиеЮ нет фич для поднастройки и копировать себе нельзя, нужна платная машина. Кал. Остаётся реально чтоли онлайн на сайтах ИИС пользоваться где у ботов разные эмоции на выбор и в РВС преобразовывать? Нет альтернатив? Это ж блять просто сделать моделей 8 типов людей по возрасту и полу и у каждой по штук 10 эмоций, за неделю можно натренировать. То есть уже сделали, жиды не дают пользоваться бесплатно. Два стула, что либо плати, либо жри кал с отрытым кодом костыльный линуксоидный программистический для бомжей.
Эта софтина Ultimate Vocal Remover из шапки просто золото среди говна! Бесплатная, да и то ещё не для программистов-аутистов. Я так охуел и не ожидал, что сразу на радостях сделал аи кавер.
>>684502 > А любят кричать зато - посмотрите какой у нас открытый исходный код Тот кто в аср/ттс крутится знает, что силеро потом кричит "хули вы пользуетесь нашим открытым кодом, там в 78 строчке лицензимонного соглашения написано что вам нам должны бабок". Силеро всегда была компанией-пидорасом, на неё лучше не ориентироваться.
Блять как же заебало. У меня в RVC ошибка с обучением модели КУДА ран оф мемори и не трейнит, че только не пробовал, и меньше требования ставил и форумы читал, анальники хуебясят на форумах и ютубах и тратят моё время. Как-то сам допёр и обновил models.py и заработало. Почему не могут делать говно чтоб работало искаропки? Такое чувство будто они разрабатывают это всё, но сами не пользуются совсем. А нах делать тогда, если деньги даже не платят??
>>685946 >ну у меня размер пачки больше >>12<< и не тянет фик. куда цифра проебалась?
Алсо странное - я тренил две модели с 250 эпохами, а потом с 700. Думал что вот щас качество так качество услышу, а стало хуже, больше электронных звуков голоса робота стало. Как же так? Это не повезло просто или слишком много нельзя?
Слушайте, а можно ли как-то обучить чужую карточку персонажа с вей.гг другой карточкой, которая обучена на кумерскиъ стонах, чтоб первая карточка стонала в характере персонажа, не? Или даже думтаь не стоит? Надо ведь собирать звуки с этим оригинальным персонажем? И допустим если я соберу звуки и сделаю свою маня карточку только со стонами и ахами этого персонажа, то можно её влить в чужу карточку с этим персонажем или хуйня получится и надо полностью свою со всей базой всего генерить?
Мне нужно озвучивать огромные объёмы текста на русском. Пока что лучше всех с этим справлялся Evenlabs, но перебанили все аккаунты + бан по ip, а платить разумеется не хочется. А даже если и платить, мне никакой подписки не хватит для моих объёмов. Есть ли альтернативы или обход блокировки? (впн, прокси, тор не канают)
Сап! Есть аудио, в котором поверх одного голоса говорит второй. Есть нейронки чтобы эти голоса прилично разделить? Или еще не доросли до такого? Пробовал MDX-B Karaoke на mvsep, но хуйня. Или я че не так настроил?
>>701964 Это же невозможно слушать. Оно даже не там смысловые ударения ставит. Причём не просто на уровне плохой актёрской игры, а на уровне банальном, натурально проваливает точки и запятые. И это всего три минуты, из которых я с усилием дослушал две. Как такую белиберду целый час слушать не представляю. Скажи честно, это ты такой лоускилл, что не смог настроить её нормально, или нейросетка в целом такая отстойная? Не имею цели тебя обидеть, если что.
>>702958 Настроить можно так что от живой речи не отличить. Но нужно править сам текст вручную и расставлять ударения плюсами. Никто для разового прослушивания - подобной хуйней заниматься не будет. За 3 минуты там пяток неправильных ударений что более чем годно. Конкурирующие нейросетки выдают либо такой же либо худший по сравнению с этим результат, но у этой есть плюс в виде автономной работы без ограничений. Если что я еще и аудиокниги слушаю на скорости в 220-240% так что мои мозг работает почти все время в ускоренном режиме и сам адаптирует качество до приемлемого. Люди не понимают что мозг очень гибкий инструмент и он может сам адаптироваться, всего день прослушиваний и мозг сам начнет правильно выставлять ударения при прослушивании и ты перестанешь замечать какие либо шероховатости.
>>703003 > Если что я еще и аудиокниги слушаю на скорости в 220-240% так что мои мозг работа Как в таком порядке можно вообще что то услышать, понять и главное прочувствовать из книги? Это художественное произведение, а не состав продукта "говяжьи анусы идентичные натуральным". Тут важны игра образов, слова, атмосфера, почище, чем в кино, собственное осознание. Это не краткий пересказ послушать. Я уже писал про то что и на стандартной скорости этот кал слушать невозможно
>>703441 >>703443 Дураки вы. Мозг очень быстро адаптируется и сам переключает передачи. День два тренировок и вы будете воспринимать скорость в 240% как 100% даже не понимая на какой скорости вы сейчас смотрите\слушаете. Это те кто никогда ничего не слушал на ускорении думает что там каша получается, но со временем мозг вырабатывает свои режим работы и вы будете понимать и игру слов и интонации и вообще будете смотреть на себя в прошлом как на дурачков что проебали кучу времени. Недавно я попробовал посмотреть Дюну Вильнева на 100% так чуть не сдох от уныния, как я раньше вообще смотрел фильмы на такой скорости не пойму. 200% это минимальная комфортная скорость для потребления контента.
Мозг всегда сам настраивает восприятие течения времени и имеет встроенный эквалайзер. Раньше я думал что аудиофилы прогревают наушники после покупки но потом понял что прогревается именно мозг. Мозг сам меняет восприятие и занимается выравниванием АЧХ. Мозг всегда занимается адаптацией своих функций хотите вы этого или нет.
>>703658 Ебать шизик тиктокоголовый. Какая каша у тебя в голове боюсь представить. Ни о каком запоминании и восприятии тут естественно не может быть и речи.
Подскажите хорошую speech-to-speech модель для русского женского голоса. Просто хочется потраллировать чуваков в воис чате. Англоязычных моделей полно, но они все шепелявят, когда говоришь на русском. Русские ищу по конкретным персонажам, которые в голову приходят, но обычно оказываются низкокачественные. Мне бы хоть какую-нибудь, лишь бы был женский голос и правдоподобно звучал.
Раз в несколько месяцев я набираю себе воду из родничка подписки на ElevenLabs - сделать это можно только через Plati.Market, потому что наши карты (особенно Беларуси) зарубежные сервисы не принимают.
Раньше я делал это через любого доступного барыгу: выбирал в способах оплаты карту Казахстана и оно пропускало. Со временем кто-то пораскинул своими тремя извилинами и убрал этот способ, так что пришлось переходить на Киви - итог известен.
Я конечно понимаю, что переводы денег между Россией и Беларусью это охуеть какая сложная международная задача уровня Мстителей, но неужели не осталось больше никаких способов, кроме ЮMoney (бывший яндекс-кошелёк, который не даёт себя пополнить без скана паспорта на фоне жопы в трёх проекциях)?
В наличии есть беларуская карта МИР, которая нормально оплачивала в России, но у барыг конкретно такого варианта нету. Крипта тоже не пойдёт, её тут хуй купишь без мозгоебли и тех самых фоток с жопой (или я чего-то не знаю). Если кто-то тоже попал в такую ситуацию, то напишите пожалуйста, если остался какой-нибудь рабочий способ
>>707628 Да если бы только жопу прислать, как когда-то в вебмани, и всё - там же целая куча мозгоебли, которую принимает лишь один банк. Ещё и взнос такой, будто я медицинскую страховку открываю, а не электронный кошелёк
>>708286 Ну как знаешь. Я вбивал неподготовленный текст в обе модели и обе модели обсирались в одних и тех же местах. У меня вообще сложилось впечатление что это одна и та же модель но с разными голосами.
Аноны, у меня технический вопрос по железу. Если пользоваться локальными моделями, то на что лучше обращать внимания по железу т.к. в скором времени хочу сменить компуктер.
>>664162 (OP) Аноны, нейрокаверы вам в хату, такой вопрос - как переделать голос с мужского на женский и вообще реально ли это? Я записываю свой и на женской модели полный треш выходит. Делать высокий pitch тоже не помогает. Но при этом когда я даю модели запись голоса какой нибудь тянки, то плюс минус похоже получается.
>>664162 (OP) Аноны, дайте всю базу, если я хочу себе натренить голоса 2д девочек для moe-tts или что там сейчас топовое вышло. Еще что-то нужно сделать с эмоциями и интонациями. Вроде есть какой-то параметр питча, который в теории можно было бы менять прямо во время фразы. Но находил только какой-то университетский дроч. В общем, если кто-то что-то знает, подскажите.
Нужно быстрая ттс модель + стс чтобы преобразовать ее в нужный голос, для реалтайм чатбота. Попробовал xtts v2, но он медленный как жопа даже на сторонней апишке. Есть какая-нибудь средняя по качеству моделька на 400кк параметров которая может в русский и быстрая конвертация в другой голос?
>>683630 Я в одном из прошлых тредов писал свой опыт по установке этого говна. В общем там черех жопу надо скачивать модель с сайта силеро, с директории, на которую ниоткуда нет ссылок, так что найти ее можно только подрочив в присядку. Не советую начинать ставить силеро, так как тот же AllTalk на порядки лучше.
Оно раньше было еще хуже, но автор подошел к делу со страстью и всего за два месяца такой прогресс. Надеюсь он не забросит проект. По сути он ничего нового не делает, а просто оптимизирует рабочие варики. Если судить по старым видео раньше он вообще использовал нейронки яндекса, гугла и говнАлису.
Почему Суно из дк выпилили модели нейронки? У меня с сайтом давно проблемы, ничего генерить не выходит. Вылетает при каждом удобном случае, как с впн, так и без. С разных устройств
>>729665 >В коментах автор же написал 11 labs Действительно. Спасибо.
Интересует именно дубляж. Но автодубляж не тащит. Платные планы позволяют фиксить пере0еденный текст и ударения?
Так же халявный план не позволяет загружать аудио, только видео. Я в ffmpeg прицепил к mp3 изображение залитым одним цветом для меньшего веса: ffmpeg -loop 1 -i input.jpg -i input.mp3 -vf "scale=640:480:force_original_aspect_ratio=decrease,pad=640:480:-1:-1:color=black,setsar=1,format=yuv420p" -shortest -fflags +shortest output.mp4
Но вы все скорее всего все это уже знаете. Когда указал как источник минутный ютуб ролик, оно уже пол часа его обрабатывает.
>>731819 Бесплатный аккаунт позволил скачать только первый голосовой перевод. Все остальные попытки что-то перевести не позволяют скачать результат, только прослушать первые 3-5 секунд.
Интересно если создать еще один бесплатный аккаунт, вычислят ли меня что я пытаюсь обойти их жадность?
Слушайте, а как в RVC перегнать в желаемый голос всякие нестандартные голосовые звуки, т.е. не речь, а всякие крики, стоны, визги, мычания, ну вы понили. Я пробовал разные модели с weights.gg, но получается коряво, присутствую разрывы и странности, артефакты. Всё потому что они натренерованы под речь, а надо тренировать специально под что описал выше, да?
>>664162 (OP) У кого сейчас самое лучшее коммерческое решение синтеза речи? Планирую запилить свое собственное и выйти на азиатские рынки, надо посмотреть какое говно имеют сейчас мои конкуренты.
Анон, а для голосовых нейронок(TTS) есть интерфейс вроде автоматика для картинок или убабуги для текста? Что бы в него просто подкидывать модели и пользоваться.
>>748740 Для Silero или для Tera. Для текстовых нейронок можно в разных форматах качать и все работает в одном интерфейсе, а для генерации текста в речь как то все сложно.
>>746102 Я про реле, которые в жлектрических приборах. Я в детстве подключал к радиоточке и оно транслировало передачу, даже голос можно было разобрать постаравшись. А если про голоса - то я на том сайте прослушал рандомно из списка десяток, и все как на подбор откровенно искусственные, так что даже ухо режет. Вот например в Alltalk если положить в voice более или менее качественный файл с исходным голосом, то результат будет хуманизированный, и только по возможным багам можно понять, что это все сгенерировано.
Купил подписку на Elevenlabs самую дешманскую, пробую создавать модели и генерить текст. Сам голос в принципе неплох, но я не могу понять, как заставить ее расставлять ударения в нужных местах, а также выдавать нужные эмоции в определенных местах.
Сделал модель в RVC, но так и не понял как делать TTS с использованием моей модели. Подскажите плез, а то все что лазил из шапки - там уже встроенные модели. Или придется сначала делать текст - готовый голос - голос из модели?
Аноны, нуждаюсь в голосовой модели Вилл из чародеек. Не нашел, возможно не там искал, а возможно и нет вообще. долго ли и сложно ли натренить самостоятельно?
Аноны, посоветуйте нейронку на подобии elevenlabs, точнее её функции дабинга и возможностью stt. Дико впадлу обучать модель 10 секундного отрывка просто потому что захотел другую интонацию.
Вопрос. А как в обучении голосовой модели воспринимаются паузы менее чем в пол секунды и единый поток звука без них? Хуево понимаю каков идеал датасета, к которому стоит стремиться и на котором стоит основываться
Приветствую, аноны. Стал с недавних пор вкатываться в аудио-нейронки в реальном времени и есть несколько вопросов.
1. Многое ли изменилось с тех пор, как появились аудио-нейронки? Было ли что-то доработано, исправлено или просто добавлено? 2. Какие косяки имеет нейронки в рил тайме? Я так понимаю, что нейронки палятся на смехе, вздохе или попытке сделать громкий звук? Первый вопрос касается второго, так как вдруг что-то, что я вкратце перечислил, было пофикшено. 3. Возможно ли использовать нормально модель голоса женщины, будучи парнем? У самого голос средний, может звучать как девичий, так и мужской. Думаю если отрыть норм модель голоса по эпохам и покрутить тоналку, то пойдёт. 4. Какие видеокарты щас можно использовать для того, чтобы нейросетка работала грамотно рилтайм, без лагов? Желательно, чтобы не свыше 100к, до 50к. Видел где-то РТХ в ДНС и на Озоне за 30-40к. Но это всё желательно, приму любые советы анона.
Друзья, а вообще сложно создавать свои датасеты, просто хочу начать это делать.. Может будет максимальная схожесть, если буду делать сам? И где гайды можно почитать и посмотреть?
друзья, а как правильно делать датасет, я вот отрыл несколько аудио, переформатировал в wav и потом просто объединить их все в Audacity (очистить шумы и тд) в один wav файл и просто в коллаб?
>>779248 Я не думаю, что кто-то тебе точные цифры по оптимальному размеру датасета сможет сказать - тема голосовых нейронок довольно нишевая, по сравнению с картинками/текстом.
В разных гайдах советуют от пяти минут (но с большим охватом спектра голоса), до часа. Я видел хорошие модели на 20 минутах, так что должно хватить.
ElevenLabs не переводит лицензированные видосы / клипы, как-то можно обмануть или через что-то другое лучше сделать? Условно там клип сменима на адекватный русский. Не обязательно клип, просто мп3-ишка.
Интересен локальный TTS с хорошим голосом. Вроде, просмотрел всё с примерами, но нашёл только это https://github.com/zxcq544/russian_text_to_speech Неужели за 2 года не появилось ничего лучше Silero?
Аноны, а как понять, что есть оверфиттинг при обучении RVC? В инструкции указано, что надо смотреть на loss/g/total, но у меня нет такого графика, есть только loss/d/total. Чем вообще d от g отличается?
>>667657 В общем наконец-то у меня дошли руки скачать и проверить. Хуйня из под коня короче, никому не рекомендую. Качество не лучше RVC, так еще и голос даже не похож на исходный, лул
Там три модели разного размера для английского и три для всех остальных языков. Для английского в комплекте идет самая маленькая модель, для остальных языков вроде нормально справляется средняя модель(80мб).
Я не очень понимаю что такое языковая модель и как она работает, но случилась фигня которая меня удивила, мне было интересно что случится если я проговорю на двух разных языках. Я спросил "How do you say in russian - это моя бабушка" и оно распознало это так "Как вы говорите по русски - это моя бабушка". То есть оно перевело мои слова с английского на русский. Я немного прифигел. Это точно больше чем обычный stt. Магия.
>>791319 Анон, а что насчет сэмплов голоса для XTTSv2? Я сам тут давал ссылку на огромное собрание сэмплов обычных голосов, но теперь ищу вместо них хорошо поставленные, типа таких, как у дикторов, которые зачитывают многозначительные фразы в рекламных роликах и тизерах, такой мужской выразительный голос. Из самих тизеров не вытащить, так как они обычно с громкой музыкой.
Аноны, подскажите пожалуйста, я не использовал tts раньше и не разбираюсь. Какие есть реалтайм (ну или хотя бы почти реалтайм, с небольшой задержкой) TTS модели, подходящие для свободного коммерческого использования, и имеющие при этом достаточно живое звучание не как у роботов с различимыми эмоциями? Либо, как вариант, с возможностью дообучить свои голосовые модели с нужными эмоциями.
>>814207 Я для проекта на работе тоже очень жду хорошей tts. Пока слежу за проектами: https://github.com/Camb-ai/MARS5-TTS https://github.com/2noise/ChatTTS Русский там ещё не завезли, но надеюсь он появится в будущем. Английская версия - впечатляет. Есть возможность копировать и голоса и эмоции из коротких образцов. А пока, для русского, я остановился на сберовском tts. Голосов там не много, но они звучат почти как живые.
>>815109 MARS5 классный, но 20 гигов врам... Искал что полегче, наткнулся на FastSpeech2. Не лучшая штука, но прикольная, особенно если какую-то постобработку прикрутить, чтобы от шума и артефактов чистить. Правда я локально так и не смог потестить, заебался. Ошибок 10-15 успешно решил, под конец уже начал этот васянский код переписывать и понял, что не хочу этим заниматься - снёс нахуй.
А какие-то совсем лёгкие ттс, на 2-4 гига врам, не знаешь? Я конечно понимаю, что там совсем другое качество, но тем не менее. Вдруг что-то неожиданно хорошее есть.
>>815719 >А какие-то совсем лёгкие ттс, на 2-4 гига врам, не знаешь? Сам всякие варианты просмотрел, пролистал. Но ничего не установил. Как же у меня жопа горит с этих блядских консольных установок, это пиздец. В Coqui AI TTS в раздел установки смотришь - о, как круто, всего в одну строку! Но в самом конце раздела дополнение: для виндовс установка вот тут, и ссылка на stackoverflow с ПЯТНАДЦАТЬЮ шагами и конкретными требованиями типа Python 3.8 (not 3.9+), CUDA Toolkit 10.1 (not 11.0+) и cuDNN v7.6.5 (not cuDNN v8+). При том, что КУДЫ эти ебаные по 3 гига весят например. Да и что ты не пытаешься установить - везде это многократное дублирование одних и тех же зависимостей, но с разницей в версиях v1.00000001 и v1.00000002. И все эти зависимости по всей нахуй системе раскиданы, у меня уже диск системный почти забит. Ебучие питонопидорасы, вы про установку в один клик не слышали?
>>816224 Ладно. Я правильно понимаю, что не существует TTS качественнее озвучки гугл-переводчика, занимаемой <5 гигов на диске <4 гигов врам и устанавливаемой в 2 клика? Если да, то пошли эти ваши tts нахуй, дождусь лучше полноценных мультимодалок типа гпт4о, но открытых и с нормальными лицензиями, думаю в течение максимум 3х лет такие появятся. Заквантую такую модельку до ненормального состояния и для моих шизо-задач пойдёт даже несмотря на серьезное падение качества.
>>664162 (OP) Не знаете ли нейросеть которая способны ухудшать синтезированный голос, создавая фон, ревербацию, и прочие звуки хуевого голосового сообщения и прочих тому подобных штук?
Аноны, щас юзаю XTTS web UI гугл колаб из первой выдачи в поиске для озвучивания русского текста, голосом пиндосского ютубера. Юзаю один говяный семпл (с шумом и посторонними звуками) длиной 30 сек в качестве сурса (пытался резать хорошие куски голоса в нормальном качестве и формате, но по итогу результат ещё хуже был). Каждое предложение генерю по 10 раз и потом собираю по частям чтобы была нужная интонация и нормальное произношение. Есть ли в XTSS какая либо разметка для ударений хотя бы? И вообще такой пердолинг норм или щас что то более удобное есть?
P.S. Есть ссылка на XTTSv2 banana finetune из видоса в шапке? А то гугл ничего не выдает.
Привет, анончик. Подскажи, пожалуйста, какая языковая модель на сегодня максимально похожа на человеческую речь (text to speech)? Я далек от всех этих технологий, к сожалению. Лучше, чтобы с интерфейсом в виде сервиса: загрузил текст, получил голос. Платное подходит, это не проблема. Так, чтобы без пердолинга.
Я пока предполагаю, что чел сам записывает вокал, а потом накидывает на него голос нужного певца. Или же уже есть нейронки, которые такие чудеса делают сами?
Такой серьезный вопрос к вам, парни. Я постоянно за рулём и привык слушать аудиокниги потому что за рулём сложно писать. Не все книги нормально озвучили, или озвучили вообще и я перепробовал все возможные "старые" синтезы речи которые просто накатывает на андроид и они работают во многих читалках но есть ньюанс. Они зачастую полное говно но лучше чем ничего. Среди нейронок я слышал намного лучше. Можете посоветовать какое нибудь решение которое сможет пиздато озвучивать десятки часов текста? Могу себе позволить заранее на компе "отрендерить" текст на звуковые файлы, но походу в глаза долблюсь и ничего путного не нашел в шапке.
Ананасы, подскажите нейронку чтобы в реальном времени переводила диалог с иностранцем на русский, а твой ответ переводило и озвучивало на языке иностранца. Встретил чувака в дискорде с такой нейронкой, теперь заинтересовался.
>>832593 Голос в текст? Такое даже Гугл переводчик умеет. Выбираешь режим разговора без нажатия кнопок и он распознает говорящих по языку и в реалтайм переводит в текст.
Привет аноны. Наткнулся на большой объем видео на английском и хотел бы их перевести и сразу же озвучить. Есть какая то нейронка куда просто запихнул дорожку/видео и он/она перевелась? Буду благодарен
>>839806 ну собственно анон выше прав. нужно говорить по женски и все же иметь хорошую модель которую ты обучишь сам или все же сказать что ты девушка но с низким голосом
>>839764 Согласен. Но актерство не решает проблем несовершенства моделирования, глитчей и обрезания шипящих. Поэтому, собственно, и прошу указать на альтернативы или изъяны в настройках. По тех часть не спрашиваю, т.к очевидно, что чем лучше железо и микрофон — тем лучше. >>839812 Думаю, смогу обучить модель, покурив гайды. Навскидку назовешь несколько главных принципов при подборе голоса и обучении?
Хочу закинуть в любую норм нейросетку свой голос и озвучить текст, например, на английском. Именно чтобы текст → голос на основе сэмпла. Кроме элевенлабс есть ещё варианты? Или, как я понимаю, только элевенлабс более-менее удовлетворит мой запрос?
>>841714 Weights конечно крутой но там лимит 20 минут на модель, но я пока не нашел ресурса где можно было бы дрочить модель семплами например по 2+ часа.
ни разу небыл в треде, однако понравился голос одного перса из игры, есть 25 мп3 со всеми фразами. чтобы мне из этого сделать ттс озвучку текста, чатбот, голосовой помошник и хз че еще, хватит инфы из шапки?
>>865009 Да, должно хватить инфы. Тебе нужно обучить RVC-модель на перса, 25 минут более чем достаточно. Потом нужно использовать эту модель в паре с любым TTS (есть локальные типа SileroTTO, есть бесплатные облачные типа EdgeTTS).
И дальше организуешь конвейер - отдаёшь нужный текст TTS'ке, она генерирует дорожку дефолтным голосом. Дальше берёшь свою RVC модель и конвертируешь дорожку, получая нужный тебе голос.
на скринах в гайде по 1 эпохе в минуту, у меня еле ползет с 1 до 2 за 13 минут, графики не появляются, я так вечно буду тренировать. в чем проблема? видюха слабая?
натренировал 63 эпох и куда аут оф мемори (1660 ti, i5-9400f) коллаб хуйня видимо, надо все время смотреть чтоб не перетренить так как сохранений нет, еще и тред мертвый нихуя не достиг, проебал кучу времени, на этом и прощаюсь
если я пропустил нижнюю точку графика и завершил сессию, хотя сохранил в блокнот и скачал .pth файл, могу я как-то откатить тренировку рвс через гугл коллаб к старому чекпоинту, чтобы не начинать тренировать сначала?
Можно ли как-то озвучить текст с помощью ии модели, а не преобразовать один голос в другой? Я натренил модель, однако генерация через рвс меняет голос в аудио файле, но и перенимает скорость речи, паузы, интонации и т.д., то есть тон голоса может и тот же, но манера речи от дефолт ттс микрософта, а не от датасета. Наверно это хорошо для песен, но не для обычной речи.
>>879459 текст в речь? ну сначала ттс а потом рвс. Так же можешь просто сам прочитать текст с нужной интонацией паузами и т.д. и потом через рвс прогнать
>>879682 так че ты хочешь? текст в речь это ттс да. Если ты хочешь интонацию и скорость речи то это тебе в доп настройки ттс лесть и настраивать. например в silerotts естьт SSML разметка
Если закидывать в сервис дубляж а-ля 11лабс, то там рифмы не будет, но голос похожий будет.
Если прогонять левый голос через модель певца, то получим голос похожий, но надо уметь петь ртом или автотюнить, чтобы звучало хорошо, но как делать женские партии, я давненько пытался, обычный мужской голос перегонять в женский, получалось не оче, плюс тут ещё и петь надо с выражением.
Какие ещё мюсли? Может можно прописывать текст для дубляжа-переводы как-нибудь в11лабс или тип того?
>>883788 Само говноподелие паджита из залупинска можете поставить на пекарню через : >clone repo >run install_env.bat >run start.bat >go to "Inference Configuration" in the webpage that just opened >toggle "Open Inference Server" >go to http://127.0.0.1:7862 (if it doesn't load, wait a moment then reload) >scroll down, open "Reference Audio" >toggle "Enable Reference Audio" >throw your audio sample in there
НУ ЧЕ ЛОШКИ ЕЛЕВЕНЛАБСНЫЕ. ПОСОСАЛИ? ВОТ И БЛОКНУЛИ ВАШУ ХЕРНЮ ИЗ-ЗА САНКЦИЙ ПИНДОСИИ. ЗАМЕТЬТЕ НЕ МЫ БЛОКНУЛИ А ОНИ. СОСИТЕ. Я Ж ГОВОРИЛ ЧТО НУЖНО ДОБИВАТЬСЯ ОПЕНСОРСА. СОСИТЕ ЕЛЕВЕНЛАБСНИКИ. РВС + ТТС ТОП!!!!!!!
>>889648 Тренирую нейросеть на голосах из фильмов. Фильмы дублированные, значит, актёр дубляжа получал за этот дубляж деньги. Конкретно за запись голоса. >В частности, если использование голоса гражданина осуществляется в государственных, общественных или иных публичных интересах или если запись голоса гражданина производилась за плату. Всё, нахуй.
>>885007 Черепаха невероятно хороша. По сути, все топовые голосовые нейросети это чуть-чуть черепаха. Но только чуть-чуть, потому что название отражает её скорость работы.
In a world more cluttered than a Hoarder's Edition copy of "Garry's Mod," keeping your attention on anything for more than five seconds is rarer than finding a multiplayer lobby for a 2007 RTS. We're constantly under siege—notifications, videos, memes—it's like being in the middle of a free-to-play mobile game, except you're paying with your soul. Result? You've got the attention span of a caffeinated squirrel, anxiety that would make Chernobyl's radiation levels blush, and a never-ending itch for that next dopamine hit.
You want success? You want to improve yourself? You want inner peace? Well, sunshine, you better learn how to wield focus like a knife in a "Thief" speedrun.
And no, it's not all about chanting "om" on some overpriced yoga mat. In fact, the last place you think of—your bathroom—might just be where you hit spiritual nirvana. That's right. Put down the phone, stop doomscrolling, and let me introduce you to a sacred practice lost to time and Wi-Fi: the ancient art of conscious bowel journeys.
Picture it: You’re sitting there, not squatting with a phone like the rest of the digital zombies. Nope, you're focused. Laser-focused. On the task at hand. No TikToks, no memes—just you and the long, slow journey of a well-traveled stool missile. Every contraction, every micro-movement of your intestines, a delicate symphony. The kind of thing Beethoven would have written if he had access to high-fiber diets. And in that moment, you're not just another victim of modern society. You're a walking, breathing monument to the magnificence of human biology, my friend.
This? This isn’t a simple "bio-break." Oh, no. This is a golden opportunity to break free from the modern world’s grip. You are now a primal god, a being in tune with nature, rediscovering the lost art of using your damn brain without staring at a screen.
Each bowel movement is like a zen koan: a riddle meant to be experienced, not solved. You’ll soon realize that your porcelain throne is more than just a toilet; it’s a gateway to enlightenment. A royal seat from which you decree freedom from distraction, a rebellion against the endless tide of meaningless content.
Forget meditation retreats and overpriced self-help seminars. True mastery of life starts here. Let go of your waste and your need for constant stimulation in one swift motion. Close your eyes. Embrace the grotesque glory of the moment. And when you flush, know that you’re not just sending waste down the pipes—you’re flushing away the last remnants of your distracted, lesser self.
Flush. And prosper.
Можно как-то настроить паузы и эмоции для отдельных слов? Тренировал на видосах https://www.youtube.com/@SsethTzeentach/videos, просто выбрал два рандомных видео и нарезал кусками по 10мб.
млят, я заёпся, какая нейронка локальная? Чтобы тупо скачать запеканку и запустить на своём компе, нахуй мне эти апи к серверу дяди васи, я хочу генерить хуйню без ограничений и цензуры.
Аноны, как избавиться от артефактов как на 48 и 56 секундах? Использую XTTSv2 c войс-клоном. (использую не webui, а делаю всё в скрипте) Проблема как понимаю связана с тем, что передаю слишком большой текст или же это что-то другое?
Также, возможно ли как-то расставлять ударения для XTTSv2?
Вот сам текст: Размышляя о смысле бытия, я часто задаюсь вопросом, в чем же заключается наша цель в этом огромном и загадочном мире. Ведь мы - всего лишь крошечные песчинки во Вселенной, затерянные среди бескрайних космических просторов. С одной стороны, это может казаться пугающим - осознавать свою незначительность и хрупкость. Но в то же время меня поражает величие и красота окружающего нас мироздания. Каждая галактика, каждая звезда, каждая песчинка хранит в себе тайну, ожидающую своего открытия. Я верю, что наша задача - не просто существовать, а постоянно познавать, исследовать, учиться. Ведь именно это делает нашу жизнь осмысленной и наполненной. Даже если мы не найдем ответы на все вопросы, сам процесс поиска дарит нам ощущение причастности к чему-то грандиозному. Поэтому я считаю, что смысл бытия - в непрерывном стремлении к познанию, в благоговейном трепете перед тайнами Вселенной. Пусть наше существование ничтожно на космических масштабах, но оно бесценно в своей уникальности. Ведь именно мы, люди, способны постигать все многообразие и красоту мироздания.
Сап, не слышали про какую-нибудь годную нейронку голосов, которая эмоции, стоны, крики тоже генерирует в персонажей? Я знаю про RVC, оно годно превращает уже записанную речь в персонажа и даже пение, но со стонами вздохами всё очень плохо. Почему? Я не понимаю. А TTC эмоциональное кряхтящее бесполезно искать уже готовое. Может вы слышали чтоб не в персонаже, а чтоб просто разные вокальные приёмчики нагенерировать? Может их как-то удастся преобразовать всё-таки в этом RVC.
Реквестирую кружок от злого скуфа (Ты пидорюга ебаная, хуле ты под долбоёба косишь пидор...), переозвученный голосом Неко арк (может уже сделал кто то?)
Сап, подскажите где лучше надыбать фоток нормисов? Чтоб активности всякие, игры, разные позы, курсы. Только без шуб и ватников. Мне для реферов надо. Я заметил img2img на 75% рисует позирование гораздо лучше и быстрее, чем с тегами дрочиться и рандомить пикчу близкую к твоей идее в txt2img. И главное подходящая комплекция персонажей задаётся. Я знаю, что можно 3дэ болванки расставлять, но это слишком долго для меня тоже. Неужели в фейсбуке регаться? В гугле как-то мало и не то.
>>664162 (OP) Нужно перегнать большие объёмы текста (книги) в звук. Какой будет голос - не важно, главное чтобы уши не вяли как от какой-нибудь Балаболки. Онлайн-кал не подходит (то есть не нужно предлагать Edge и Алису).
>>920086 Могу только старые нейрокаверы с лисоженой скинуть. Офигеть, уже больше года прошло, как их выкадывал итт.
Использовал Ultimate Vocal Remover для разделения на вокал/инструменталку + тренил RVC модель для изменения голоса. Только на последнем SVC на том же самом датасете.
У локальных голосовых нейронок низкие системные требования, так что если смог запустить SD/LLM, то без проблем сможешь запустить тот же RVC и всё остальное.
>>918092 Чуваки из Ai Guitarist рассказывали. Руками пишешь текст, проф певец напевает партию своим голосом, потом voice clone. Других вариантов с сохранением музыки сегодня нет. Есть и удиошные говновозы, но их слышно сразу, удио может склонировать стиль, но в существующую музыку не может.
>>921070 >Русский не поддерживается Ну и нахуй тогда он нужен? Мы собрались здесь для того чтобы слушать каверы говновоза и озвучивать пасты про говно.
Какая нейронка используется в character ai для генерации голоса? Там нет акцента, все звуки хорошо произносит и может говорить на любом языке, в отличие от rvc ебаного
>>923247 >>923371 >>924095 Да я много где такое встречал, что голосовуха на сайте/программе/в сгенерированном видео на ютубе на 3 головы выше доступного по шапке треда. Хз либо анон нихуя не знает и найти не может, либо это жиды все скрывают
>>814207 > И какая TTS модель у Evil Neuro, знает кто? Насколько я понимаю, раньше гонялось через EdgeTTS с питчингом, а с V2 версии там какая-то своя моделька сделана, видимо XTTS обученный или что-то такое. Но скорость охуевшая конечно
>>926010 Ага, Azure, не EdgeTTS, точно. Но у злой то другой голос, который больше на локальные нейронки похож. Особенно эти артефакты на китайских символах, и крики из ада.
Как видос наподобие третьего сделать? Тоже с голосом из геншина. И тут еще один вопрос - можно ли сделать перевод голоса так, чтобы сохранить тембр, чтобы было понятно, что это один и тот же человек говорит.
Какой самый простой способ заставить Шамана перепеть Я РУССКИЙ как Я ГОМИК? Реально нужен фрагмент секунд 10, ну и мб в другой части текста что-нибудь поменял бы. Минус скачал, а капеллу выделил, но чёт именно кастомный текст не найду (хотя как-то Говновоз же перепевают)
Реквестирую замену слов в треке https://www.youtube.com/watch?v=6CHs4x2uqcQ c Good Morning на it's over (да, я я ебанутый). Весь трек делать не надо, только отрезок с 0:11 до 0:35. С меня как всегда.
>>930745 Пиздец, какой же всратый сайт. Держу курсор справа на экране и думаю почему нихуя не скролится. Три браузера попробовал и всё не работает. Оказывается нужно курсор в центре держать. Тупое говно тупого говна говно. Да и скачка анально огорожена.
Аноны, как искать подходящие датасеты? Нет, меня не интересуют какие-то известные личности. С ними в общем понятно. А вот если мне надо просто другое голос заиметь? Вроде бы, зашёл на ютуб, скачал аудиодорожку и вперёд. Но сама проблема найти подходящее без музыки и других посторонних артефактов. Как вы решали такой вопрос? Кроме как надеяться на случай никаких мыслей нет.
Сап, а не можете что-нибудь посоветовать по созданию моделей голосов винды, которое роботом говорит? Мне на самом деле для таверны с чатом нужна озвучка, но там большинство опций это навернуть нейронки, которые будут онлайн генерить тебе озвучку, а это естественно долго, никто не хочет полминуты тишины слушать прежде чем тебе ответят. Есть опция пресетов голосов винды и я подумал о ней, но мне хотелось бы чтоб были модели нужных мне персонажей, а не каких-то стивинов хоукингов. В сети этих моделей не вижу. Я слепой.
>>936013 >>917559 >>917591 Бля а можно их как-то закинуть в Microsoft windows типа что бы вместо дефолтных гугол мужика и бабы такой норм голос? Уже столько времени прошло надоели эти гнусавые говорилки дефолтные неужели нельзя было интегрировать нормальные tts в шинду я ими квесты в ммо-шках озвучиваю себе ну и книжки аля аудио делаю
>>936013 Что не день то новый ТТС, на этот раз это голос-в-голос модель без требования к дополнитенльным приколам типа whisper для детекта речи и транскрипта текста. https://huggingface.co/fishaudio/fish-agent-v0.1-3b Эдакий гпт-4о войсмод на самых минималках.
вопрос по тренировке своего голоса в RVC, сколько ни пробовал фигня получалась. 1) сколько минимум звуковых файлов нужно в датасете и какой миниму длины? 2) если у меня есть скажем 30 секунд аудио есть, можно датасет сделать?
>>942343 лучше разрезать на куски по 10 секунд и тренить. ставь 1000 эпох и с помощью тенсоборда находи лучшую модель. если не хочешь возиться с тенсобордом ставь 250 потом 300 эпох
>>942363 странно в прошлый раз нарезал свою звукозапись как раз где-то на 10 секунд вроде 5 кусков было, получилась фигня, может перетрен был этох 300 и 500 пробовал
>>944066 Для реалистичного качественного звучания - да. Можешь спеть ты сам, не попадаю ни в одну ноту, потом заменить тембр, подредактировать автотюном, потом войсченж нейросеткой, но все артефакты от дикого автотюна останутся. Поэтому лучше петь живому человеку, который близок к оригиналу и как-то может пародировать оригинал. Тогда одно другое дополняет, мы имеем живые интонации, эмоции, придыхания, вздыхания и получается зебись.
>>945741 Может те кто запросили графику для рекламы сами озвучивают/заказывают Короче один хуй это не нейронка озвучивает, хочешь такие же голоса, либо дёргай откуда-то либо найди где актер говорит без лишнего шума и создай свою модель
Скорбно прошу помощи, так как в ллм треде никто не ответил.
Кто-нибудь из вас пытался настроить TTS для таверны? Я пытался ебаться с Silero, но нихуя не вышло. Очень заебался, прям пиздец. Жопа горит страшно. И, если что, я никогда не сидел в вашем треде и не пытался генерировать голос. Ничего не знаю, пытался говнокодить через нейросеть только для этого дела, и, возможно, в этом моя ошибка.
Если готовы помочь здесь или в телеге — буду рад. Там я смогу хотя бы подробно всё объяснить, если есть желающие. @schaukel
Изначально моя задача была поставить Silero + RVC, апи сервер для таверны, вроде бы это возможно, но даже silero не пашет без rvc в таверне, хотя вавки тестовые выдает. И оно у меня без webui.
Я установил окружение, сервер, силеро, rvc, но там могут быть какие-то проблемы с зависимости или я маппинг не настроил.. не знаю.
Если у вас есть готовый гайд для ебланайзеров или это можно сделать всё криво и косо, зато быстро, буду рад и такому варианту.
>>948126 Т.к ебка с Таверной сама по себе не самый лёгкий процесс, ебка с ТТС будет менее популярной темой, т.к для ТТС для чатБотов тебе для начала нужна сама Таверна. Ищешь новые гайды на новые ТТС(выше кидали, не ебу если Таверна их поддерживает) на тех же каналах, если такие имеются.
А знает ли кто как натренить w2v2-vits модель? Чтобы с эмоциями работала. Хочу заняться тренингом моделей и делать качественно. >>948126 Могу попробовать подсказать что, но для этого тебе придётся тг писать. Здесь общаться невозможно, увы. Конкретно силеро не ставил, потому что он говно потому что мне анимешное нужно было. Но vits с rvc у меня работают.
>>948903 Я ориентировался на видеопамять и не знал о твоём варианте. И да, мне как раз тоже нужен был анимешный голос. Просто я хочу хотя бы 12b модель использовать + ттс, оно вроде много жрёт. Но если голос прям наголову выше в твоём варианте, то я готов ради этого уменьшить модель до 9b. В конце концов, мне какой-то крутой ролплей не нужен.
Тогда пиши свой тг, ну или напиши в мой.
>>948631 Таверна у меня есть, я читал документацию, но понял мало, конечно. А роли на английском вообще с трудом воспринимаю. Ну попробую, чо ещё делать.
Там документация сильно устарела для таверны, а доки для ТТС и прочие моменты пиздец какие забористые, знаний технических у меня нет. Пытался установить с помощью клода, но вечно обсирался из-за этой документации. Тонну времени потратил на анализ логов и всего такого.
ТТС подключилась к таверне, но по какой-то причине не воспроизводила звук и выдавала ошибку, мол не видит голос. Хотя маппинг был настроен нормально. При этом тестовые вавки она создавала без проблем, то есть без таверны с ней работать можно было.
>>925225 Ну а что тогда происходит ты можешь объяснить? Почему буквально все люди генерируют супер качественно, а итт в треде ссылки и советы только по максимально убогим нейронкам?
>>950767 потому что тут надо звать тех гениев из /wm/ которые делают каверы про хохлов. Тут мы пытаемся все в опенсурсе сделать а пока что это не выходит
Как сейчас можно более менее адекватно пользоваться ElevenLabs? С компа у меня никак не работате, перепробовал 5 штук разных впн, бесплатных и платных, а вот с телефона, через впн получилось хотя бы попасть на сайт и генерить текст через семпл, на главной странице, но вот чтобы полноценно пользоваться - мне письмо на почту не приходит, чтобы в акк свой зайти((
На элевенслаб оказывается появился генератор звуков недавно, лучшее пока что видел, но дорогое блин.
Алсо, не придумали как бы персонажу (голосу) придать эмоциональный оттенок - ярость там, радость и т.п. А то когда голосом диктора, всё не то. У меня была мысль что в 3 слоя: 1. TTS на любой голос близкий персонажу, это в 99% голос диктора или нарратора 2. Морф дорожки (в RVC?) моделью, обученной на целовой эмоциональной выразительности. 3. Последующий морф в RVC в уже в нужного персонажа.
Но как 2 пункт реализовать я не знаю. Можно ли вообще модель надрочить чтоб она передавала выраженную радость, ярость и т.п.? Там же меняются тогда паузы, тональность и т.п.
>>955834 Речь шла про войсклон, рилтайм в сделку не входил, с ним не всё так просто. С xtts оно у меня работало где-то втрое медленнее, чем на шебм. Момент появления цифр в консоли - это момент, когда генерация фразы завершена и передана на воспроизведение. Так что могу тебе только успехов пожелать, лол.
>>957055 Можно tts надрочить на эмоциональность, нужен датасет большой и модификация модели, чтобы входной слой поддерживал. Занимался чем-то похожим, но забросил в итоге.
>>957218 А который ты там локальный ттс надрачивал? Может я тоже хочу надрочить. Я пробовал угабугу, хттс и воксбокс, но оно всё настолько тугое, что только на дикцию и годится. Силеро элитный вообще не смог установиться, я несколько дней пытался его поднять. Саундворк жиды не дают генерить без инвайта по почте. Я находил онлайн сервисы, где у бота выбираешь выраженную эмоцию как я описал, они уже надроченные, но не автоматически меняют, а надо рубильник переключать и мне норм, только вот токеныыы за даларыыы.... А без подписки бушешь сидеть бандикаком записывать в прямом эфире что там создал, не дают скачать. На их фоне елевенслабс просто короли, но там тоже у фри ботов нельзя выбирать эмоцииональность. Там ттс диктороское фри зато дешёвое, можно потом куки чистить. Странный вообще какой-то этот угол аи озвучки, будто все обиженные петухи собрались. В то время как сд бесплатное и куча плагинов для на энтузиазме за донаты и лайки всё делают. И даже чат боты уже появились как гпт бесплатные без цензур, одни озвучники сапоги защищают.
Не знаю сюда ли я попал и по теме ли вопрос, но все таки задам.Возможно вопрос тупой. Есть сервисы по типу Elevenlabs и Heygen, которые переводят видео на другой язык с сохранением голоса, есть ли возможность сделать это у себя на компе/коллабе?Может есть еще аналоги этих сайтов.
>>957506 >Силеро элитный вообще не смог установиться Как с силеро-то обосраться можно? Я его когда ставил, там в два клика всё установилось. Но у него нет войсклона, кстати, только вшитые спикеры, ну и эмоциональный диапазон уровня гнусавой озвучки 90х. >сд бесплатное и куча плагинов Потому что ебли меньше. Даже с текстовыми нейронками ебли меньше. А для звука ебли много. Сбор и классификация датасетов, чистка, настройка. Есть нейронки, которые вроде бы должны всё это делать, но на практике работают настолько криво, что просто пиздец. Для того же SD всё это готово, есть сайты, которые можно парсить автоматически, потом автоматически генерировать теги для картинок и тренировать, что хочешь. Да и архитектур считанные единицы, когда TTS - миллиард и все разные. >Может я тоже хочу надрочить. Ну так бери любую нейронку, которую в принципе можно тренировать, и вперёд.
>>958176 Можно, только тебе придётся использовать несколько сеток. Сначала сгенерировать субтитры с помощью STT нейросети типа whisper. Здесь есть минус, он не сохраняет адекватно паузы в речи, не опознаёт интонации и так далее. Но вариантов особо нет, насколько мне известно, чтобы работали лучше него. Дальше у тебя есть текст, его переводишь и озвучиваешь TTS с возможностью клонирования голоса, в качестве образца подсовываешь, очевидно, кусочек оригинальной озвучки.
>>958262 Это разработчики обсрались, сделав кривое силеро. Ты может очень ранню версию устанавливал. Ну что за истории ты арссказываешь? Что тяжелее генерить - графику, звуки и текст? Что больше данных на диске весит? >Ну так бери Ну так дай. нету её. В шапке нет, и нигде в тырнете. Ты про войс клон? Это хуета, нет желания становиться актёром озвучки, и рычать пердеть в микрофон, а потом в персонажа перегонять. В шапке буквально решение: 1. Используешь любой инструмент для синтеза голоса из текста 2. Перегоняешь голос в нужный тебе через RVC
А как блять настроение из синтезатора голоса выбрать? НЕТ ЕГО. Я по ссылке все варианты наворачивал, зря время потратил. О каких миллионах бесплатных ТТС с эмоциями ты врёшь, малой?
Посоветуйте RVC-модель, лучше женскую, для исполнения песен с высоким вокалом, скримо и всякой жестью, где требуются сильные перепады голоса и разные эмоции. Ну, такую, которая в теории может это потянуть. На weights говно одно для того, чтобы LLM озвучивать или баловаться в основном.
Только какая-то модель Сенко неплохо справляется от анона там, и весит она заметно больше всех остальных, кстати.
Аноны, подскажите, пожалуйста. Мне нужен локальный софт для TTS, без извращений всяких с подменой голоса и прочим, мне просто нужна качественная модель для озвучки, что бы потом это использовать в ютубе, куда смотреть? Я прочитал шапку, но тут куча мусора и почти вся инфа про изменение фейк-голоса, а мне это не надо, мне просто TTS нужен
>>958292 >Это разработчики обсрались Специально проверил, установилось за минуту и работает. Хуй знает, что ты там навертел. >Что тяжелее генерить - графику, звуки и текст? Текст, очевидно. Но звуком мало кто толком занимается, потому готового нихуя нет, из-за чего работа со звуком требует в разы больших трудозатрат, чем что угодно другое.
>>960677 В ютубе хуй знает, у всех разные лицензии, частенько запрещающие всё на свете. А так, силеро - предельно простая хуйня, которая даже на процессоре может быстро генерировать.
>>937869 Ставили? Это https://speech.fish.audio/inference/ работает А это https://speech.fish.audio/start_agent/ нихера Ни с аудио, ни с микрофоном, ставил на свою конду, с их батника Одна и та же ошибка Не вникал что значит этот апи вызов, но послал на него нужный запрос и эта же ошибка вылезла Как пофиксить? Как пользоваться?
>>967225 Fish-Speech. Уже даже для работы успел заюзать. Рекомендую.
Я лично накатил виртуалку WSL, туда накатил ручками их гит со всеми дровами, запускаю как tools/server и использую --compile флаг для компилирования модели. Получаю 90 ток/сек на 3060M.
Удивлен, что тред не засран фишем, зашел сюда случайно. Топовая же модель, эмоции бодрые (хотя настраивать нельзя, немного берет эмоций с референса), русский хорош, прям отлично. Медленная, только, конечно. Онлайне не поболтать.
>>978996 Тоже уже попробовал 1.5 Тебе удалось запустить Fish Agent? Я уже заёбся переустанавливать и пробовать разные комбинации версий. Обосанная хуйня как-то криво написана и не может скомпилироваться, всё по 10 раз установлено, системных переменных уже жопой жуй, из обычной консоли всё вызывается, а их хуйня почему-то пишет, что не находит то компилятор, то ещё хуй пойми что. Есть гайд по процессу установки wsl? Не связывался с таким.
Для компиляции поставил VS Community 2022 > Desktop development with C++, куда 12.4 стояла, в системных переменных CC со значением C:\Program Files (x86)\Microsoft Visual Studio\2022\BuildTools\VC\Tools\MSVC\твоя версия\bin\Hostx64\x64\cl.exe, в PATH добавлена эта же папка без самого файла.
Скачал rvc и пытаюсь свою модель сделать, но чет не выходит. Или выходит, просто нужно ждать неделю? Как понять что он что-то делает? processing вроде идет, в консоли ничего не меняется, нагрузки на видеокарту нет, пикрил охуительно удобный интерфейс в котором уже 500 из 5 и хуй знает что это вообще значит.
>>985786 Ну я написал что в консоли из ошибок вроде только UnboundLocalError: Local variable 'Logger' referenced before assignment Ryzen 5 3600 и rtx 4060ti.
Сап анонасы, я тут у чувачка уже давно увидел https://github.com/Mozer/talk-llama-fast, оч прикольно выглядит https://youtu.be/ciyEsZpzbM8 Хотелось бы попробовать так же, но чет установка у меня идет наперкосяк, мб кто то видел что то похожее или как установить без гемора
>>985600 Все нашел что хотел Есть программа для автоматического запуска скриптов инсталляции любой попенсорсной модели. https://pinokio.computer/ просто скачал программу сос скрипотом и за час она мне сама все скачала и настроила. Все работает от двух кликов мышью, как я и хотел.
>>990072 Ну так с обычным запуском и не должно быть проблем. Слышал про эту прогу, не понимаю как оно работает, ллм агент с доступом к консоли что ли, страшно пробовать. Пока всё ставится, если поковыряться самому.
Аноны какой нынче положняк по TTS? Больше интересует генерация локально ибо на всяких сайтов качество хоть и на уровне, но с большими объемами текста там не поработать. Пока пользуюсь Silero Speech в целом более менее под мои задачи, но может что уже лучше за это время запилили?
>>995788 Silero работает быстрее всех. Fish качественней но генерация идет ну очень долго. За то время что Silero начитывает целую книгу Fish начитывает всего страницу.
Аноны, а сейчас есть возможность купить нейронку и через нее генерировать голос, чтобы он был максимально похож на реальный. Чтобы он говорил на русском языке. А то на ютубе попадаются сделанные кое-как видосы с AI-голосом, там вообще не заморачиваются и как-то нереалистично звучит. Мне надо, чтобы звучало солидно, тоже для ютуб-канала, но я по себе знаю, что если с озвучкой лажа, то смотреть совсем не хочется.
>>1001768 Я пытался её голос очистить что бы на заднем фоне не было японской озвучки, но у меня не получилось. Может кто нибудь другой сможет чистый голос Аски записать без заднего фона и тогда уже получится сделать и для tss и для voice changer
Какие есть нейронки для копирования голоса? Попробовал playht, в принципе норм, но всё равно заметно. Для хорошего качества похоже нужна подписка, но $40 и непонятно как из рашки платить (может что-то есть с оплатой по ру карте?). В идеале еще чтоб кидать аудио, а в ответ уже переозвученная запись, а не текстом набирать, что нужно озвучить.
По клонированию голоса есть что-то более актуальное чем в шапке? Как будто бы там уже все должно быть протухшее. Юзал РВС-Мангио еще год назад. Неужели че нибудь посвежее и получше нету? (ну кроме платного Евенлабса)
>>1001762 Короче, это снова я. Решил попробовать сам модельку Аски попытаться обучить, благо видеокарта позволяет rtx 3060 12gb. уже сделал первую попытку с 3-х минутным датасетом вырезанным из 8 серии аниме с её голосом, вышло так себе, поскольку голос на заднем фоне японский слышался как бы я не старался его приглушать и убирать + всего лишь 3 минуты набралось пока что и это мало как я понимаю Но мне нужно много голосовых записей Ольги Шороховой в стилистике "Аски", например её персонаж Кендалл Перкинс из мультика "Кик Бутовски" оказывается имеет похожий голос + там нет оригинального голоса на заднем фоне. В общем нужно порыться в мультиках где Ольга озвучивала персонажей с похожим голосом и повырезать оттуда её голос. Кто хочет помочь - скидывайте сюда или сюда https://t.me/anon475 мне ссылки на файлы или сами файлы, если в телеграмм с её вырезанным голосом. Для этого не нужно иметь современную видеокарту, так что любой справится. Потом, когда модельку доделаю скину ссылку на неё сюда. Всё равно все ей будут пользоваться.
Но если всем вообще насрать будет на эту идею и никто не станет помогать, может я и сам себе модельку оставлю.
>>1005249 Ну да, я тоже так подумал когда вначале попробовал, но всё это хоть что то. Нужно больше чистого голоса потому что для обучения модельки а не 3 минуты всратой записи. Если всё таки кто-нибудь решит помочь, накидав хороших записей голоса, то и результат будет быстрее и лучше. А если просто ждать то хер дождётесь
>>996563 >Fish качественней но генерация идет ну очень долго Почти риалтайм же, если скомпилить. И чем длинней запись тем быстрей генерит. Минуту за 30 секунд может осилить.
Я правильно понимаю что в 2025 году все еще нет сервиса который позволит озвучивать свои большие текстовые файлы так чтобы это было слушабельно за небольшие деньги (ну 2к в месяц скажем) без ебли с консолькой и апишками?
А как сделать ИИ кавер, но без всей этой хуйни с перепеванием другим голосом, обучением моделей и прочим, а просто заменить в оригинальной песни парочку слов сохранив оригинальный голос? Чет ничего не могу найти толкового
>>1008620 Спасибо! Я чета как дебил шапку не прочел. А голос можешь посоветовать какой-нибудь анимешный или самому датасет собирать из какого-нибудь даба?
>>1010181 Подойдет https://huggingface.co/coqui/XTTS-v2 - клонирует голос на основе 6-10 секунд записи. Но у меня как раз назрел альтернативный вопрос по этому поводу, а именно, появилось ли что-то современнее этого умершего говна мамонта, которое уже никогда не обновится и представляет собой т. о. тупик. Что-нибудь типа новых версий этих моделей?
В гайде написано, что минимальная видеокарта - GTX 1050, у меня GTX 1060 3gb. Запись для тренировки модели длительностью 3 минуты (вокал), ставлю 100 эпох, одна эпоха занимает... 11,5 минут. На всю тренировку модели уйдёт 19 часов. Я могу как-то ускорить этот процесс без существенной потери качества? Например, уменьшить запись с 3 минут до 1 и выставить 50 эпох. Насколько это будет хуёво?
Даже если решиться на 18 (ну или 9 часов), я могу сидеть за компом всё это время? Условно смотреть видосы на ютубе и монтировать простые ролики в давинчи? Там вроде видеокарта и проц особо не нагружаются, так что хз, позволительно ли это.
Нихуя в этом не разбираюсь, но стараюсь разобраться.
>>1006252 Это и есть очень долго. Одна глава книги 22 минуты чтения генерится 15 минут реального времени. Для сравнения Silero генерит 10 часов книгу за 6 минут.
>>1019594 Не, у меня была какая-то херня с настройками, 100 эпох по итогу заняли 3 часа при записи длиной в минуту. Итоговое качество говнище, потому что оригинальный голос электронное говнище с кучей фильтров. По итогу кавер получился средний, но в целом меня устраивает. Сегодня попробую с другим нормальным голосом, поставлю 200 эпох и скажу как получилось.
Но про облако хотелось бы узнать. Напиши, пожалуйста, в тг @dmitrysev5
Привет, анонимы. Нужна ттс которую можно поставить на локальный сервер, имеющий русский язык с условно адекватным(понятным) произношением, но главное что бы генерила она условно шустро, то есть меньше 5-10 секунд с видеокарточкой 3060. Какие у меня варианты?
Сап, вопросик такой по вейт гг. Вот там дохуя языковых моделей, просто гигантская база, да? Но куда люди несут эти языковые модели все? Не может же быть что на сайте только каверы песен делают? А как же ттс озвучки реплик всяких или даже онлайн? Каклюди юзают этой вейт.гг? Мне вообще бы под рвс годную ттс встроенную прямо в него, но таких похоже не существует, приходится на хуйле генерить с текста, а потом в рвс преобразовывать рутинно. (делаю озвучную новелку как хобби)
>>1050504 Кабаньеры делают автоматические коллботы. Это очень распространённая задача. Сгенерить всю реплику с интонациями не выйдет, потому делается гибридный tts: берётся кожаный диктор начитывает "Да, конечно мы доставим вам ваш {product_name} по адресу {customer_address}", потом на этом кожаном обучается модель и дальше в реальном времени заполняются поля в тексте.
>>1051198 Я ничего не понял! Есть же ттс онлайн, где отлично выраженны интонации, особенно в елевенс лаб. Значит и локалку можно поиметь теоретически, но они все такие плохие, что даже не близко. Я поэтому хуйнёй страдаю, в хуйле ттс юзаю, оно бесплатное и довольно эмоциональное, есть кнопка сохранения, а потом в рвс моделями с вейгхт.гг преобразую в персонажа. Но это всё настолько муторно, что просто не могу успокоиться пока не найду альтернативу. И не все модели с вейгхт.гг хорошие тоже, они не передают акцент как надо. Там оказывается эти модели прямо на сайте тренируют, закинув пару файликов, а я думал там какие-то крутаны их собирают отборно.
>>1051479 ЕлевенЛабс от Фишспич отличается только тем что в 90% случаев правильно ставит ударения в неподготовленном тексте. Другие модели требуют для этого подготавливать сам текст, самому ставить метки на какую букву ставить ударения.
>>1052205 А блин, а я заклавные писал, ну или по слогам делил, полезно знать. Тред катиться не собирается? Вот бы какой крутан инфу в шапке старую скуфовскую обновил. У на суже елевенс лаб и хуйло появилось с тех пор. Может ещё что полезное. Также в шапке полно мусора, например Soundworks локалка полностю платная, фришка там по инвайтам на емейл, удалить из шапки.