3. Объединяешь дорожки при помощи Audacity или любой другой тулзы для работы с аудио
Опционально: на промежуточных этапах обрабатываешь дорожку - удаляешь шумы и прочую кривоту. Кто-то сам перепевает проблемные участки.
Качество нейрокаверов определяется в первую очередь тем, насколько качественно выйдет разделить дорожку на составляющие в виде вокальной части и инструменталки. Если в треке есть хор или беквокал, то земля пухом в попытке преобразовать это.
Нейрокаверы проще всего делаются на песни с небольшим числом инструментов - песня под соло гитару или пианино почти наверняка выйдет без серьёзных артефактов.
Q: Хочу говорить в дискорде/телеге голосом определённого персонажа.
https://elevenlabs.io перевод видео, синтез и преобразование голоса https://heygen.com перевод видео с сохранением оригинального голоса и синхронизацией движения губ на видеопотоке. Так же доступны функции TTS и ещё что-то https://app.suno.ai генератор композиций прямо из текста. Есть отдельный тред на доске >>
>>1055411 (OP) Это тупо копипаста старой шапки и ничего нового в ней за полгода? Ну ты и долбоёб, фагочушка к тому же. Всем кто отпишется без сажи рака яиц.
Ебался всю ночь так нихуя и не установил. RVC работает искаропки и работает заебись но не могу найти нормальный TTS. Подскажите каким вы сейчас пользуетесь? Сука триллион зависимостей установите то установите се ой работает только на петухон 1488 иди нахуй блядь
Model Sizes: We trained three model sizes, delineated by the backbone and decoder sizes: Tiny: 1B backbone, 100M decoder Small: 3B backbone, 250M decoder Medium: 8B backbone, 300M decoder Each model was trained with a 2048 sequence length (~2 minutes of audio) over five epochs.
Our models will be available under an Apache 2.0 license.
Я НЕПЫНИМАЮ БЛЯДЬ Как и через что в комфиуи генерать голоса? Бля одну кастом ноду скачаешь, там не установить другие модели. Другую скачаешь, там блядь хуй знает какие-то расширения моделей используются, что хуй найдёешь. Я просто хочу слушать мурлыканье аниме девочек мне в ухо, но я хуй его знает что использовать, чтобы эту модель запустить.
На моей любимой РАБоте слушаю много аудиокниг, так как работаю говнарем на складе, и аудиокниги мое единственное развлечение. Но проблема в том, что большинство чтецов забрасывают произведения, оставляя сотни глав не озвученными. Я прогуглил и поизучал вместе с ответами от GAYgpt множество AI решений и проектов на github, НО столкнулся с тем что в большинстве локальные проекты заточены на святоанглийский. И это малая еще беда.
Изучены проекты: Coqui TTS Piper TTS VoxNovel VITS И дохуя всякий webui с "движками" Coqui TTS и Piper TTS.
Инпуты текстов ограничены в лучшем случае до 5к символов. А решения конверторов epub книг ехидно проводят по губам ругаясь на кодировки или отказываясь обрабатывать большие обьемы.
Даже разбив на множество глав тхт документы для простоты, мануально вводя по предложению, генерируя чанками, мы получаем кал калыч без грамматики так еще с уебской пунктуацией и разбивка на чанки дает ебучее затухание в начале и в конце чанка.
Вся беда этих локальный open source TTS, в том, что нет нормального подключения лексиконов правил грамматики и произношений и самих лексиконов толком то и нет.
Сейчас откапал на своем харде старенькую Ivona Voices, даже сохранились худо бедные лексиконы омографов, Е/Ё и тд. для голоса Tatyana.
Качество звучания - скрипя зубами, генерирует тексты в 22hz и иногда артефактами, но лучше чем google синтетический голос.
С этого всего вопрос к АНОНУ, знаешь ли ты какие нибудь тулы или другие решения для создания аудиокниг. Из серии хотя бы получше чем уровень говорилка.
>>1074507 Ответ получен, спасибо всем кто заглянул
>Нейроблядь в треде
Что можно попробовать Вот несколько вариантов, которые могут быть получше, чем текущие костыли:
A. Использовать старые коммерческие движки Ivona Voices (как у тебя): Да, качество звука там древнее (22kHz), но это реально один из лучших вариантов для русского языка. Если у тебя есть старые лексиконы и настройки — это вообще находка. Попробуй найти обновлённые версии Ivona или аналогичные движки (например, старую версию Balabolka с поддержкой SAPI5). Balabolka : Это не TTS сам по себе, но он может работать с разными голосами (включая Ivona) и конвертировать тексты в аудио. Плюс можно настроить паузы, интонации и даже подправить произношение через SSML (Speech Synthesis Markup Language). B. Попробовать современные онлайн-сервисы Yandex SpeechKit : У Яндекса есть свой TTS, который работает достаточно неплохо для русского языка. Качество лучше, чем у Google, особенно если выбирать женские голоса (например, "Оксана"). Можно автоматизировать через API, чтобы генерировать большие объёмы текста. Tinkoff VoiceKit : Ещё один русскоязычный TTS, который иногда работает даже лучше Яндекса. Поддерживает длинные тексты и имеет нормальные настройки интонации. Google Cloud TTS : Хотя ты говоришь, что их голоса уебские, но они поддерживают длинные тексты и SSML, что позволяет настраивать произношение и паузы. C. Нейросетевые решения Silero TTS : Это русскоязычный open-source проект, который реально неплохо работает. Голоса звучат естественно, и можно генерировать длинные тексты без затуханий. Попробуй его запустить локально — он легче, чем Coqui или Piper, и заточен именно под русский язык. Fish Speech : Новый проект, который активно развивается. Он умеет работать с длинными текстами и поддерживает русский язык. Качество звука на уровне современных стандартов (16-48kHz). D. Автоматизация и предобработка текста Разбиение текста : Используй скрипты на Python (например, через библиотеку nltk или spaCy) для разбиения текста на предложения или абзацы. Это поможет избежать проблем с чанками. SSML : Если TTS поддерживает SSML, то можно настроить паузы, ударения и произношение прямо в тексте. Например, добавить <break> для пауз или <phoneme> для правильного произношения сложных слов. Конвертеры EPUB : Попробуй использовать Calibre (он умеет конвертировать EPUB в TXT с сохранением форматирования) или написать свой парсер на Python. 3. Итог Если коротко:
Лучший вариант для старта — Silero TTS или Fish Speech. Они заточены под русский язык и работают локально. Если нужен онлайн — Yandex SpeechKit или Tinkoff VoiceKit. Для старых движков — Ivona + Balabolka с SSML. Но помни: идеального решения пока нет. Даже если найдёшь что-то получше "говорилки", всё равно придётся возиться с настройками, разбиением текста и лексиконами.
>>1074535 Привет, ГПТблядок! Почему ты даешь такие хуевые и неполные ответы? Сейчас батя Грок от вездесущего Илона Маска, лучшего гения современности, распишет тебя под лоха своим супердетальным ответом.
---
### Проблемы, которые ты описал: 1. Ограничения локальных TTS на русском: Coqui TTS, Piper TTS и прочие действительно плохо заточены под русский — словари ударений и грамматики либо отсутствуют, либо требуют ручной настройки. 2. Чанки и качество: разбивка текста на куски портит плавность, добавляет затухания и артефакты. 3. Ivona Voices: старенькая, но рабочая, сносное качество на 22 кГц, есть лексиконы, но всё равно звучит не идеально. 4. Обработка больших текстов: веб-интерфейсы и конвертеры либо ограничивают символы, либо косячат с кодировками.
Тебе нужно что-то, что: - Поддерживает русский язык с нормальными ударениями и интонацией. - Может обрабатывать большие тексты без необходимости ручной разбивки. - Дает качество лучше "говорилки" и хотя бы на уровне терпимого чтеца.
---
### Варианты решений
#### 1. Silero TTS (от Snakers4) - Что это: Open-source проект от российских разработчиков, специально заточенный под русский язык. Использует нейронные модели для синтеза речи. - Плюсы: - Качество голосов на голову выше Ivona, звучит естественно. - Есть готовые модели для русского (голоса вроде "Ксения", "Александр" и др.). - Работает локально, поддерживает длинные тексты без ограничений по символам. - Можно настроить интонации и скорость. - Минусы: - Нужно немного повозиться с установкой (Python, PyTorch, загрузка моделей с их GitHub). - Требует ударения в тексте (ставятся вручную символом `+`, например, "к+от"), но есть скрипты для автоматической расстановки. - Как попробовать: - Установи через `pip install torch torchaudio` и скачай модель с [репозитория Silero](https://github.com/snakers4/silero-models). - Пример кода для генерации: ```python import torch from omegaconf import OmegaConf language = 'ru' model_id = 'v4_ru' speaker = 'kseniya' device = torch.device('cpu') model, _ = torch.hub.load('snakers4/silero-models', 'silero_tts', language=language, speaker=speaker) model.to(device) audio = model.apply_tts(text="Прив+ет, это т+естовый текст!", sample_rate=24000) ``` - Сохраняй результат в WAV или MP3. - Итог: Если готов потратить час на установку и настройку, это твой лучший локальный вариант.
#### 2. RHVoice - Что это: Еще один open-source TTS, разработанный Ольгой Яковлевой, с упором на русский и украинский языки. - Плюсы: - Локальная работа, не требует интернета. - Поддерживает словари для коррекции произношения (можно подправить омографы вроде "зам+ок" vs "з+амок"). - Голоса "Анна", "Александр" и др. звучат лучше Ivona, хотя немного роботизированно. - Берет большие тексты без проблем. - Минусы: - Качество чуть ниже современных нейронок вроде Silero или Coqui. - Установка на Windows проще, чем на Linux/Mac, но всё равно требует рук. - Как попробовать: - Скачай с [официального сайта](https://rhvoice.org) или GitHub. - Используй с утилитой вроде Balabolka (о ней ниже) для удобства. - Итог: Простое и быстрое решение, если не хочешь заморачиваться с нейронками.
#### 3. Balabolka + Ivona/SAPI5 - Что это: Программа для Windows, которая работает с любыми SAPI5-голосами (включая твою Ivona Tatyana) и позволяет генерировать аудиофайлы из больших текстов. - Плюсы: - Поддерживает твои старые Ivona Voices и лексиконы омографов. - Обрабатывает целые книги в формате TXT, EPUB, DOC без ограничений. - Можно настроить паузы, скорость, тембр. - Экспорт в MP3/WAV без ручной разбивки. - Минусы: - Качество ограничено самой Ivona — выше головы не прыгнешь. - Интерфейс староват, но рабочий. - Как попробовать: - Скачай [Balabolka](http://www.cross-plus-a.com/balabolka.htm). - Укажи путь к тексту, выбери голос Ivona Tatyana, настрой словари и жми "Сохранить аудиофайл". - Итог: Если Ivona тебя пока устраивает, это самый простой способ автоматизировать процесс без допиливания.
#### 4. Коммерческие решения (если бюджет позволяет) - Яндекс SpeechKit: - API с голосами вроде "Филипп" или "Алёна", звучит очень естественно. - Поддерживает длинные тексты, но нужен интернет и оплата (около 4-5 рублей за 1000 символов). - Пример: загружаешь TXT через их консоль или скрипт, получаешь MP3. - **Google Cloud Text-to-Speech**: - Голоса WaveNet для русского — топ по качеству, но дорого (около $16 за миллион символов). - Требует API и немного кода. - **Amazon Polly**: - Голос "Татьяна" или "Максим" — качественные, русский поддерживается. - Цена: ~$4 за миллион символов. - **Итог**: Если готов вложить пару сотен рублей, получишь качество на уровне профессиональных чтецов.
#### 5. Хак с автоматической расстановкой ударений - Проблема с Silero и другими нейронками — ручная расстановка ударений. Есть обход: - Используй [Udict](https://udict.ru) или [Stress Rus](https://github.com/MarkedOne/stress-rus) для автоматической расстановки `+` перед ударными гласными. - Пример: "Привет, как дела?" → "Прив+ет, к+ак дел+а?" - Потом скорми это Silero или Coqui. - **Итог**: Решает проблему грамматики и произношения, но требует доп. шага.
---
### Рекомендация Если хочешь локальное и бесплатное — начни с **Silero TTS**. Оно современнее Ivona, качество лучше, и есть шанс автоматизировать процесс с помощью скриптов. Для старта: 1. Установи Silero. 2. Разбей книгу на главы (вручную или скриптом). 3. Используй Udict для ударений. 4. Генерируй аудио по главам и склей в MP3.
Если лень возиться, юзай **Balabolka** с Ivona — это твой минимум усилий прямо сейчас.
Есть вопросы или что-то конкретное уточнить — пиши, разберем. Удачи на складе, не скучай там!
>>1074630 Вау! Я поражен грамотной и структурированной подачей материала! Зная что существуют такие решения, мне не лень повозиться и разобраться.
Что то уже знакомо, из за использования stable diffusion, так что разберусь.
>- Яндекс SpeechKit (около 4-5 рублей за 1000 символов)
Да, у меня например одна книга в 12 000 000 символов меня обанкротит, поэтому не рассматриваю платные решения. Как никак 500 евро это мои все счета за жилье, сотовую связь и интернет лол.
Еще раз, спасибо Анон, за подробный и развернутый ответ!
Однако, на хаггине нельзя найти многие из тьюнов для популярных проектов, типа RVC. Такие тьюны выкладывают на отдельных сайтах и в профильных сообществах в дискорде.
-----
Сделал сводку обсуждаемых в прошлом треде (со ссылками на посты) новых открытых нейронок и инструментов, которые не были упомянуты в шапке/вики. Описания взяты с офф. страничек решений, сам пока толком ничего не попробовал.
Дайте знать, если где-то ввёл в заблуждение или забыл упомянуть что-то крутое.
Kokoro-TTS - мелкая, обученная энтузиастами TTS-модель, которая вот уже месяц сидит в топ-1 TTS-моделях по скачиваням (больше миллиона загрузок за месяц) на хаггине.
Датасет состоял из нескольких сотен часов, а для обучения было затрачено всего 500 GPU часов (A100 80GB).
✅ Веса в паблике ❌ Русский не поддерживается - поддерживаемые языки: английский, японский, китайский, испанский, хинди, итальянский и португальский
Особенности: - Клонирование голоса с нуля - Эмоциональный TTS - Обучен на 100 тысячах часов данных - Синтез длинных форм - Синтез с переменной скоростью - Двуязычный - китайский и английский
По отзыву анона, данный TTS близок по качеству к elevenlabs.
F5-TTS - это система преобразования текста в речь (TTS), которая была обучена на 100 000 часов аудиоданных. Она обладает рядом функций, таких как клонирование голоса без предварительного обучения, контроль скорости воспроизведения, синтез эмоций, синтез длинных текстов и поддержка переключения кодов ( https://ru.wikipedia.org/wiki/Переключение_кодов ).
Fish Speech - TTS с поддержкой войсклона, на заморском /g/ твердят что он рвёт XTTSv2 в щепки.
✅ Веса в паблике ❌ Русский не поддерживается - поддерживаемые языки: английский, японский, корейский, китайский, французский, немецкий, арабский и испанский
ChatTTS - ещё один TTS. Модель может прогнозировать и контролировать тонкие просодические особенности, включая смех, паузы и междометия. По заявлениям автора, превосходит большинство открытых TTS-моделей в плане просодии.
Основная модель обучена на китайском и английском аудиоматериале объемом более 100 000 часов. Открытая версия на HuggingFace - это предварительно обученная модель на 40 000 часов.
✅ Веса в паблике ❌ Русский не поддерживается - поддерживаются английский и китайский
Приложение FUDO добавляет функции голосового ввода в ваш телефон, интегрируясь с другими приложениями и клавиатурами, которые поддерживают стандартные API голосового ввода Android. Все обработка выполняется полностью в автономном режиме на вашем устройстве, и ваши записи НИКОГДА не сохраняются и не отправляются в другие места. Приложение подключается к Интернету только тогда, когда вы решаете скачать дополнительные модели. Приложение FUTO Voice Input обеспечивает конфиденциальность ваших данных.
✅ Веса в паблике - под капотом используется опенсорсный whisper от OpenAI ✅ Нативная поддержка русского
MARS5 - этот TTS, который позволяет создавать речь с разнообразной интонацией, такой как спортивные репортажи или озвучка аниме, используя всего 5 секунд аудио и текст.
OpenVoice - данная STS-система позволяет клонировать голос на разных языках с сохранением индивидуальных особенностей голоса человека - тембра, эмоций, акцента, ритма речи и т.п., даже если язык генерации не входил в тренировочный датасет системы (Zero-shot Cross-lingual Voice Cloning). В качестве референса для клонирования можно использовать небольшой отрывок голоса длиною в несколько секунд.
В апреле 2024 вышла версия OpenVoice v2 с улучшенным качеством генерации речи, нативной поддержкой шести языков (английский, испанский, французский, китайский, японский и корейский).
✅ Веса в паблике ⚠️ Заявлена поддержка любых языков, но русского не было в исходном датасете
Какая из локальных моделей может справиться с такой задачей? Например, заливаю ролик с озвучкой на английском языке, а ИИ переводит его на русский? В идеале озвучит, а не просто перевод в виде текста. Подскажите в какую тему идти, если не по адресу. Спасибо
>>1081215 Локальные модели с таким функционалом не встречал. Так что да, переводит с ютуба и твича. В принципе можно попердолится и сделать так чтоб переводил и локальные видео запущенные в браузере, но всем лень.
такс, способ рабочий, даже даёт сразу качнуть дорогу каким способом / софтом можно прикрутить дорогу к mp4, скодированному гуглом / тытрубой, без перекодирования видеодороги ? чтобы не всирать качество видео повторным кодированием
>>1084350 а я уже через LosslessCut https://github.com/mifi/lossless-cut всё замутила короче, - с высокой вероятностью перевод-дубляж бесплатно хуй где найдешь (убирание оригинального голоса + с сохранением музыки + наложение перевода новым голосом) - поэтому самое быстрое, бесплатное и без всяких ебучих регистраций на 300 видеопереводческих сайтах - получится перевод-MVO, гайд такой: 1. https://github.com/ilyhalight/voice-over-translation - хуйня которая переведёт тытрубу и выдаст тебе mp3 с переводом бездушной говорилки без сохранения оригинальной тональности, интонаций и музыки 2. плюсом качаешь ориг видос с тытрубы + извлекаешь оттуда ориг аудиодорогу 3. в любом аудиоредакторе делаешь MVO, соединяя оригинальную дорогу с переведённой, понижая громкость оригинала, чтобы MVO слышалось лучше и не воевало с оригинальной громкостью - получаешь новую ебейшую аудиодорогу 4. дальше либо сжимаешь видео заново с подменой аудиодороги (что хуже) или подменяешь без пережатия через LosslessCut или Avidemux (что лучше) 5. получаешь норм качество для бомжей за цену интернета
>>1084357 >LosslessCut тут поправочка, в релизах на гитхабе не видно релиза для винды, но на самой странице описания есть ссылка на виндузный релиз, который запускается и норм отрабатывает
>>1084357 весь этот вариант будет без наложения субтитров, но зато в любом браузере а с наложенными субтитрами можно сделать через второй вариант - запустить тытрубу в яндекс браузере и запустить перевод с авто наложением субтитров + записать экран
>>1074630 >3. Balabolka + Ivona/SAPI5 Не знаю насчет балаболки, но Ivona Reader для винды отлично справляется с большими текстами. Мне он трехсоткилобайтный текст зачитал. Единственный минус, что голос Татьяны мягко говоря заезженный и легко узнаваемый. Он может и надоесть. Для разнообразия я юзаю alltalk_tts, с которым можно использовать любой голос, если есть хотя бы десять секунд его записи. Минус в том, что генерируется много артефактов, да и максимальная длина текста по ощущениям где-то пять килобайт.
Хмм, а возможна ли такая схема? При которой через интернет, человек говорит в микрофон смартфона, это всё дело идёт на пк, воспринимается rvc как входящий звук, обрабатывается соответственно, и на выход он отсылает звук обратно на смартфон через его динамик собственно. Да, пинг будет знатный, но всё же.
>>1102874 Ну обзору год уже. Появился fish speech. вполне неплохо справляется, даже в интонацию местами попадает https://voca.ro/1depzg4heml5 ПроЁбывается со словами с Ё, в тексте их придется менять самому, ну и жеваный он произнес нормально только тогда, когда я написал его с двумя н
RVC как я понял особо перестали обновлять? В общем вопрос такой сталкивался кто с зависанием при преобразовании? Карта 4070 ti super, но почему-то при преобразовании rmvpe переодически происходит зависание и бесконечное преобразование. С чем это связано я так и не понял и это при том что преобразование через crepe работает стабильно, хоть и дольше.
Установил локальный Zonos.Выбираю русский язык модели "ru", а там поебота с акцентом каким-то чуркистанским. Это ловушка жокера или чонах? У кого было?
>>1055411 (OP) Анончики, пожалуйста, скажите, как по простому просто поменять голос? Скачал clonfish, микрофон вроде слышит, но голос не меняет. Скачал другую прогу, там эхо сильное, да и не факт, что голос меняет. Мне просто нужно, чтобы голос менялся в реальном времени, чтобы мои данные не хранились на сторонних серверах. Просто включил и голос поменялся, все, но почему так сложно то?
Анончики помогите пожалуйста. Мне нужен нормальный русский ттс, с каким ни будь милым голосом.
Я уже кучу всего перепробовал, коки говно, f5 tts с русском моделью тоже ударения говно, пробовал так же fish speech но тоже не то.
У силеры какие-то всратые голоса, я хочу полный оффлайн. Я думаю собрать silero Tts + rvcv2, насколько это годное решение, мб есть что-то более лучшее?
И ещё вопрос по поводу силеры, v4 модель какая-то ваще ужасная, или это я что-то не то делаю?
Денойзеры как будто ещё хуже делают. Как вообще это использовать?
А кто знает, откуда берут голоса для озвучивания типа всяких героев warcraft 3, именно русских, на huggingface только пиндоские. Это типа самому обучать проще, или искать где-то в дискордах кто поделится?
>>1148699 Чего такого? Тут качественная настройка текста. Постаброботка сверху накинули эмбиент. А по качеству самого голоса уровень обычной Silero TTS с кастомным конфигом. Не понимаю чему ты тут восхищаешься. Это даже не близко к уровню Элевенлабс.
Если тебе нужно озвучивать книжки качаешь Демагога с поддержкой КУДА ядер. https://disk.yandex.ru/d/O_jilqejPKIt1A накатываешь кастомную настройку голоса (просто делаешь с замаеной фаил model.pt после чего под названием Random будет кастомный голос Дмитрия, а не рандомный голос) https://disk.yandex.ru/d/_WDI3RvAeIpAVw
Все дальше как обычно открываешь книгу в демагоге скрипты>из файла>Silero>Text to Speech Диктором ставишь Рандома
Если тебя впечатлил эмбиент поверх озвучки добавить его тоже не сложно.
>>1151120 Ахуеньчик. А в демагоге можно как-то сделать удобно озвучку разными голосами, например выделив текст общения двух геров что бы один диалог зачитывало одним голосом а после другой уже другим?
>>1158380 Silero TTS пробовал? Вообще конечно в идеале самому править гласные, ну или скрипт поставить что бы он сам подставлял + на гласные, выходит очень годно, но иногда даже скрипт может насрать так что просто так озвучить идеально например книгу не получится.
>>1161794 Нет. Для этого все равно нужно во первых понимание питона во вторых умение писать правильный промпт. ИИ хорошо пишет код только тогда когда у тебя промпт составляет чуть ли не половину количества символов кода который ты хочешь получить.
>>1160175 Вот как раз Silero не пробовал, погоняю, спасибо. Но что-то сомневаюсь, что оно дотягивается по уровню до GPT-SoVITS на английском. Эта штука мне просто мозг взорвала, говорит как настоящий человек. Очень изредка проскакивают мелкие косяки, когда оно или глотает фонемы, или, наоборот, добавляет лишние, но в целом качество просто моё почтение. Даже эмоции есть.
>>1161794 ИИ неплохо пишет код, "общий" код. Типа "сделай мне на питоне экстрактор метаданных из всех картинок в папке, откуда происходит запуск скрипта" - запросто.
А когда у тебя уже чисто прикладная задача под какую-то конкретную среду - тут все сразу и ломается. "Напиши мне скрипт глушителя на lua для игры Project Zomboid" - и ИИ тут предскузаемо ничего сделать не сможет. Потому что у него нет знания, как там в игре всё работает. Тебе потребуется изучить внутрянку игры, понять это все самому, и потом уже, задав нужную базу в запросе, попросить написать нужный код.
Я вот хочу кнопку-экстеншн для вебуя автоматика закодить, которая делала бы очень простую вещь (апскейл полученной картинки последовательно два раза на заданных настройках), но так как я понятия не имею о структуре вебуя вообще и плагинов в частности - я даже не знаю, как роботу запрос составить. А разбираться лень.
>>1167063 Послушал и что-то не заметил косяков в ударениях в английском. Фишль, если что, девочка-чинубье, которая использует местами немецкие фразы - и вот с ними английская фонемизация чуть лажает (но не критично)
Насколько сложно будет с помощью нейросеток сделать переозвучку на русский фильма или аниме на уровне нормального даба? Т.е. не просто накинуть сверху на оригинальные голоса сгенерированную озвучку, но и потереть оригинальную. Насколько знаю можно найти "немые" фильмы в которых есть весь звук кроме озвучки. С такими будет куда проще работать, но вот с аниме или мультами такого нет. Почему таким никто не занимается? Оригинальные голоса с той же интонацией ведь всяко лучше чем фандаб?
>>1167612 > Насколько сложно будет с помощью нейросеток сделать переозвучку на русский фильма или аниме на уровне нормального даба? Т.е. не просто накинуть сверху на оригинальные голоса сгенерированную озвучку, но и потереть оригинальную.
Невозможно. Можешь попытаться сепарировать звуковую дорожку на голос и остальное, потом перевести, потом обратно слить, но почти наверняка будет кал.
> Насколько знаю можно найти "немые" фильмы в которых есть весь звук кроме озвучки. С такими будет куда проще работать, но вот с аниме или мультами такого нет.
Это обычно слитые монтажерами / студиями дубляжа версии. Встречаются крайне редко, можешь на них не рассчитывать особо.
> Почему таким никто не занимается? Оригинальные голоса с той же интонацией ведь всяко лучше чем фандаб?
>>1167612 >Почему таким никто не занимается? Потому что кропотливость работы над этим ебанутейшая, куда проще сесть и запилить говнодаб своим гнусавым голосом.
>>1169147 Кропотливость ок, но может же окупиться вполне. Хотел было сам попробовать, но из за РАБоты времени оч мало, а комп вполне производительный для запуска рендеров и нейронок
>>1169395 Посмотри на тот же анимевост. Знаешь в чем секрет их успеха и популярности? Скорость озвучки, часа не проходит, серия уже доступна. Ежедневно переводятся десятки аним. А сколько ты будешь пердолить хотя бы одну серию, часа 3? Ну удачи, че.
Попробовал обучить модель в RVC, обучал набором реплик на японском. Когда попытался заставить говорить по-русски - она начала говорить на нём с японским акцентом. Конечно, аутентично, но не то, что мне нужно. Как учить модели скармливая один язык, чтобы они говорили на другом без акцента? Elevenlabs же это как-то делает.
>>1158380 >TTS Я тоже только что начал искать что нового в TTS именно в ИИ, и нашёл что онлайн-сервисы (платные) читают лучше чем RHVoice, хотя есть и небольшие ошибки с датами и с ё.
Читают уже как настоящий диктор, но этот сервис платный, там что-то 20 000 символов в месяц бесплатных, ещё непонятно всегда или один раз.
поясните тупому как работают нейрокаверы? вот допустим у меня есть модель с голосом киркорова но если я дам ему промт со словами песни он же просто проговорит её а не споет, ведь откуда ему знать как петь? или как? я правильно понимаю что нужно взять файл без музыки где уже кто то что то спел и уже его как бы заменять голосом киркорова но уже со своим промтом?
>>1158380 >адекватные Короче, из бесплатных RHV и Microsoft Irina Desktop.
Может для улучшения звука ещё в Виндовс поставить эквалайзер, или в звуковом драйвере, там где фирменная утилита с эквалайзером и шаблонами звучаний типа "рок", "джаз", "опера", может поиграться настройками и ещё лучше будет.
А из платных - онлайн сервисы хорошо как диктор читают, ну и сохранить в мр3 у них тоже есть.
Купить гаджет для этой цели и всё. Есть типа смартфона по размеру шкатулка, там выбор голосов какой надо (женский, мужской, старый, молодой и т.д.). Через неё говорить и она меняет голос.
Ещё в Snapchat было лет 10 назад у школьников был тренд, там можно было петь в микрофон и голос менялся.
Ещё диджейские шкатулочки, всякие луперы, походу должны на ходу уметь менять голос, диджейскую миксер-машинку маленькую купить, подкл. к ней микрофон, ползунками выставить тон, высоту звука и т.д.
>>1183609 >>1183611 >>1183620 За готовность помочь и советы спасибо, но это все тоже не совсем то. Я хочу конкретный приятный мне голос заюзать. Насчёт небольшой задержки (где-то до полсекунды) - не проблема, текст все равно генерироваться будет локальной LLM-кой. Про "реальное время" я сказал скорее потому, чтобы отсечь варианты с онлайн-сервисами и прочим, где нужно закидывать сразу портянку текста и ждать.
>>1151489 >А в демагоге можно как-то сделать удобно озвучку разными голосами, например выделив текст общения двух геров что бы один диалог зачитывало одним голосом а после другой уже другим?
Господа, есть план озвучить существующую древнюю игру. Есть оригинальные голоса, хороший перевод на русский и еще пару языков, есть бюджет в пару сотен зеленых, нет знаний.
Идеальный результат это иметь озвучку со старыми голосами, но на новом языке. Голоса, как понимаю, не проблема, достаточно прогнать STS через RVC с нужной натренированной моделью, но я не очень знаю, как можно получить новое аудио на новом языке, но с сохранением интонаций.
Кто-нибудь пытался собрать андроид приложение с TTS движком, которое бы регистрировалось в системе как TTS движок, вместо встроенного от гугла? Какие результаты? Как производительность? Есть в гуглПлей или гитхабе?