Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 116 36 72
Голосовых нейронок тред (TTS, STS, STT) #7 speech /speech/ Аноним 16/02/25 Вск 12:20:27 1055411 1
17019563860200.mp4 477Кб, 396x298, 00:00:23
396x298
17074247947820.mp4 2886Кб, 384x480, 00:00:08
384x480
17204507036820.mp4 310Кб, 576x576, 00:00:14
576x576
17099193437742.mp4 1356Кб, 438x480, 00:00:58
438x480
Обсуждаем нейросети, связанные с синтезом, преобразованием и распознаванием речи. Не забываем публиковать свои шедевры в треде.

Прошлый тред: >> https://2ch.hk/ai/res/664162.html

Вики треда: https://2ch-ai.gitgud.site/wiki/speech/

FAQ

Q: Хочу озвучивать пасты с двача голосом Путина/Неко-Арк/и т.п.

1. Используешь любой инструмент для синтеза голоса из текста - есть локальные, есть онлайн через huggingface или в виде ботов в телеге:
https://2ch-ai.gitgud.site/wiki/speech/#синтез-голоса-из-текста-tts

Спейс без лимитов для EdgeTTS:
https://huggingface.co/spaces/NeuroSenko/rus-edge-tts-webui

Так же можно использовать проприетарный комбайн Soundworks (часть фич платная):
https://dmkilab.com/soundworks

2. Перегоняешь голос в нужный тебе через RVC. Для него есть огромное число готовых голосов, можно обучать свои модели:
https://2ch-ai.gitgud.site/wiki/speech/sts/rvc/rvc/

Q: Как делать нейрокаверы?

1. Делишь оригинальную дорожку на вокал и музыку при помощи Ultimate Vocal Remover:
https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/UVR

2. Преобразуешь дорожку с вокалом к нужному тебе голосу через RVC:
https://2ch-ai.gitgud.site/wiki/speech/sts/rvc/rvc/

3. Объединяешь дорожки при помощи Audacity или любой другой тулзы для работы с аудио

Опционально: на промежуточных этапах обрабатываешь дорожку - удаляешь шумы и прочую кривоту. Кто-то сам перепевает проблемные участки.

Качество нейрокаверов определяется в первую очередь тем, насколько качественно выйдет разделить дорожку на составляющие в виде вокальной части и инструменталки. Если в треке есть хор или беквокал, то земля пухом в попытке преобразовать это.

Нейрокаверы проще всего делаются на песни с небольшим числом инструментов - песня под соло гитару или пианино почти наверняка выйдет без серьёзных артефактов.

Q: Хочу говорить в дискорде/телеге голосом определённого персонажа.

Используй RVC (запуск через go-realtime-gui.bat) либо Voice Changer:
https://github.com/w-okada/voice-changer/blob/master/README_en.md

Гайд по Voice Changer, там же рассказывается, как настроить виртуальный микрофон:
https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/Voice‐Changer (часть ссылок похоже сдохла)

Q: Как обучить свою RVC-модель?

Гайд на русском: https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/RVC#создание-собственной-модели
Гайд на английском: https://docs.aihub.wtf/guide-to-create-a-model/model-training-rvc
Определить переобучение через TensorBoard: https://docs.aihub.wtf/guide-to-create-a-model/tensorboard-rvc
Если тыква вместо видеокарты, можно тренить в онлайне: https://www.kaggle.com/code/varaslaw/rvc-v2-no-gradio-https-t-me-aisingers-ru/notebook?scriptVersionId=143284909 (инструкция: https://www.youtube .com/watch?v=L-emE1pGUOM )

Q: Надо распознать текст с аудио/видео файла

Используй Whisper от OpenAI: https://github.com/openai/whisper
Быстрый скомпилированный для винды вариант: https://github.com/Purfview/whisper-standalone-win
Так же есть платные решения от Сбера/Яндекса/Тинькофф.

Коммерческие системы

https://elevenlabs.io перевод видео, синтез и преобразование голоса
https://heygen.com перевод видео с сохранением оригинального голоса и синхронизацией движения губ на видеопотоке. Так же доступны функции TTS и ещё что-то
https://app.suno.ai генератор композиций прямо из текста. Есть отдельный тред на доске >>

Шаблон для переката: https://2ch-ai.gitgud.site/wiki/speech/speech-shapka/
АНОН, ПОМОГАЙ Аноним 16/02/25 Вск 12:23:04 1055415 2
17019563860200.mp4 477Кб, 396x298, 00:00:23
396x298
НУЖНА ГОЛОСОВАЯ МОДЕЛЬ МЭДДИСОНА, как на видрил.

Все МОДЕЛИ, что удалось найти В ИНТЕРНЕТЕ, звучат намного хуже.
Аноним 16/02/25 Вск 12:55:20 1055428 3
бамп!
17/02/25 Пнд 10:10:13 1056814 4
>>1055411 (OP)
Это тупо копипаста старой шапки и ничего нового в ней за полгода? Ну ты и долбоёб, фагочушка к тому же. Всем кто отпишется без сажи рака яиц.
Аноним 17/02/25 Пнд 10:38:05 1056825 5
>>1055411 (OP)
Какие есть модели TTS, но чтобы работали в реалтайме, без ожидания генерации аудио. И возможность обучить модель на своих исходниках
Аноним 17/02/25 Пнд 11:32:20 1056841 6
>>1056814
Перекатывал бы тогда сам. Но ты же ленивый безрукий пидорас и хуесос, так что и эту шапку потерпишь, хуйло.
17/02/25 Пнд 23:52:24 1057564 7
>>1056825
Я б ответил, но не могу долго находиться в защкварном треде оп-хуя.
Аноним 18/02/25 Втр 12:18:27 1057995 8
>>1057564
Ты будешь терпеть, как и всегда терпел.
Аноним 18/02/25 Втр 18:10:08 1058516 9
>>1055415
Ты тупой штоле? там голосом написано и текстом проговорено я хуею какие же дегенераты на дваче
18/02/25 Втр 19:35:31 1058603 10
А что с шапкой? Посрал на опа-гея.
Аноним 18/02/25 Втр 23:00:35 1058975 11
Аноним 21/02/25 Птн 12:35:12 1062652 12
17401167341180.mp4 11284Кб, 1280x720, 00:01:32
1280x720
Аноним 21/02/25 Птн 15:20:02 1062837 13
Аноним 21/02/25 Птн 17:15:54 1062967 14
>>1058603
что не так с шапкой то?
Все как и раньше
Аноним 21/02/25 Птн 22:23:13 1063458 15
Нейрослоник4par[...].mp4 17723Кб, 640x360, 00:02:42
640x360
Аноним 22/02/25 Суб 04:42:09 1063813 16
Ебался всю ночь так нихуя и не установил.
RVC работает искаропки и работает заебись но не могу найти нормальный TTS.
Подскажите каким вы сейчас пользуетесь?
Сука триллион зависимостей установите то установите се ой работает только на петухон 1488 иди нахуй блядь
Аноним 28/02/25 Птн 16:59:25 1073727 17
https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice
https://github.com/SesameAILabs/csm
Dataset: We use a large dataset of publicly available audio, which we transcribe, diarize, and segment. After filtering, the dataset consists of approximately one million hours of predominantly English audio.

Model Sizes: We trained three model sizes, delineated by the backbone and decoder sizes:
Tiny: 1B backbone, 100M decoder
Small: 3B backbone, 250M decoder
Medium: 8B backbone, 300M decoder
Each model was trained with a 2048 sequence length (~2 minutes of audio) over five epochs.

Our models will be available under an Apache 2.0 license.
Аноним 28/02/25 Птн 20:21:04 1074110 18
image.png 1Кб, 146x81
146x81
Я НЕПЫНИМАЮ БЛЯДЬ
Как и через что в комфиуи генерать голоса? Бля одну кастом ноду скачаешь, там не установить другие модели. Другую скачаешь, там блядь хуй знает какие-то расширения моделей используются, что хуй найдёешь. Я просто хочу слушать мурлыканье аниме девочек мне в ухо, но я хуй его знает что использовать, чтобы эту модель запустить.
Аноним 01/03/25 Суб 02:43:23 1074507 19
>>1055411 (OP)
Я продублирую свой вопрос из /b/

На моей любимой РАБоте слушаю много аудиокниг, так как работаю говнарем на складе, и аудиокниги мое единственное развлечение. Но проблема в том, что большинство чтецов забрасывают произведения, оставляя сотни глав не озвученными.
Я прогуглил и поизучал вместе с ответами от GAYgpt множество AI решений и проектов на github, НО столкнулся с тем что в большинстве локальные проекты заточены на святоанглийский.
И это малая еще беда.

Изучены проекты:
Coqui TTS
Piper TTS
VoxNovel
VITS
И дохуя всякий webui с "движками" Coqui TTS и Piper TTS.


Инпуты текстов ограничены в лучшем случае до 5к символов. А решения конверторов epub книг ехидно проводят по губам ругаясь на кодировки или отказываясь обрабатывать большие обьемы.

Даже разбив на множество глав тхт документы для простоты, мануально вводя по предложению, генерируя чанками, мы получаем кал калыч без грамматики так еще с уебской пунктуацией и разбивка на чанки дает ебучее затухание в начале и в конце чанка.

Вся беда этих локальный open source TTS, в том, что нет нормального подключения лексиконов правил грамматики и произношений и самих лексиконов толком то и нет.

Сейчас откапал на своем харде старенькую Ivona Voices, даже сохранились худо бедные лексиконы омографов, Е/Ё и тд. для голоса Tatyana.

Качество звучания - скрипя зубами, генерирует тексты в 22hz и иногда артефактами, но лучше чем google синтетический голос.

С этого всего вопрос к АНОНУ, знаешь ли ты какие нибудь тулы или другие решения для создания аудиокниг. Из серии хотя бы получше чем уровень говорилка.

С меня нихуя, заранее иду нахуй.
Аноним 01/03/25 Суб 03:45:06 1074535 20
>>1074507
Ответ получен, спасибо всем кто заглянул

>Нейроблядь в треде

Что можно попробовать
Вот несколько вариантов, которые могут быть получше, чем текущие костыли:

A. Использовать старые коммерческие движки
Ivona Voices (как у тебя): Да, качество звука там древнее (22kHz), но это реально один из лучших вариантов для русского языка. Если у тебя есть старые лексиконы и настройки — это вообще находка. Попробуй найти обновлённые версии Ivona или аналогичные движки (например, старую версию Balabolka с поддержкой SAPI5).
Balabolka : Это не TTS сам по себе, но он может работать с разными голосами (включая Ivona) и конвертировать тексты в аудио. Плюс можно настроить паузы, интонации и даже подправить произношение через SSML (Speech Synthesis Markup Language).
B. Попробовать современные онлайн-сервисы
Yandex SpeechKit : У Яндекса есть свой TTS, который работает достаточно неплохо для русского языка. Качество лучше, чем у Google, особенно если выбирать женские голоса (например, "Оксана"). Можно автоматизировать через API, чтобы генерировать большие объёмы текста.
Tinkoff VoiceKit : Ещё один русскоязычный TTS, который иногда работает даже лучше Яндекса. Поддерживает длинные тексты и имеет нормальные настройки интонации.
Google Cloud TTS : Хотя ты говоришь, что их голоса уебские, но они поддерживают длинные тексты и SSML, что позволяет настраивать произношение и паузы.
C. Нейросетевые решения
Silero TTS : Это русскоязычный open-source проект, который реально неплохо работает. Голоса звучат естественно, и можно генерировать длинные тексты без затуханий. Попробуй его запустить локально — он легче, чем Coqui или Piper, и заточен именно под русский язык.
Fish Speech : Новый проект, который активно развивается. Он умеет работать с длинными текстами и поддерживает русский язык. Качество звука на уровне современных стандартов (16-48kHz).
D. Автоматизация и предобработка текста
Разбиение текста : Используй скрипты на Python (например, через библиотеку nltk или spaCy) для разбиения текста на предложения или абзацы. Это поможет избежать проблем с чанками.
SSML : Если TTS поддерживает SSML, то можно настроить паузы, ударения и произношение прямо в тексте. Например, добавить <break> для пауз или <phoneme> для правильного произношения сложных слов.
Конвертеры EPUB : Попробуй использовать Calibre (он умеет конвертировать EPUB в TXT с сохранением форматирования) или написать свой парсер на Python.
3. Итог
Если коротко:

Лучший вариант для старта — Silero TTS или Fish Speech. Они заточены под русский язык и работают локально.
Если нужен онлайн — Yandex SpeechKit или Tinkoff VoiceKit.
Для старых движков — Ivona + Balabolka с SSML.
Но помни: идеального решения пока нет. Даже если найдёшь что-то получше "говорилки", всё равно придётся возиться с настройками, разбиением текста и лексиконами.
Аноним 01/03/25 Суб 10:13:58 1074630 21
>>1074535
Привет, ГПТблядок! Почему ты даешь такие хуевые и неполные ответы? Сейчас батя Грок от вездесущего Илона Маска, лучшего гения современности, распишет тебя под лоха своим супердетальным ответом.

---

### Проблемы, которые ты описал:
1. Ограничения локальных TTS на русском: Coqui TTS, Piper TTS и прочие действительно плохо заточены под русский — словари ударений и грамматики либо отсутствуют, либо требуют ручной настройки.
2. Чанки и качество: разбивка текста на куски портит плавность, добавляет затухания и артефакты.
3. Ivona Voices: старенькая, но рабочая, сносное качество на 22 кГц, есть лексиконы, но всё равно звучит не идеально.
4. Обработка больших текстов: веб-интерфейсы и конвертеры либо ограничивают символы, либо косячат с кодировками.

Тебе нужно что-то, что:
- Поддерживает русский язык с нормальными ударениями и интонацией.
- Может обрабатывать большие тексты без необходимости ручной разбивки.
- Дает качество лучше "говорилки" и хотя бы на уровне терпимого чтеца.

---

### Варианты решений

#### 1. Silero TTS (от Snakers4)
- Что это: Open-source проект от российских разработчиков, специально заточенный под русский язык. Использует нейронные модели для синтеза речи.
- Плюсы:
- Качество голосов на голову выше Ivona, звучит естественно.
- Есть готовые модели для русского (голоса вроде "Ксения", "Александр" и др.).
- Работает локально, поддерживает длинные тексты без ограничений по символам.
- Можно настроить интонации и скорость.
- Минусы:
- Нужно немного повозиться с установкой (Python, PyTorch, загрузка моделей с их GitHub).
- Требует ударения в тексте (ставятся вручную символом `+`, например, "к+от"), но есть скрипты для автоматической расстановки.
- Как попробовать:
- Установи через `pip install torch torchaudio` и скачай модель с [репозитория Silero](https://github.com/snakers4/silero-models).
- Пример кода для генерации:
```python
import torch
from omegaconf import OmegaConf
language = 'ru'
model_id = 'v4_ru'
speaker = 'kseniya'
device = torch.device('cpu')
model, _ = torch.hub.load('snakers4/silero-models', 'silero_tts', language=language, speaker=speaker)
model.to(device)
audio = model.apply_tts(text="Прив+ет, это т+естовый текст!", sample_rate=24000)
```
- Сохраняй результат в WAV или MP3.
- Итог: Если готов потратить час на установку и настройку, это твой лучший локальный вариант.

#### 2. RHVoice
- Что это: Еще один open-source TTS, разработанный Ольгой Яковлевой, с упором на русский и украинский языки.
- Плюсы:
- Локальная работа, не требует интернета.
- Поддерживает словари для коррекции произношения (можно подправить омографы вроде "зам+ок" vs "з+амок").
- Голоса "Анна", "Александр" и др. звучат лучше Ivona, хотя немного роботизированно.
- Берет большие тексты без проблем.
- Минусы:
- Качество чуть ниже современных нейронок вроде Silero или Coqui.
- Установка на Windows проще, чем на Linux/Mac, но всё равно требует рук.
- Как попробовать:
- Скачай с [официального сайта](https://rhvoice.org) или GitHub.
- Используй с утилитой вроде Balabolka (о ней ниже) для удобства.
- Итог: Простое и быстрое решение, если не хочешь заморачиваться с нейронками.

#### 3. Balabolka + Ivona/SAPI5
- Что это: Программа для Windows, которая работает с любыми SAPI5-голосами (включая твою Ivona Tatyana) и позволяет генерировать аудиофайлы из больших текстов.
- Плюсы:
- Поддерживает твои старые Ivona Voices и лексиконы омографов.
- Обрабатывает целые книги в формате TXT, EPUB, DOC без ограничений.
- Можно настроить паузы, скорость, тембр.
- Экспорт в MP3/WAV без ручной разбивки.
- Минусы:
- Качество ограничено самой Ivona — выше головы не прыгнешь.
- Интерфейс староват, но рабочий.
- Как попробовать:
- Скачай [Balabolka](http://www.cross-plus-a.com/balabolka.htm).
- Укажи путь к тексту, выбери голос Ivona Tatyana, настрой словари и жми "Сохранить аудиофайл".
- Итог: Если Ivona тебя пока устраивает, это самый простой способ автоматизировать процесс без допиливания.

#### 4. Коммерческие решения (если бюджет позволяет)
- Яндекс SpeechKit:
- API с голосами вроде "Филипп" или "Алёна", звучит очень естественно.
- Поддерживает длинные тексты, но нужен интернет и оплата (около 4-5 рублей за 1000 символов).
- Пример: загружаешь TXT через их консоль или скрипт, получаешь MP3.
- **Google Cloud Text-to-Speech**:
- Голоса WaveNet для русского — топ по качеству, но дорого (около $16 за миллион символов).
- Требует API и немного кода.
- **Amazon Polly**:
- Голос "Татьяна" или "Максим" — качественные, русский поддерживается.
- Цена: ~$4 за миллион символов.
- **Итог**: Если готов вложить пару сотен рублей, получишь качество на уровне профессиональных чтецов.

#### 5. Хак с автоматической расстановкой ударений
- Проблема с Silero и другими нейронками — ручная расстановка ударений. Есть обход:
- Используй [Udict](https://udict.ru) или [Stress Rus](https://github.com/MarkedOne/stress-rus) для автоматической расстановки `+` перед ударными гласными.
- Пример: "Привет, как дела?" → "Прив+ет, к+ак дел+а?"
- Потом скорми это Silero или Coqui.
- **Итог**: Решает проблему грамматики и произношения, но требует доп. шага.

---

### Рекомендация
Если хочешь локальное и бесплатное — начни с **Silero TTS**. Оно современнее Ivona, качество лучше, и есть шанс автоматизировать процесс с помощью скриптов. Для старта:
1. Установи Silero.
2. Разбей книгу на главы (вручную или скриптом).
3. Используй Udict для ударений.
4. Генерируй аудио по главам и склей в MP3.

Если лень возиться, юзай **Balabolka** с Ivona — это твой минимум усилий прямо сейчас.

Есть вопросы или что-то конкретное уточнить — пиши, разберем. Удачи на складе, не скучай там!
Аноним 01/03/25 Суб 16:47:22 1074900 22
20160204090247e[...].jpg 41Кб, 500x396
500x396
>>1074630
Вау! Я поражен грамотной и структурированной подачей материала!
Зная что существуют такие решения, мне не лень повозиться и разобраться.

Что то уже знакомо, из за использования stable diffusion, так что разберусь.

>- Яндекс SpeechKit (около 4-5 рублей за 1000 символов)

Да, у меня например одна книга в 12 000 000 символов меня обанкротит, поэтому не рассматриваю платные решения. Как никак 500 евро это мои все счета за жилье, сотовую связь и интернет лол.

Еще раз, спасибо Анон, за подробный и развернутый ответ!
Аноним 01/03/25 Суб 23:51:49 1075373 23
>>1074900
Silero самая простая. Ставится в один клик
https://aloys.narod.ru/sof/1/demagog.htm

Fish Speech качественней но работает медленней.
Ставится в один клик через скрипт енжин Пинокио.
https://pinokio.computer/
Аноним 02/03/25 Вск 01:43:38 1075475 24
Прошу новоприбывших иметь ввиду, что шапка и вики давно не обновлялись и не содержат сведения о каких-либо новинках прошедшего года.

В качестве базы поиска голосовых моделей советую использовать huggingface, как наиболее крупное и актуальное хранилище открытых моделей.

Text to speech:
https://huggingface.co/models?pipeline_tag=text-to-speech&sort=trending

Speech to speech:
https://huggingface.co/models?pipeline_tag=audio-to-audio&sort=trending

Speech to text:
https://huggingface.co/models?pipeline_tag=automatic-speech-recognition&sort=trending

Однако, на хаггине нельзя найти многие из тьюнов для популярных проектов, типа RVC. Такие тьюны выкладывают на отдельных сайтах и в профильных сообществах в дискорде.

-----

Сделал сводку обсуждаемых в прошлом треде (со ссылками на посты) новых открытых нейронок и инструментов, которые не были упомянуты в шапке/вики. Описания взяты с офф. страничек решений, сам пока толком ничего не попробовал.

Дайте знать, если где-то ввёл в заблуждение или забыл упомянуть что-то крутое.

-----

Февраль 2025: >>1049742 →
https://github.com/Zyphra/Zonos
https://huggingface.co/Zyphra/Zonos-v0.1-transformer(Веса 3.25 GB)
https://maia.zyphra.com/audio

Zonos - TTS с поддержкой войсклона. По отзыву анона, модель показывает себя очень хорошо, по стабильности намного лучше fish-speech или E2-F5.

✅ Веса в паблике
❌ Русский не поддерживается - поддерживаемые языки: английский, японский, китайский, французский и немецкий

-----

Январь 2025: >>1013818 →
https://huggingface.co/spaces/hexgrad/Kokoro-TTS
https://huggingface.co/hexgrad/Kokoro-82M

Kokoro-TTS - мелкая, обученная энтузиастами TTS-модель, которая вот уже месяц сидит в топ-1 TTS-моделях по скачиваням (больше миллиона загрузок за месяц) на хаггине.

Датасет состоял из нескольких сотен часов, а для обучения было затрачено всего 500 GPU часов (A100 80GB).

✅ Веса в паблике
❌ Русский не поддерживается - поддерживаемые языки: английский, японский, китайский, испанский, хинди, итальянский и португальский

-----

Ноябрь 2024: >>936013 →
https://huggingface.co/amphion/MaskGCT
https://huggingface.co/spaces/amphion/maskgct
https://x.com/reach_vb/status/1851629504348754202

MaskGCT - очередной TTS.

Особенности:
- Клонирование голоса с нуля
- Эмоциональный TTS
- Обучен на 100 тысячах часов данных
- Синтез длинных форм
- Синтез с переменной скоростью
- Двуязычный - китайский и английский

По отзыву анона, данный TTS близок по качеству к elevenlabs.

✅ Веса в паблике
❌ Русский не поддерживается

-----

Ноябрь 2024: >>917559 →
https://github.com/SWivid/F5-TTS
https://huggingface.co/SWivid/F5-TTS
https://huggingface.co/spaces/mrfakename/E2-F5-TTS

F5-TTS - это система преобразования текста в речь (TTS), которая была обучена на 100 000 часов аудиоданных. Она обладает рядом функций, таких как клонирование голоса без предварительного обучения, контроль скорости воспроизведения, синтез эмоций, синтез длинных текстов и поддержка переключения кодов ( https://ru.wikipedia.org/wiki/Переключение_кодов ).

✅ Веса в паблике
⚠️ Базовая модель не поддерживает русский язык, но есть одобренный оригинальным разработчиком русскоязычный файнтьюн: https://github.com/SWivid/F5-TTS/blob/main/src/f5_tts/infer/SHARED.md#russian

-----

Сентябрь 2024: >>883788 →
https://github.com/fishaudio/fish-speech
https://huggingface.co/fishaudio/fish-speech-1.4
https://huggingface.co/fishaudio/fish-agent-v0.1-3b
https://huggingface.co/spaces/fishaudio/fish-speech-1
https://speech.fish.audio/#windows-setup
https://fish.audio/text-to-speech/

Fish Speech - TTS с поддержкой войсклона, на заморском /g/ твердят что он рвёт XTTSv2 в щепки.

✅ Веса в паблике
❌ Русский не поддерживается - поддерживаемые языки: английский, японский, корейский, китайский, французский, немецкий, арабский и испанский

-----

Июль 2024 (сам проект начался в мае 2024): >>815109 →
https://github.com/2noise/ChatTTS
https://huggingface.co/2Noise/ChatTTS

ChatTTS - ещё один TTS. Модель может прогнозировать и контролировать тонкие просодические особенности, включая смех, паузы и междометия. По заявлениям автора, превосходит большинство открытых TTS-моделей в плане просодии.

Основная модель обучена на китайском и английском аудиоматериале объемом более 100 000 часов. Открытая версия на HuggingFace - это предварительно обученная модель на 40 000 часов.

✅ Веса в паблике
❌ Русский не поддерживается - поддерживаются английский и китайский

-----

Июнь 2024: >>802138 →
https://play.google.com/store/apps/details?id=org.futo.voiceinput
https://github.com/futo-org/voice-input

Приложение FUDO добавляет функции голосового ввода в ваш телефон, интегрируясь с другими приложениями и клавиатурами, которые поддерживают стандартные API голосового ввода Android. Все обработка выполняется полностью в автономном режиме на вашем устройстве, и ваши записи НИКОГДА не сохраняются и не отправляются в другие места. Приложение подключается к Интернету только тогда, когда вы решаете скачать дополнительные модели. Приложение FUTO Voice Input обеспечивает конфиденциальность ваших данных.

✅ Веса в паблике - под капотом используется опенсорсный whisper от OpenAI
✅ Нативная поддержка русского

-----

Июнь 2024: >>800694 →
https://www.camb.ai
https://github.com/Camb-ai/MARS5-TTS

MARS5 - этот TTS, который позволяет создавать речь с разнообразной интонацией, такой как спортивные репортажи или озвучка аниме, используя всего 5 секунд аудио и текст.

⚠️ В публичный доступ выложена только англоязычная модель, прочие модели доступны только онлайн: https://github.com/Camb-ai/MARS5-TTS/issues/77#issuecomment-2236018914
⚠️ Русский доступен только в веб-сервисе

-----

Апрель 2024: >>667657 →
https://research.myshell.ai/open-voice
https://github.com/myshell-ai/OpenVoice/
https://github.com/Alienpups/OpenVoice/blob/main/docs/USAGE_WINDOWS.md

OpenVoice - данная STS-система позволяет клонировать голос на разных языках с сохранением индивидуальных особенностей голоса человека - тембра, эмоций, акцента, ритма речи и т.п., даже если язык генерации не входил в тренировочный датасет системы (Zero-shot Cross-lingual Voice Cloning). В качестве референса для клонирования можно использовать небольшой отрывок голоса длиною в несколько секунд.

В апреле 2024 вышла версия OpenVoice v2 с улучшенным качеством генерации речи, нативной поддержкой шести языков (английский, испанский, французский, китайский, японский и корейский).

✅ Веса в паблике
⚠️ Заявлена поддержка любых языков, но русского не было в исходном датасете
Аноним 03/03/25 Пнд 19:43:06 1077751 25
Аноним 05/03/25 Срд 06:00:04 1080693 26
Какая из локальных моделей может справиться с такой задачей? Например, заливаю ролик с озвучкой на английском языке, а ИИ переводит его на русский? В идеале озвучит, а не просто перевод в виде текста.
Подскажите в какую тему идти, если не по адресу. Спасибо
Аноним 05/03/25 Срд 08:46:01 1080758 27
chrome.05.Март.[...].png 33Кб, 1914x191
1914x191
>>1080693
Локальных моделей не находил. ИМХО проще всего использовать интернет API от яндекса.
Аноним 05/03/25 Срд 14:36:41 1081215 28
>>1080758
А локальные видео (на пк) он переводит? Или только потоковые с ютуба к примеру
Аноним 05/03/25 Срд 16:41:51 1081366 29
>>1081215
Локальные модели с таким функционалом не встречал. Так что да, переводит с ютуба и твича. В принципе можно попердолится и сделать так чтоб переводил и локальные видео запущенные в браузере, но всем лень.
Аноним 06/03/25 Чтв 19:28:03 1083443 30
image.png 69Кб, 757x973
757x973
кто может перевести с инглиша на русиш ?
елевен лабс меня нахуй посылает

вот сурсы:
https://www.youtube.com/watch?v=yyUrw8TJDHM No Photographs of Earth!
https://www.youtube.com/watch?v=BJZ9sqvH9dY Puppet Show
https://www.youtube.com/watch?v=S1D65NMBfmo Do you still believe we went to the moon?
https://www.youtube.com/watch?v=WcqKUhU0WDc Space is Fake!
https://www.youtube.com/watch?v=bS4jPjs6JPw Welcome to the Satellite Hoax

mp4 есть в этих постах # 68 69 70
https://2ch.hk/zog/res/836637.html#859519
https://2ch.hk/zog/res/836637.html#859520
https://2ch.hk/zog/res/836637.html#859521
Аноним 06/03/25 Чтв 19:38:33 1083456 31
Аноним 07/03/25 Птн 03:30:00 1084222 32
Аноним 07/03/25 Птн 06:35:38 1084338 33
image.png 17Кб, 468x353
468x353
>>1084222

такс, способ рабочий, даже даёт сразу качнуть дорогу
каким способом / софтом можно прикрутить дорогу к mp4, скодированному гуглом / тытрубой, без перекодирования видеодороги ? чтобы не всирать качество видео повторным кодированием
Аноним 07/03/25 Птн 07:13:13 1084350 34
>>1084338
Avidenux просто выбери в настройках копирование дорожки без пережатия.
Аноним 07/03/25 Птн 07:27:55 1084357 35
>>1084350
а я уже через LosslessCut https://github.com/mifi/lossless-cut всё замутила
короче,
- с высокой вероятностью перевод-дубляж бесплатно хуй где найдешь (убирание оригинального голоса + с сохранением музыки + наложение перевода новым голосом)
- поэтому самое быстрое, бесплатное и без всяких ебучих регистраций на 300 видеопереводческих сайтах - получится перевод-MVO, гайд такой:
1. https://github.com/ilyhalight/voice-over-translation - хуйня которая переведёт тытрубу и выдаст тебе mp3 с переводом бездушной говорилки без сохранения оригинальной тональности, интонаций и музыки
2. плюсом качаешь ориг видос с тытрубы + извлекаешь оттуда ориг аудиодорогу
3. в любом аудиоредакторе делаешь MVO, соединяя оригинальную дорогу с переведённой, понижая громкость оригинала, чтобы MVO слышалось лучше и не воевало с оригинальной громкостью - получаешь новую ебейшую аудиодорогу
4. дальше либо сжимаешь видео заново с подменой аудиодороги (что хуже) или подменяешь без пережатия через LosslessCut или Avidemux (что лучше)
5. получаешь норм качество для бомжей за цену интернета
Аноним 07/03/25 Птн 07:28:55 1084358 36
>>1084357
>LosslessCut
тут поправочка, в релизах на гитхабе не видно релиза для винды, но на самой странице описания есть ссылка на виндузный релиз, который запускается и норм отрабатывает
Аноним 07/03/25 Птн 07:30:44 1084360 37
>>1084357
весь этот вариант будет без наложения субтитров, но зато в любом браузере
а с наложенными субтитрами можно сделать через второй вариант - запустить тытрубу в яндекс браузере и запустить перевод с авто наложением субтитров + записать экран
Аноним 07/03/25 Птн 07:54:09 1084369 38
>>1084357
>2.извлекаешь оттуда ориг аудиодорогу
кстати извлечь можно тоже через LosslessCut
Аноним 08/03/25 Суб 10:55:12 1085921 39
>>1074507

Яндекс читалка отлично озвучивает книги, ничего лучшего не видел.
Аноним 12/03/25 Срд 00:10:35 1093303 40
Аноним 12/03/25 Срд 20:33:04 1094864 41
>>1074630
>3. Balabolka + Ivona/SAPI5
Не знаю насчет балаболки, но Ivona Reader для винды отлично справляется с большими текстами. Мне он трехсоткилобайтный текст зачитал. Единственный минус, что голос Татьяны мягко говоря заезженный и легко узнаваемый. Он может и надоесть.
Для разнообразия я юзаю alltalk_tts, с которым можно использовать любой голос, если есть хотя бы десять секунд его записи. Минус в том, что генерируется много артефактов, да и максимальная длина текста по ощущениям где-то пять килобайт.
Аноним 13/03/25 Чтв 17:41:12 1095913 42
17418763453400.mp4 2886Кб, 384x480, 00:00:08
384x480
У КОГО ЕСТЬ ПЛАТНИК ELEVEN LABS ?

МОЖЕТЕ НАЗАД ПЕРЕВЕСТИ С ФРАНЦУЗСКОГО НА РУС ?

интересует не оригинал, а именно перевод назад
Аноним 13/03/25 Чтв 19:30:22 1095979 43
Хмм, а возможна ли такая схема? При которой через интернет, человек говорит в микрофон смартфона, это всё дело идёт на пк, воспринимается rvc как входящий звук, обрабатывается соответственно, и на выход он отсылает звук обратно на смартфон через его динамик собственно. Да, пинг будет знатный, но всё же.
Аноним 13/03/25 Чтв 23:00:27 1096340 44
LkEKQMrbp6.png 67Кб, 910x727
910x727
Аноним 14/03/25 Птн 02:01:33 1096506 45
Аноним 14/03/25 Птн 08:44:13 1096611 46
>>1095979
Да в принципе легко, но смысла нет. Производительности смартфона достаточно чтоб обрабатывать звук стационарно на смартфоне.
Аноним 14/03/25 Птн 16:00:49 1096994 47
В общем, есть монолог на русском. Я хочу его переозвучить голосом фурины. Как это сделать проще всего?
Аноним 18/03/25 Втр 11:35:41 1102874 48
Аноним 22/03/25 Суб 02:07:30 1106985 49
Есть что-то лучше, нежели RVC, для риалтайм изменения войса?
Аноним 22/03/25 Суб 10:18:49 1107293 50
>>1102874
Ну обзору год уже.
Появился fish speech. вполне неплохо справляется, даже в интонацию местами попадает
https://voca.ro/1depzg4heml5
ПроЁбывается со словами с Ё, в тексте их придется менять самому, ну и жеваный он произнес нормально только тогда, когда я написал его с двумя н
Аноним 25/03/25 Втр 11:40:46 1110886 51
RVC как я понял особо перестали обновлять? В общем вопрос такой сталкивался кто с зависанием при преобразовании? Карта 4070 ti super, но почему-то при преобразовании rmvpe переодически происходит зависание и бесконечное преобразование. С чем это связано я так и не понял и это при том что преобразование через crepe работает стабильно, хоть и дольше.
Реквест Аноним 25/03/25 Втр 11:42:50 1110889 52
drinking.mp4 6772Кб, 640x358, 00:00:10
640x358
Пьянка это сила2.mp4 1895Кб, 640x358, 00:00:22
640x358
Может кто-то получше ориг с русского на английский прогнать? Чтобы голоса сохранились
Аноним 26/03/25 Срд 06:43:02 1112622 53
Установил локальный Zonos.Выбираю русский язык модели "ru", а там поебота с акцентом каким-то чуркистанским. Это ловушка жокера или чонах? У кого было?
Аноним 26/03/25 Срд 07:00:23 1112626 54
>>1112622
Прочитал тред и разобрался. Всех благ анону >>1075475
Аноним 28/03/25 Птн 00:31:00 1116680 55
>>1055411 (OP)
Анончики, пожалуйста, скажите, как по простому просто поменять голос? Скачал clonfish, микрофон вроде слышит, но голос не меняет.
Скачал другую прогу, там эхо сильное, да и не факт, что голос меняет.
Мне просто нужно, чтобы голос менялся в реальном времени, чтобы мои данные не хранились на сторонних серверах. Просто включил и голос поменялся, все, но почему так сложно то?
Аноним 30/03/25 Вск 06:17:53 1120433 56
Анончики помогите пожалуйста. Мне нужен нормальный русский ттс, с каким ни будь милым голосом.

Я уже кучу всего перепробовал, коки говно, f5 tts с русском моделью тоже ударения говно, пробовал так же fish speech но тоже не то.

У силеры какие-то всратые голоса, я хочу полный оффлайн.
Я думаю собрать silero Tts + rvcv2, насколько это годное решение, мб есть что-то более лучшее?

И ещё вопрос по поводу силеры, v4 модель какая-то ваще ужасная, или это я что-то не то делаю?

Денойзеры как будто ещё хуже делают. Как вообще это использовать?
Аноним 31/03/25 Пнд 14:27:54 1122797 57
Аноним 31/03/25 Пнд 15:07:21 1122847 58
image.png 39Кб, 439x745
439x745
Есть варики заабузить minimax audio? Кредиты обновляются, но попытки контроля эмоций нет. Смена аккаунта, очистка кеша, VPN не работают.
Аноним 05/04/25 Суб 00:09:08 1131445 59
>>1106985
В итоге на rvc остановился или что-то другое нашел?
Аноним 06/04/25 Вск 20:30:12 1134438 60
обучил модель в войсчейнджере модель, но RVC отказывается есть, ругается на конфиг. Не сталкивался никто?
Аноним 10/04/25 Чтв 21:00:17 1144457 61
А кто знает, откуда берут голоса для озвучивания типа всяких героев warcraft 3, именно русских, на huggingface только пиндоские. Это типа самому обучать проще, или искать где-то в дискордах кто поделится?
Аноним 12/04/25 Суб 19:55:49 1148699 62
Аноним 13/04/25 Вск 23:25:22 1151120 63
Demagog.14.Апре[...].png 55Кб, 1172x741
1172x741
Demagog.14.Апре[...].png 23Кб, 1172x741
1172x741
Demagog.14.Апре[...].png 44Кб, 1172x741
1172x741
>>1148699
Чего такого? Тут качественная настройка текста. Постаброботка сверху накинули эмбиент. А по качеству самого голоса уровень обычной Silero TTS с кастомным конфигом. Не понимаю чему ты тут восхищаешься. Это даже не близко к уровню Элевенлабс.

Если тебе нужно озвучивать книжки качаешь Демагога с поддержкой КУДА ядер.
https://disk.yandex.ru/d/O_jilqejPKIt1A
накатываешь кастомную настройку голоса (просто делаешь с замаеной фаил model.pt после чего под названием Random будет кастомный голос Дмитрия, а не рандомный голос)
https://disk.yandex.ru/d/_WDI3RvAeIpAVw

Все дальше как обычно открываешь книгу в демагоге
скрипты>из файла>Silero>Text to Speech
Диктором ставишь Рандома

Если тебя впечатлил эмбиент поверх озвучки добавить его тоже не сложно.
Аноним 13/04/25 Вск 23:36:52 1151128 64
hsyeopuj00001.mp4 5215Кб, 320x240, 00:11:37
320x240
>>1148699
Пример работы Силеро на кастомном голосе
Аноним 14/04/25 Пнд 09:39:53 1151489 65
>>1151120
Ахуеньчик. А в демагоге можно как-то сделать удобно озвучку разными голосами, например выделив текст общения двух геров что бы один диалог зачитывало одним голосом а после другой уже другим?
Аноним 14/04/25 Пнд 09:49:27 1151497 66
>>1151489
Нет. Хотя можно самому накалякать скрипт в питоне но всем лень.
Аноним 16/04/25 Срд 22:22:57 1158380 67
>>1075475
Есть ли сейчас какие-то более-менее адекватные TTS с хорошей поддержкой русского?

Пока что из того, что я перепробовал, даже древнючий RHVoice никто переплюнуть не может.

Неужели никому это не интересно? Тот же SoVITS допилить, например...
Аноним 17/04/25 Чтв 20:23:09 1160175 68
>>1158380
Silero TTS пробовал? Вообще конечно в идеале самому править гласные, ну или скрипт поставить что бы он сам подставлял + на гласные, выходит очень годно, но иногда даже скрипт может насрать так что просто так озвучить идеально например книгу не получится.
Аноним 18/04/25 Птн 01:05:54 1160922 69
asef awew3a3ta awefasdf
Аноним 18/04/25 Птн 05:57:52 1161794 70
>>1151497
>>1160175
>скрипт
Сейчас же трудности нет накалякать скрипты даже если питона не знаешь, с помочью нейросетки?
Аноним 18/04/25 Птн 06:27:44 1161816 71
>>1161794
Нет. Для этого все равно нужно во первых понимание питона во вторых умение писать правильный промпт. ИИ хорошо пишет код только тогда когда у тебя промпт составляет чуть ли не половину количества символов кода который ты хочешь получить.
Аноним 18/04/25 Птн 10:45:27 1161940 72
>>1160175
Вот как раз Silero не пробовал, погоняю, спасибо. Но что-то сомневаюсь, что оно дотягивается по уровню до GPT-SoVITS на английском. Эта штука мне просто мозг взорвала, говорит как настоящий человек. Очень изредка проскакивают мелкие косяки, когда оно или глотает фонемы, или, наоборот, добавляет лишние, но в целом качество просто моё почтение. Даже эмоции есть.
Аноним 18/04/25 Птн 12:57:05 1162037 73
>>1160175
>>1161940
Чет попробовал Silero, вообще не понравился. Озвучивает не то чтоб плохо, но металлические призвуки очень явно слышны.
Аноним 18/04/25 Птн 17:27:51 1162521 74
>>1161794
ИИ неплохо пишет код, "общий" код.
Типа "сделай мне на питоне экстрактор метаданных из всех картинок в папке, откуда происходит запуск скрипта" - запросто.

А когда у тебя уже чисто прикладная задача под какую-то конкретную среду - тут все сразу и ломается.
"Напиши мне скрипт глушителя на lua для игры Project Zomboid" - и ИИ тут предскузаемо ничего сделать не сможет. Потому что у него нет знания, как там в игре всё работает.
Тебе потребуется изучить внутрянку игры, понять это все самому, и потом уже, задав нужную базу в запросе, попросить написать нужный код.

Я вот хочу кнопку-экстеншн для вебуя автоматика закодить, которая делала бы очень простую вещь (апскейл полученной картинки последовательно два раза на заданных настройках), но так как я понятия не имею о структуре вебуя вообще и плагинов в частности - я даже не знаю, как роботу запрос составить. А разбираться лень.
Аноним 18/04/25 Птн 20:06:59 1162886 75
Друже, подскажите бесплатные программы для липсинка
Аноним 19/04/25 Суб 16:55:19 1164266 76
>>1161940
>SoVITS
а можно примерчиков озвучки в студию?
прежде чем качать и устанавливать хотелось бы на реальные примеры глянуть.
Аноним 19/04/25 Суб 18:31:51 1164467 77
>>1164266
Доберусь до машины на днях - сделаю.
Аноним 20/04/25 Вск 21:18:49 1166684 78
FischlHello.mp4 216Кб, 1080x1920, 00:00:14
1080x1920
FischlWorldBeast.mp4 345Кб, 1080x1920, 00:00:28
1080x1920
Снимок экрана20[...].png 338Кб, 1701x1317
1701x1317
>>1164266
>>1164467
Ну собсно вот. Взял одну из фраз Фишли отсюда как референс: https://genshin-impact.fandom.com/wiki/Fischl/Voice-Overs , и сгенерировал две другие. Получилось, как по мне, просто идеально. Если бы мне не сказали, что это не оригиналы, я бы в жизни не догадался.
Аноним 20/04/25 Вск 21:39:01 1166700 79
Блеадь... Оставил на выходные piper файн-тюниться. Прихожу домой - был скачок света, все результаты похерились. Ну ебаный в рот, ну...
Аноним 21/04/25 Пнд 05:24:18 1167063 80
>>1166684
>Если бы мне не сказали, что это не оригиналы, я бы в жизни не догадался.
Так слышно же искусственность и неправильные ударения.
Аноним 21/04/25 Пнд 09:03:16 1167158 81
>>1167063
Ну да, я немного перегнул, каюсь, но НАСТОЛЬКО хороших результатов я не ожидал. С этим вполне можно жить.

Оно еще изредка может скипнуть фонему или воткнуть лишнюю, но, честно говоря, это все равно на голову лучше всего остального, что мне встречалось.

Ударения, кстати, можно расставить руками / LLM-кой, в принципе-то. Будет еще лучше.
Аноним 21/04/25 Пнд 09:20:49 1167172 82
>>1167063
Послушал и что-то не заметил косяков в ударениях в английском. Фишль, если что, девочка-чинубье, которая использует местами немецкие фразы - и вот с ними английская фонемизация чуть лажает (но не критично)
Аноним 21/04/25 Пнд 14:47:31 1167612 83
Насколько сложно будет с помощью нейросеток сделать переозвучку на русский фильма или аниме на уровне нормального даба? Т.е. не просто накинуть сверху на оригинальные голоса сгенерированную озвучку, но и потереть оригинальную. Насколько знаю можно найти "немые" фильмы в которых есть весь звук кроме озвучки. С такими будет куда проще работать, но вот с аниме или мультами такого нет.
Почему таким никто не занимается? Оригинальные голоса с той же интонацией ведь всяко лучше чем фандаб?
Аноним 21/04/25 Пнд 14:52:37 1167624 84
>>1167612
> Насколько сложно будет с помощью нейросеток сделать переозвучку на русский фильма или аниме на уровне нормального даба? Т.е. не просто накинуть сверху на оригинальные голоса сгенерированную озвучку, но и потереть оригинальную.

Невозможно. Можешь попытаться сепарировать звуковую дорожку на голос и остальное, потом перевести, потом обратно слить, но почти наверняка будет кал.

> Насколько знаю можно найти "немые" фильмы в которых есть весь звук кроме озвучки. С такими будет куда проще работать, но вот с аниме или мультами такого нет.

Это обычно слитые монтажерами / студиями дубляжа версии. Встречаются крайне редко, можешь на них не рассчитывать особо.

> Почему таким никто не занимается? Оригинальные голоса с той же интонацией ведь всяко лучше чем фандаб?

Потому что на выходе кал получается.
Аноним 22/04/25 Втр 04:13:46 1169147 85
>>1167612
>Почему таким никто не занимается?
Потому что кропотливость работы над этим ебанутейшая, куда проще сесть и запилить говнодаб своим гнусавым голосом.
Аноним 22/04/25 Втр 09:23:06 1169395 86
>>1169147
Кропотливость ок, но может же окупиться вполне. Хотел было сам попробовать, но из за РАБоты времени оч мало, а комп вполне производительный для запуска рендеров и нейронок
Аноним 22/04/25 Втр 13:16:21 1169698 87
>>1169395
Посмотри на тот же анимевост. Знаешь в чем секрет их успеха и популярности? Скорость озвучки, часа не проходит, серия уже доступна. Ежедневно переводятся десятки аним. А сколько ты будешь пердолить хотя бы одну серию, часа 3? Ну удачи, че.
Аноним 23/04/25 Срд 15:04:58 1171482 88
test.webm 253Кб, 684x372, 00:00:11
684x372
Анон, в чем может быть причина, почему артефачит голос?
Аноним 24/04/25 Чтв 20:56:22 1173776 89
Попробовал обучить модель в RVC, обучал набором реплик на японском. Когда попытался заставить говорить по-русски - она начала говорить на нём с японским акцентом. Конечно, аутентично, но не то, что мне нужно. Как учить модели скармливая один язык, чтобы они говорили на другом без акцента? Elevenlabs же это как-то делает.
Аноним 27/04/25 Вск 21:31:36 1179437 90
>>1162037
Металл в голосе появился только в 4 версии. В старой 3,1 никакого металла нет. Вот семпл, где там металл? >>1151128
Аноним 28/04/25 Пнд 15:57:21 1180854 91
Тестирую RVC, заметил, что очень аутпут частенько шепелявит, или вставляет много звуков "с".

Как поправить дикцию? Или это косяк используемых моделей?
Аноним 28/04/25 Пнд 16:56:08 1180925 92
>>1180854
Ползунками настойки. Температура, пич и вот это вот все остальное.
Аноним 28/04/25 Пнд 23:29:29 1181625 93
Так что теперь? TTS Нейросети лучше читают тексты чем те программы голосовых движков что были раньше?
Аноним 29/04/25 Втр 02:30:03 1181811 94
20к.JPG 91Кб, 928x851
928x851
Маркс Разоблач[...].mkv 2450Кб, 334x352, 00:00:59
334x352
>>1158380
>TTS
Я тоже только что начал искать что нового в TTS именно в ИИ, и нашёл что онлайн-сервисы (платные) читают лучше чем RHVoice, хотя есть и небольшие ошибки с датами и с ё.

Читают уже как настоящий диктор, но этот сервис платный, там что-то 20 000 символов в месяц бесплатных, ещё непонятно всегда или один раз.
Аноним 29/04/25 Втр 04:48:44 1181909 95
VIIXIXII.JPG 78Кб, 1263x154
1263x154
RHVМаркс.mkv 2202Кб, 358x380, 00:00:48
358x380
>>1181811
>читают лучше чем RHVoice
И RHV такие даты - XXII - неправильно читает.
Аноним 29/04/25 Втр 05:17:47 1181911 96
Аноним 29/04/25 Втр 05:30:10 1181912 97
поясните тупому как работают нейрокаверы? вот допустим у меня есть модель с голосом киркорова но если я дам ему промт со словами песни он же просто проговорит её а не споет, ведь откуда ему знать как петь? или как? я правильно понимаю что нужно взять файл без музыки где уже кто то что то спел и уже его как бы заменять голосом киркорова но уже со своим промтом?
Аноним 29/04/25 Втр 05:32:56 1181913 98
v4.2.2016.21.mkv 1286Кб, 1254x200, 00:00:21
1254x200
>>1181909
>даты - XXII - неправильно читает
А не, это у меня старая версия была, я обновил на v4.2.2016.21 и исправилось.
Аноним 29/04/25 Втр 05:50:10 1181914 99
>>1158380
>адекватные
Короче, из бесплатных RHV и Microsoft Irina Desktop.

Может для улучшения звука ещё в Виндовс поставить эквалайзер, или в звуковом драйвере, там где фирменная утилита с эквалайзером и шаблонами звучаний типа "рок", "джаз", "опера", может поиграться настройками и ещё лучше будет.

А из платных - онлайн сервисы хорошо как диктор читают, ну и сохранить в мр3 у них тоже есть.
Аноним 29/04/25 Втр 18:54:10 1182779 100
Анон, как бороться с сибилянтами?
Аноним 29/04/25 Втр 23:00:49 1183380 101
>>1179437
Да ну нафиг, я за-е-бал-ся все это перебирать.

В итоге сейчас выбираю между Piper и форком Matcha-TTS от VOSK. Оба хорошо файн-тюнятся, но...

Piper почему-то после файн-тюна начинает говорить с жёстким английским акцентом, хотя в датасете только русский.

Matcha-TTS после файн-тюна начинает местами "позвякивать", порой заметно.

>>1181914
> Короче, из бесплатных RHV и Microsoft Irina Desktop.

Ну, ставить Винду ради TTS я точно не буду. RHVoice дообучить вроде как нельзя, а RVC работать поверх синтезированного голоса будет фигово.
Аноним 29/04/25 Втр 23:01:56 1183384 102
>>1183380
Да, задача у меня - в реалтайме озвучивать текст кастомным голосом.
Аноним 30/04/25 Срд 00:43:37 1183609 103
>>1183384
>задача у меня

Купить гаджет для этой цели и всё. Есть типа смартфона по размеру шкатулка, там выбор голосов какой надо (женский, мужской, старый, молодой и т.д.). Через неё говорить и она меняет голос.

Ещё в Snapchat было лет 10 назад у школьников был тренд, там можно было петь в микрофон и голос менялся.

Ещё диджейские шкатулочки, всякие луперы, походу должны на ходу уметь менять голос, диджейскую миксер-машинку маленькую купить, подкл. к ней микрофон, ползунками выставить тон, высоту звука и т.д.
Аноним 30/04/25 Срд 00:46:56 1183611 104
>>1183384
>кастомным голосом
Ты наверное хотишь голосами известных людей и персонажей мультфильмов?

Если просто поменять тембр/тон/звучание, то достаточно лупер-DJ-машинки, или через DAW станцию если на ПК прогонять голос через какие-то плагины.
Аноним 30/04/25 Срд 00:59:16 1183620 105
чо.JPG 172Кб, 1215x983
1215x983
>>1183611
>DAW станцию
Вот тут в примере плагинов куча, через них можно прогонять голос.
https://www.youtube.com/watch?v=-GWCVeys7QQ

Хоть это не ИИ, но думаешь не будет задержки у ИИ в реалтайме?
Аноним 30/04/25 Срд 06:45:01 1183706 106
>>1183609
>>1183611
>>1183620
За готовность помочь и советы спасибо, но это все тоже не совсем то. Я хочу конкретный приятный мне голос заюзать. Насчёт небольшой задержки (где-то до полсекунды) - не проблема, текст все равно генерироваться будет локальной LLM-кой. Про "реальное время" я сказал скорее потому, чтобы отсечь варианты с онлайн-сервисами и прочим, где нужно закидывать сразу портянку текста и ждать.
Аноним 01/05/25 Чтв 20:40:22 1185606 107
Чем озвучить текст на японском?
Аноним 01/05/25 Чтв 21:12:50 1185642 108
Аноним 01/05/25 Чтв 21:26:56 1185662 109
Аноним 01/05/25 Чтв 22:15:57 1185763 110
>>1151489
>А в демагоге можно как-то сделать удобно озвучку разными голосами, например выделив текст общения двух геров что бы один диалог зачитывало одним голосом а после другой уже другим?

Для озвучки разными голосами.
https://github.com/nari-labs/dia
Аноним 02/05/25 Птн 10:25:01 1186255 111
Господа, есть план озвучить существующую древнюю игру. Есть оригинальные голоса, хороший перевод на русский и еще пару языков, есть бюджет в пару сотен зеленых, нет знаний.

Идеальный результат это иметь озвучку со старыми голосами, но на новом языке. Голоса, как понимаю, не проблема, достаточно прогнать STS через RVC с нужной натренированной моделью, но я не очень знаю, как можно получить новое аудио на новом языке, но с сохранением интонаций.

Есть идеи?
Аноним 02/05/25 Птн 13:04:11 1186409 112
image.png 2185Кб, 1440x1080
1440x1080
image.png 1255Кб, 960x720
960x720
2025-05-0214-28[...].mkv 295Кб, 320x240, 00:01:42
320x240
2025-05-0214-42[...].mkv 590Кб, 320x240, 00:02:20
320x240
Аноним 02/05/25 Птн 15:28:07 1186546 113
>>1186409
хахахаха скинь модельку анон!
Аноним 02/05/25 Птн 21:54:32 1187017 114
>>1186409
Хрипит дичайше, и качество... Мда. Впрочем, спасибо, что выложил - теперь я понял, что мои потуги далеко не так плохи, как мне казалось.
Аноним 02/05/25 Птн 22:21:36 1187043 115
img-1.png 22Кб, 321x404
321x404
Кто-нибудь пытался собрать андроид приложение с TTS движком, которое бы регистрировалось в системе как TTS движок, вместо встроенного от гугла?
Какие результаты?
Как производительность?
Есть в гуглПлей или гитхабе?
Аноним 02/05/25 Птн 22:37:00 1187054 116
>>1187017
Хрена се, ну делай лучше если можешь, но что то мне кажется что не сможешь. Пиздеть - не мешки ворочить.
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов