/ai/ - Голосовых нейронок тред (TTS, STS, STT) #7 speech

Голосовых нейронок тред (TTS, STS, STT) #7 speech /speech/ Аноним 16/02/25 Вск 12:20:27 № 1055411 1

17019563860200.mp4 477Кб, 396x298, 00:00:23

17074247947820.mp4 2886Кб, 384x480, 00:00:08

17204507036820.mp4 310Кб, 576x576, 00:00:14

17099193437742.mp4 1356Кб, 438x480, 00:00:58

Обсуждаем нейросети, связанные с синтезом, преобразованием и распознаванием речи. Не забываем публиковать свои шедевры в треде.

Прошлый тред: >> https://2ch.hk/ai/res/664162.html

Вики треда: https://2ch-ai.gitgud.site/wiki/speech/

FAQ

Q: Хочу озвучивать пасты с двача голосом Путина/Неко-Арк/и т.п.

1. Используешь любой инструмент для синтеза голоса из текста - есть локальные, есть онлайн через huggingface или в виде ботов в телеге:
https://2ch-ai.gitgud.site/wiki/speech/#синтез-голоса-из-текста-tts

Спейс без лимитов для EdgeTTS:
https://huggingface.co/spaces/NeuroSenko/rus-edge-tts-webui

Так же можно использовать проприетарный комбайн Soundworks (часть фич платная):
https://dmkilab.com/soundworks

2. Перегоняешь голос в нужный тебе через RVC. Для него есть огромное число готовых голосов, можно обучать свои модели:
https://2ch-ai.gitgud.site/wiki/speech/sts/rvc/rvc/

Q: Как делать нейрокаверы?

1. Делишь оригинальную дорожку на вокал и музыку при помощи Ultimate Vocal Remover:
https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/UVR

2. Преобразуешь дорожку с вокалом к нужному тебе голосу через RVC:
https://2ch-ai.gitgud.site/wiki/speech/sts/rvc/rvc/

3. Объединяешь дорожки при помощи Audacity или любой другой тулзы для работы с аудио

Опционально: на промежуточных этапах обрабатываешь дорожку - удаляешь шумы и прочую кривоту. Кто-то сам перепевает проблемные участки.

Качество нейрокаверов определяется в первую очередь тем, насколько качественно выйдет разделить дорожку на составляющие в виде вокальной части и инструменталки. Если в треке есть хор или беквокал, то земля пухом в попытке преобразовать это.

Нейрокаверы проще всего делаются на песни с небольшим числом инструментов - песня под соло гитару или пианино почти наверняка выйдет без серьёзных артефактов.

Q: Хочу говорить в дискорде/телеге голосом определённого персонажа.

Используй RVC (запуск через go-realtime-gui.bat) либо Voice Changer:
https://github.com/w-okada/voice-changer/blob/master/README_en.md

Гайд по Voice Changer, там же рассказывается, как настроить виртуальный микрофон:
https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/Voice‐Changer (часть ссылок похоже сдохла)

Q: Как обучить свою RVC-модель?

Гайд на русском: https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/RVC#создание-собственной-модели
Гайд на английском: https://docs.aihub.wtf/guide-to-create-a-model/model-training-rvc
Определить переобучение через TensorBoard: https://docs.aihub.wtf/guide-to-create-a-model/tensorboard-rvc
Если тыква вместо видеокарты, можно тренить в онлайне: https://www.kaggle.com/code/varaslaw/rvc-v2-no-gradio-https-t-me-aisingers-ru/notebook?scriptVersionId=143284909 (инструкция: https://www.youtube .com/watch?v=L-emE1pGUOM )

Q: Надо распознать текст с аудио/видео файла

Используй Whisper от OpenAI: https://github.com/openai/whisper
Быстрый скомпилированный для винды вариант: https://github.com/Purfview/whisper-standalone-win
Так же есть платные решения от Сбера/Яндекса/Тинькофф.

Коммерческие системы

https://elevenlabs.io перевод видео, синтез и преобразование голоса
https://heygen.com перевод видео с сохранением оригинального голоса и синхронизацией движения губ на видеопотоке. Так же доступны функции TTS и ещё что-то
https://app.suno.ai генератор композиций прямо из текста. Есть отдельный тред на доске >>

Шаблон для переката: https://2ch-ai.gitgud.site/wiki/speech/speech-shapka/

АНОН, ПОМОГАЙ Аноним 16/02/25 Вск 12:23:04 № 1055415 2

НУЖНА ГОЛОСОВАЯ МОДЕЛЬ МЭДДИСОНА, как на видрил.

Все МОДЕЛИ, что удалось найти В ИНТЕРНЕТЕ, звучат намного хуже.

Аноним 16/02/25 Вск 12:55:20 № 1055428 3

бамп!

Аноним 17/02/25 Пнд 10:10:13 № 1056814 4

>>1055411 (OP)
Это тупо копипаста старой шапки и ничего нового в ней за полгода? Ну ты и долбоёб, фагочушка к тому же. Всем кто отпишется без сажи рака яиц.

Аноним 17/02/25 Пнд 10:38:05 № 1056825 5

>>1055411 (OP)
Какие есть модели TTS, но чтобы работали в реалтайме, без ожидания генерации аудио. И возможность обучить модель на своих исходниках

Аноним 17/02/25 Пнд 11:32:20 № 1056841 6

>>1056814
Перекатывал бы тогда сам. Но ты же ленивый безрукий пидорас и хуесос, так что и эту шапку потерпишь, хуйло.

Аноним 17/02/25 Пнд 23:52:24 № 1057564 7

>>1056825
Я б ответил, но не могу долго находиться в защкварном треде оп-хуя.

Аноним 18/02/25 Втр 12:18:27 № 1057995 8

>>1057564
Ты будешь терпеть, как и всегда терпел.

Аноним 18/02/25 Втр 18:10:08 № 1058516 9

>>1055415
Ты тупой штоле? там голосом написано и текстом проговорено я хуею какие же дегенераты на дваче

Аноним 18/02/25 Втр 19:35:31 № 1058603 10

А что с шапкой? Посрал на опа-гея.

Аноним 18/02/25 Втр 23:00:35 № 1058975 11

>>1058516
Ебло ослиное, мне нужна модель.

>>1058603
Терпи.

Аноним 21/02/25 Птн 12:35:12 № 1062652 12

17401167341180.mp4 11284Кб, 1280x720, 00:01:32

Аноним 21/02/25 Птн 15:20:02 № 1062837 13

>>1062652
Вот ето да!

Аноним 21/02/25 Птн 17:15:54 № 1062967 14

>>1058603
что не так с шапкой то?
Все как и раньше

Аноним 21/02/25 Птн 22:23:13 № 1063458 15

Нейрослоник4par[...].mp4 17723Кб, 640x360, 00:02:42

>>1062837

Аноним 22/02/25 Суб 04:42:09 № 1063813 16

Ебался всю ночь так нихуя и не установил.
RVC работает искаропки и работает заебись но не могу найти нормальный TTS.
Подскажите каким вы сейчас пользуетесь?
Сука триллион зависимостей установите то установите се ой работает только на петухон 1488 иди нахуй блядь

Аноним 28/02/25 Птн 16:59:25 № 1073727 17

https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice
https://github.com/SesameAILabs/csm
Dataset: We use a large dataset of publicly available audio, which we transcribe, diarize, and segment. After filtering, the dataset consists of approximately one million hours of predominantly English audio.

Model Sizes: We trained three model sizes, delineated by the backbone and decoder sizes:
Tiny: 1B backbone, 100M decoder
Small: 3B backbone, 250M decoder
Medium: 8B backbone, 300M decoder
Each model was trained with a 2048 sequence length (~2 minutes of audio) over five epochs.

Our models will be available under an Apache 2.0 license.

Аноним 28/02/25 Птн 20:21:04 № 1074110 18

Я НЕПЫНИМАЮ БЛЯДЬ
Как и через что в комфиуи генерать голоса? Бля одну кастом ноду скачаешь, там не установить другие модели. Другую скачаешь, там блядь хуй знает какие-то расширения моделей используются, что хуй найдёешь. Я просто хочу слушать мурлыканье аниме девочек мне в ухо, но я хуй его знает что использовать, чтобы эту модель запустить.

Аноним 01/03/25 Суб 02:43:23 № 1074507 19

>>1055411 (OP)
Я продублирую свой вопрос из /b/

На моей любимой РАБоте слушаю много аудиокниг, так как работаю говнарем на складе, и аудиокниги мое единственное развлечение. Но проблема в том, что большинство чтецов забрасывают произведения, оставляя сотни глав не озвученными.
Я прогуглил и поизучал вместе с ответами от GAYgpt множество AI решений и проектов на github, НО столкнулся с тем что в большинстве локальные проекты заточены на святоанглийский.
И это малая еще беда.

Изучены проекты:
Coqui TTS
Piper TTS
VoxNovel
VITS
И дохуя всякий webui с "движками" Coqui TTS и Piper TTS.

Инпуты текстов ограничены в лучшем случае до 5к символов. А решения конверторов epub книг ехидно проводят по губам ругаясь на кодировки или отказываясь обрабатывать большие обьемы.

Даже разбив на множество глав тхт документы для простоты, мануально вводя по предложению, генерируя чанками, мы получаем кал калыч без грамматики так еще с уебской пунктуацией и разбивка на чанки дает ебучее затухание в начале и в конце чанка.

Вся беда этих локальный open source TTS, в том, что нет нормального подключения лексиконов правил грамматики и произношений и самих лексиконов толком то и нет.

Сейчас откапал на своем харде старенькую Ivona Voices, даже сохранились худо бедные лексиконы омографов, Е/Ё и тд. для голоса Tatyana.

Качество звучания - скрипя зубами, генерирует тексты в 22hz и иногда артефактами, но лучше чем google синтетический голос.

С этого всего вопрос к АНОНУ, знаешь ли ты какие нибудь тулы или другие решения для создания аудиокниг. Из серии хотя бы получше чем уровень говорилка.

С меня нихуя, заранее иду нахуй.

Аноним 01/03/25 Суб 03:45:06 № 1074535 20

>>1074507
Ответ получен, спасибо всем кто заглянул

>Нейроблядь в треде

Что можно попробовать
Вот несколько вариантов, которые могут быть получше, чем текущие костыли:

A. Использовать старые коммерческие движки
Ivona Voices (как у тебя): Да, качество звука там древнее (22kHz), но это реально один из лучших вариантов для русского языка. Если у тебя есть старые лексиконы и настройки — это вообще находка. Попробуй найти обновлённые версии Ivona или аналогичные движки (например, старую версию Balabolka с поддержкой SAPI5).
Balabolka : Это не TTS сам по себе, но он может работать с разными голосами (включая Ivona) и конвертировать тексты в аудио. Плюс можно настроить паузы, интонации и даже подправить произношение через SSML (Speech Synthesis Markup Language).
B. Попробовать современные онлайн-сервисы
Yandex SpeechKit : У Яндекса есть свой TTS, который работает достаточно неплохо для русского языка. Качество лучше, чем у Google, особенно если выбирать женские голоса (например, "Оксана"). Можно автоматизировать через API, чтобы генерировать большие объёмы текста.
Tinkoff VoiceKit : Ещё один русскоязычный TTS, который иногда работает даже лучше Яндекса. Поддерживает длинные тексты и имеет нормальные настройки интонации.
Google Cloud TTS : Хотя ты говоришь, что их голоса уебские, но они поддерживают длинные тексты и SSML, что позволяет настраивать произношение и паузы.
C. Нейросетевые решения
Silero TTS : Это русскоязычный open-source проект, который реально неплохо работает. Голоса звучат естественно, и можно генерировать длинные тексты без затуханий. Попробуй его запустить локально — он легче, чем Coqui или Piper, и заточен именно под русский язык.
Fish Speech : Новый проект, который активно развивается. Он умеет работать с длинными текстами и поддерживает русский язык. Качество звука на уровне современных стандартов (16-48kHz).
D. Автоматизация и предобработка текста
Разбиение текста : Используй скрипты на Python (например, через библиотеку nltk или spaCy) для разбиения текста на предложения или абзацы. Это поможет избежать проблем с чанками.
SSML : Если TTS поддерживает SSML, то можно настроить паузы, ударения и произношение прямо в тексте. Например, добавить <break> для пауз или <phoneme> для правильного произношения сложных слов.
Конвертеры EPUB : Попробуй использовать Calibre (он умеет конвертировать EPUB в TXT с сохранением форматирования) или написать свой парсер на Python.
3. Итог
Если коротко:

Лучший вариант для старта — Silero TTS или Fish Speech. Они заточены под русский язык и работают локально.
Если нужен онлайн — Yandex SpeechKit или Tinkoff VoiceKit.
Для старых движков — Ivona + Balabolka с SSML.
Но помни: идеального решения пока нет. Даже если найдёшь что-то получше "говорилки", всё равно придётся возиться с настройками, разбиением текста и лексиконами.

Аноним 01/03/25 Суб 10:13:58 № 1074630 21

>>1074535
Привет, ГПТблядок! Почему ты даешь такие хуевые и неполные ответы? Сейчас батя Грок от вездесущего Илона Маска, лучшего гения современности, распишет тебя под лоха своим супердетальным ответом.

---

### Проблемы, которые ты описал:
1. Ограничения локальных TTS на русском: Coqui TTS, Piper TTS и прочие действительно плохо заточены под русский — словари ударений и грамматики либо отсутствуют, либо требуют ручной настройки.
2. Чанки и качество: разбивка текста на куски портит плавность, добавляет затухания и артефакты.
3. Ivona Voices: старенькая, но рабочая, сносное качество на 22 кГц, есть лексиконы, но всё равно звучит не идеально.
4. Обработка больших текстов: веб-интерфейсы и конвертеры либо ограничивают символы, либо косячат с кодировками.

Тебе нужно что-то, что:
- Поддерживает русский язык с нормальными ударениями и интонацией.
- Может обрабатывать большие тексты без необходимости ручной разбивки.
- Дает качество лучше "говорилки" и хотя бы на уровне терпимого чтеца.

---

### Варианты решений

#### 1. Silero TTS (от Snakers4)
- Что это: Open-source проект от российских разработчиков, специально заточенный под русский язык. Использует нейронные модели для синтеза речи.
- Плюсы:
- Качество голосов на голову выше Ivona, звучит естественно.
- Есть готовые модели для русского (голоса вроде "Ксения", "Александр" и др.).
- Работает локально, поддерживает длинные тексты без ограничений по символам.
- Можно настроить интонации и скорость.
- Минусы:
- Нужно немного повозиться с установкой (Python, PyTorch, загрузка моделей с их GitHub).
- Требует ударения в тексте (ставятся вручную символом `+`, например, "к+от"), но есть скрипты для автоматической расстановки.
- Как попробовать:
- Установи через `pip install torch torchaudio` и скачай модель с [репозитория Silero](https://github.com/snakers4/silero-models).
- Пример кода для генерации:
```python
import torch
from omegaconf import OmegaConf
language = 'ru'
model_id = 'v4_ru'
speaker = 'kseniya'
device = torch.device('cpu')
model, _ = torch.hub.load('snakers4/silero-models', 'silero_tts', language=language, speaker=speaker)
model.to(device)
audio = model.apply_tts(text="Прив+ет, это т+естовый текст!", sample_rate=24000)
```
- Сохраняй результат в WAV или MP3.
- Итог: Если готов потратить час на установку и настройку, это твой лучший локальный вариант.

#### 2. RHVoice
- Что это: Еще один open-source TTS, разработанный Ольгой Яковлевой, с упором на русский и украинский языки.
- Плюсы:
- Локальная работа, не требует интернета.
- Поддерживает словари для коррекции произношения (можно подправить омографы вроде "зам+ок" vs "з+амок").
- Голоса "Анна", "Александр" и др. звучат лучше Ivona, хотя немного роботизированно.
- Берет большие тексты без проблем.
- Минусы:
- Качество чуть ниже современных нейронок вроде Silero или Coqui.
- Установка на Windows проще, чем на Linux/Mac, но всё равно требует рук.
- Как попробовать:
- Скачай с [официального сайта](https://rhvoice.org) или GitHub.
- Используй с утилитой вроде Balabolka (о ней ниже) для удобства.
- Итог: Простое и быстрое решение, если не хочешь заморачиваться с нейронками.

#### 3. Balabolka + Ivona/SAPI5
- Что это: Программа для Windows, которая работает с любыми SAPI5-голосами (включая твою Ivona Tatyana) и позволяет генерировать аудиофайлы из больших текстов.
- Плюсы:
- Поддерживает твои старые Ivona Voices и лексиконы омографов.
- Обрабатывает целые книги в формате TXT, EPUB, DOC без ограничений.
- Можно настроить паузы, скорость, тембр.
- Экспорт в MP3/WAV без ручной разбивки.
- Минусы:
- Качество ограничено самой Ivona — выше головы не прыгнешь.
- Интерфейс староват, но рабочий.
- Как попробовать:
- Скачай [Balabolka](http://www.cross-plus-a.com/balabolka.htm).
- Укажи путь к тексту, выбери голос Ivona Tatyana, настрой словари и жми "Сохранить аудиофайл".
- Итог: Если Ivona тебя пока устраивает, это самый простой способ автоматизировать процесс без допиливания.

#### 4. Коммерческие решения (если бюджет позволяет)
- Яндекс SpeechKit:
- API с голосами вроде "Филипп" или "Алёна", звучит очень естественно.
- Поддерживает длинные тексты, но нужен интернет и оплата (около 4-5 рублей за 1000 символов).
- Пример: загружаешь TXT через их консоль или скрипт, получаешь MP3.
- **Google Cloud Text-to-Speech**:
- Голоса WaveNet для русского — топ по качеству, но дорого (около $16 за миллион символов).
- Требует API и немного кода.
- **Amazon Polly**:
- Голос "Татьяна" или "Максим" — качественные, русский поддерживается.
- Цена: ~$4 за миллион символов.
- **Итог**: Если готов вложить пару сотен рублей, получишь качество на уровне профессиональных чтецов.

#### 5. Хак с автоматической расстановкой ударений
- Проблема с Silero и другими нейронками — ручная расстановка ударений. Есть обход:
- Используй [Udict](https://udict.ru) или [Stress Rus](https://github.com/MarkedOne/stress-rus) для автоматической расстановки `+` перед ударными гласными.
- Пример: "Привет, как дела?" → "Прив+ет, к+ак дел+а?"
- Потом скорми это Silero или Coqui.
- **Итог**: Решает проблему грамматики и произношения, но требует доп. шага.

---

### Рекомендация
Если хочешь локальное и бесплатное — начни с **Silero TTS**. Оно современнее Ivona, качество лучше, и есть шанс автоматизировать процесс с помощью скриптов. Для старта:
1. Установи Silero.
2. Разбей книгу на главы (вручную или скриптом).
3. Используй Udict для ударений.
4. Генерируй аудио по главам и склей в MP3.

Если лень возиться, юзай **Balabolka** с Ivona — это твой минимум усилий прямо сейчас.

Есть вопросы или что-то конкретное уточнить — пиши, разберем. Удачи на складе, не скучай там!

Аноним 01/03/25 Суб 16:47:22 № 1074900 22

>>1074630
Вау! Я поражен грамотной и структурированной подачей материала!
Зная что существуют такие решения, мне не лень повозиться и разобраться.

Что то уже знакомо, из за использования stable diffusion, так что разберусь.

>- Яндекс SpeechKit (около 4-5 рублей за 1000 символов)

Да, у меня например одна книга в 12 000 000 символов меня обанкротит, поэтому не рассматриваю платные решения. Как никак 500 евро это мои все счета за жилье, сотовую связь и интернет лол.

Еще раз, спасибо Анон, за подробный и развернутый ответ!

Аноним 01/03/25 Суб 23:51:49 № 1075373 23

>>1074900
Silero самая простая. Ставится в один клик
https://aloys.narod.ru/sof/1/demagog.htm

Fish Speech качественней но работает медленней.
Ставится в один клик через скрипт енжин Пинокио.
https://pinokio.computer/

Аноним 02/03/25 Вск 01:43:38 № 1075475 24

Прошу новоприбывших иметь ввиду, что шапка и вики давно не обновлялись и не содержат сведения о каких-либо новинках прошедшего года.

В качестве базы поиска голосовых моделей советую использовать huggingface, как наиболее крупное и актуальное хранилище открытых моделей.

Text to speech:
https://huggingface.co/models?pipeline_tag=text-to-speech&sort=trending

Speech to speech:
https://huggingface.co/models?pipeline_tag=audio-to-audio&sort=trending

Speech to text:
https://huggingface.co/models?pipeline_tag=automatic-speech-recognition&sort=trending

Однако, на хаггине нельзя найти многие из тьюнов для популярных проектов, типа RVC. Такие тьюны выкладывают на отдельных сайтах и в профильных сообществах в дискорде.

-----

Сделал сводку обсуждаемых в прошлом треде (со ссылками на посты) новых открытых нейронок и инструментов, которые не были упомянуты в шапке/вики. Описания взяты с офф. страничек решений, сам пока толком ничего не попробовал.

Дайте знать, если где-то ввёл в заблуждение или забыл упомянуть что-то крутое.

-----

Февраль 2025: >>1049742 →
https://github.com/Zyphra/Zonos
https://huggingface.co/Zyphra/Zonos-v0.1-transformer(Веса 3.25 GB)
https://maia.zyphra.com/audio

Zonos - TTS с поддержкой войсклона. По отзыву анона, модель показывает себя очень хорошо, по стабильности намного лучше fish-speech или E2-F5.

✅ Веса в паблике
❌ Русский не поддерживается - поддерживаемые языки: английский, японский, китайский, французский и немецкий

-----

Январь 2025: >>1013818 →
https://huggingface.co/spaces/hexgrad/Kokoro-TTS
https://huggingface.co/hexgrad/Kokoro-82M

Kokoro-TTS - мелкая, обученная энтузиастами TTS-модель, которая вот уже месяц сидит в топ-1 TTS-моделях по скачиваням (больше миллиона загрузок за месяц) на хаггине.

Датасет состоял из нескольких сотен часов, а для обучения было затрачено всего 500 GPU часов (A100 80GB).

✅ Веса в паблике
❌ Русский не поддерживается - поддерживаемые языки: английский, японский, китайский, испанский, хинди, итальянский и португальский

-----

Ноябрь 2024: >>936013 →
https://huggingface.co/amphion/MaskGCT
https://huggingface.co/spaces/amphion/maskgct
https://x.com/reach_vb/status/1851629504348754202

MaskGCT - очередной TTS.

Особенности:
- Клонирование голоса с нуля
- Эмоциональный TTS
- Обучен на 100 тысячах часов данных
- Синтез длинных форм
- Синтез с переменной скоростью
- Двуязычный - китайский и английский

По отзыву анона, данный TTS близок по качеству к elevenlabs.

✅ Веса в паблике
❌ Русский не поддерживается

-----

Ноябрь 2024: >>917559 →
https://github.com/SWivid/F5-TTS
https://huggingface.co/SWivid/F5-TTS
https://huggingface.co/spaces/mrfakename/E2-F5-TTS

F5-TTS - это система преобразования текста в речь (TTS), которая была обучена на 100 000 часов аудиоданных. Она обладает рядом функций, таких как клонирование голоса без предварительного обучения, контроль скорости воспроизведения, синтез эмоций, синтез длинных текстов и поддержка переключения кодов ( https://ru.wikipedia.org/wiki/Переключение_кодов ).

✅ Веса в паблике
⚠️ Базовая модель не поддерживает русский язык, но есть одобренный оригинальным разработчиком русскоязычный файнтьюн: https://github.com/SWivid/F5-TTS/blob/main/src/f5_tts/infer/SHARED.md#russian

-----

Сентябрь 2024: >>883788 →
https://github.com/fishaudio/fish-speech
https://huggingface.co/fishaudio/fish-speech-1.4
https://huggingface.co/fishaudio/fish-agent-v0.1-3b
https://huggingface.co/spaces/fishaudio/fish-speech-1
https://speech.fish.audio/#windows-setup
https://fish.audio/text-to-speech/

Fish Speech - TTS с поддержкой войсклона, на заморском /g/ твердят что он рвёт XTTSv2 в щепки.

✅ Веса в паблике
❌ Русский не поддерживается - поддерживаемые языки: английский, японский, корейский, китайский, французский, немецкий, арабский и испанский

-----

Июль 2024 (сам проект начался в мае 2024): >>815109 →
https://github.com/2noise/ChatTTS
https://huggingface.co/2Noise/ChatTTS

ChatTTS - ещё один TTS. Модель может прогнозировать и контролировать тонкие просодические особенности, включая смех, паузы и междометия. По заявлениям автора, превосходит большинство открытых TTS-моделей в плане просодии.

Основная модель обучена на китайском и английском аудиоматериале объемом более 100 000 часов. Открытая версия на HuggingFace - это предварительно обученная модель на 40 000 часов.

✅ Веса в паблике
❌ Русский не поддерживается - поддерживаются английский и китайский

-----

Июнь 2024: >>802138 →
https://play.google.com/store/apps/details?id=org.futo.voiceinput
https://github.com/futo-org/voice-input

Приложение FUDO добавляет функции голосового ввода в ваш телефон, интегрируясь с другими приложениями и клавиатурами, которые поддерживают стандартные API голосового ввода Android. Все обработка выполняется полностью в автономном режиме на вашем устройстве, и ваши записи НИКОГДА не сохраняются и не отправляются в другие места. Приложение подключается к Интернету только тогда, когда вы решаете скачать дополнительные модели. Приложение FUTO Voice Input обеспечивает конфиденциальность ваших данных.

✅ Веса в паблике - под капотом используется опенсорсный whisper от OpenAI
✅ Нативная поддержка русского

-----

Июнь 2024: >>800694 →
https://www.camb.ai
https://github.com/Camb-ai/MARS5-TTS

MARS5 - этот TTS, который позволяет создавать речь с разнообразной интонацией, такой как спортивные репортажи или озвучка аниме, используя всего 5 секунд аудио и текст.

⚠️ В публичный доступ выложена только англоязычная модель, прочие модели доступны только онлайн: https://github.com/Camb-ai/MARS5-TTS/issues/77#issuecomment-2236018914
⚠️ Русский доступен только в веб-сервисе

-----

Апрель 2024: >>667657 →
https://research.myshell.ai/open-voice
https://github.com/myshell-ai/OpenVoice/
https://github.com/Alienpups/OpenVoice/blob/main/docs/USAGE_WINDOWS.md

OpenVoice - данная STS-система позволяет клонировать голос на разных языках с сохранением индивидуальных особенностей голоса человека - тембра, эмоций, акцента, ритма речи и т.п., даже если язык генерации не входил в тренировочный датасет системы (Zero-shot Cross-lingual Voice Cloning). В качестве референса для клонирования можно использовать небольшой отрывок голоса длиною в несколько секунд.

В апреле 2024 вышла версия OpenVoice v2 с улучшенным качеством генерации речи, нативной поддержкой шести языков (английский, испанский, французский, китайский, японский и корейский).

✅ Веса в паблике
⚠️ Заявлена поддержка любых языков, но русского не было в исходном датасете

Аноним 03/03/25 Пнд 19:43:06 № 1077751 25

Как сейчас самый топовый войс ченджер? https://github.com/w-okada/voice-changer/tree/master этот норм?

Аноним 05/03/25 Срд 06:00:04 № 1080693 26

Какая из локальных моделей может справиться с такой задачей? Например, заливаю ролик с озвучкой на английском языке, а ИИ переводит его на русский? В идеале озвучит, а не просто перевод в виде текста.
Подскажите в какую тему идти, если не по адресу. Спасибо

Аноним 05/03/25 Срд 08:46:01 № 1080758 27

chrome.05.Март.[...].png 33Кб, 1914x191

>>1080693
Локальных моделей не находил. ИМХО проще всего использовать интернет API от яндекса.

Аноним 05/03/25 Срд 14:36:41 № 1081215 28

>>1080758
А локальные видео (на пк) он переводит? Или только потоковые с ютуба к примеру

Аноним 05/03/25 Срд 16:41:51 № 1081366 29

>>1081215
Локальные модели с таким функционалом не встречал. Так что да, переводит с ютуба и твича. В принципе можно попердолится и сделать так чтоб переводил и локальные видео запущенные в браузере, но всем лень.

Аноним 06/03/25 Чтв 19:28:03 № 1083443 30

кто может перевести с инглиша на русиш ?
елевен лабс меня нахуй посылает

вот сурсы:
https://www.youtube.com/watch?v=yyUrw8TJDHM No Photographs of Earth!
https://www.youtube.com/watch?v=BJZ9sqvH9dY Puppet Show
https://www.youtube.com/watch?v=S1D65NMBfmo Do you still believe we went to the moon?
https://www.youtube.com/watch?v=WcqKUhU0WDc Space is Fake!
https://www.youtube.com/watch?v=bS4jPjs6JPw Welcome to the Satellite Hoax

mp4 есть в этих постах # 68 69 70
https://2ch.hk/zog/res/836637.html#859519
https://2ch.hk/zog/res/836637.html#859520
https://2ch.hk/zog/res/836637.html#859521

Аноним 06/03/25 Чтв 19:38:33 № 1083456 31

>>1083443
mp3
https://voca.ro/15rQ0QmlDPjd Space is Fake!
https://voca.ro/12G01pwbqlGo Do you still believe we went to the moon?
https://voca.ro/1exoii6p5PDW Puppet Show
https://voca.ro/11JFX4Pt942x Welcome to the Satellite Hoax
https://voca.ro/1nPGlfXcrmrO No Photographs of Earth!

Аноним 07/03/25 Птн 03:30:00 № 1084222 32

>>1083443
Элевен платный. Для бомжей есть Яндекс
https://github.com/ilyhalight/voice-over-translation

Аноним 07/03/25 Птн 06:35:38 № 1084338 33

>>1084222

такс, способ рабочий, даже даёт сразу качнуть дорогу
каким способом / софтом можно прикрутить дорогу к mp4, скодированному гуглом / тытрубой, без перекодирования видеодороги ? чтобы не всирать качество видео повторным кодированием

Аноним 07/03/25 Птн 07:13:13 № 1084350 34

>>1084338
Avidenux просто выбери в настройках копирование дорожки без пережатия.

Аноним 07/03/25 Птн 07:27:55 № 1084357 35

>>1084350
а я уже через LosslessCut https://github.com/mifi/lossless-cut всё замутила
короче,
- с высокой вероятностью перевод-дубляж бесплатно хуй где найдешь (убирание оригинального голоса + с сохранением музыки + наложение перевода новым голосом)
- поэтому самое быстрое, бесплатное и без всяких ебучих регистраций на 300 видеопереводческих сайтах - получится перевод-MVO, гайд такой:
1. https://github.com/ilyhalight/voice-over-translation - хуйня которая переведёт тытрубу и выдаст тебе mp3 с переводом бездушной говорилки без сохранения оригинальной тональности, интонаций и музыки
2. плюсом качаешь ориг видос с тытрубы + извлекаешь оттуда ориг аудиодорогу
3. в любом аудиоредакторе делаешь MVO, соединяя оригинальную дорогу с переведённой, понижая громкость оригинала, чтобы MVO слышалось лучше и не воевало с оригинальной громкостью - получаешь новую ебейшую аудиодорогу
4. дальше либо сжимаешь видео заново с подменой аудиодороги (что хуже) или подменяешь без пережатия через LosslessCut или Avidemux (что лучше)
5. получаешь норм качество для бомжей за цену интернета

Аноним 07/03/25 Птн 07:28:55 № 1084358 36

>>1084357
>LosslessCut
тут поправочка, в релизах на гитхабе не видно релиза для винды, но на самой странице описания есть ссылка на виндузный релиз, который запускается и норм отрабатывает

Аноним 07/03/25 Птн 07:30:44 № 1084360 37

>>1084357
весь этот вариант будет без наложения субтитров, но зато в любом браузере
а с наложенными субтитрами можно сделать через второй вариант - запустить тытрубу в яндекс браузере и запустить перевод с авто наложением субтитров + записать экран

Аноним 07/03/25 Птн 07:54:09 № 1084369 38

>>1084357
>2.извлекаешь оттуда ориг аудиодорогу
кстати извлечь можно тоже через LosslessCut

Аноним 08/03/25 Суб 10:55:12 № 1085921 39

>>1074507

Яндекс читалка отлично озвучивает книги, ничего лучшего не видел.

Аноним 12/03/25 Срд 00:10:35 № 1093303 40

>>1055415
БАМП РЕКВЕСТУ

Аноним 12/03/25 Срд 20:33:04 № 1094864 41

>>1074630
>3. Balabolka + Ivona/SAPI5
Не знаю насчет балаболки, но Ivona Reader для винды отлично справляется с большими текстами. Мне он трехсоткилобайтный текст зачитал. Единственный минус, что голос Татьяны мягко говоря заезженный и легко узнаваемый. Он может и надоесть.
Для разнообразия я юзаю alltalk_tts, с которым можно использовать любой голос, если есть хотя бы десять секунд его записи. Минус в том, что генерируется много артефактов, да и максимальная длина текста по ощущениям где-то пять килобайт.

Аноним 13/03/25 Чтв 17:41:12 № 1095913 42

У КОГО ЕСТЬ ПЛАТНИК ELEVEN LABS ?

МОЖЕТЕ НАЗАД ПЕРЕВЕСТИ С ФРАНЦУЗСКОГО НА РУС ?

интересует не оригинал, а именно перевод назад

Аноним 13/03/25 Чтв 19:30:22 № 1095979 43

Хмм, а возможна ли такая схема? При которой через интернет, человек говорит в микрофон смартфона, это всё дело идёт на пк, воспринимается rvc как входящий звук, обрабатывается соответственно, и на выход он отсылает звук обратно на смартфон через его динамик собственно. Да, пинг будет знатный, но всё же.

Аноним 13/03/25 Чтв 23:00:27 № 1096340 44

>>1073727
Теперь в опенсорс
https://github.com/SesameAILabs/csm
https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo
Правда есть нюанс - это базовая модель без голосов maya и miles.

Аноним 14/03/25 Птн 02:01:33 № 1096506 45

>>1096340
Пример войсклона
https://vocaroo.com/15c8cFYfgiiZ
https://commons.wikimedia.org/wiki/File:Alison_Balsom_voice.ogg

Аноним 14/03/25 Птн 08:44:13 № 1096611 46

>>1095979
Да в принципе легко, но смысла нет. Производительности смартфона достаточно чтоб обрабатывать звук стационарно на смартфоне.

Аноним 14/03/25 Птн 16:00:49 № 1096994 47

В общем, есть монолог на русском. Я хочу его переозвучить голосом фурины. Как это сделать проще всего?

Аноним 18/03/25 Втр 11:35:41 № 1102874 48

>>1055411 (OP)
>https://2ch-ai.gitgud.site/wiki/speech/#синтез-голоса-из-текста-tts
Всё какой-то кал из жопы судя по обзору чувачка https://www.youtube.com/watch?v=GATOydA_B7Y

Аноним 22/03/25 Суб 02:07:30 № 1106985 49

Есть что-то лучше, нежели RVC, для риалтайм изменения войса?

Аноним 22/03/25 Суб 10:18:49 № 1107293 50

>>1102874
Ну обзору год уже.
Появился fish speech. вполне неплохо справляется, даже в интонацию местами попадает
https://voca.ro/1depzg4heml5
ПроЁбывается со словами с Ё, в тексте их придется менять самому, ну и жеваный он произнес нормально только тогда, когда я написал его с двумя н

Аноним 25/03/25 Втр 11:40:46 № 1110886 51

RVC как я понял особо перестали обновлять? В общем вопрос такой сталкивался кто с зависанием при преобразовании? Карта 4070 ti super, но почему-то при преобразовании rmvpe переодически происходит зависание и бесконечное преобразование. С чем это связано я так и не понял и это при том что преобразование через crepe работает стабильно, хоть и дольше.

Реквест Аноним 25/03/25 Втр 11:42:50 № 1110889 52

Может кто-то получше ориг с русского на английский прогнать? Чтобы голоса сохранились

Аноним 26/03/25 Срд 06:43:02 № 1112622 53

Установил локальный Zonos.Выбираю русский язык модели "ru", а там поебота с акцентом каким-то чуркистанским. Это ловушка жокера или чонах? У кого было?

Аноним 26/03/25 Срд 07:00:23 № 1112626 54

>>1112622
Прочитал тред и разобрался. Всех благ анону >>1075475

Аноним 28/03/25 Птн 00:31:00 № 1116680 55

>>1055411 (OP)
Анончики, пожалуйста, скажите, как по простому просто поменять голос? Скачал clonfish, микрофон вроде слышит, но голос не меняет.
Скачал другую прогу, там эхо сильное, да и не факт, что голос меняет.
Мне просто нужно, чтобы голос менялся в реальном времени, чтобы мои данные не хранились на сторонних серверах. Просто включил и голос поменялся, все, но почему так сложно то?

Аноним 30/03/25 Вск 06:17:53 № 1120433 56

Анончики помогите пожалуйста. Мне нужен нормальный русский ттс, с каким ни будь милым голосом.

Я уже кучу всего перепробовал, коки говно, f5 tts с русском моделью тоже ударения говно, пробовал так же fish speech но тоже не то.

У силеры какие-то всратые голоса, я хочу полный оффлайн.
Я думаю собрать silero Tts + rvcv2, насколько это годное решение, мб есть что-то более лучшее?

И ещё вопрос по поводу силеры, v4 модель какая-то ваще ужасная, или это я что-то не то делаю?

Денойзеры как будто ещё хуже делают. Как вообще это использовать?

Аноним 31/03/25 Пнд 14:27:54 № 1122797 57

>>1120433
Играйся с настройками. Даже в XTTS можно подобрать годный мимими конфиг.
https://www.youtube.com/watch?v=PJOOqqXeJhA

Аноним 31/03/25 Пнд 15:07:21 № 1122847 58

Есть варики заабузить minimax audio? Кредиты обновляются, но попытки контроля эмоций нет. Смена аккаунта, очистка кеша, VPN не работают.

Аноним 05/04/25 Суб 00:09:08 № 1131445 59

>>1106985
В итоге на rvc остановился или что-то другое нашел?

Аноним 06/04/25 Вск 20:30:12 № 1134438 60

обучил модель в войсчейнджере модель, но RVC отказывается есть, ругается на конфиг. Не сталкивался никто?

Аноним 10/04/25 Чтв 21:00:17 № 1144457 61

А кто знает, откуда берут голоса для озвучивания типа всяких героев warcraft 3, именно русских, на huggingface только пиндоские. Это типа самому обучать проще, или искать где-то в дискордах кто поделится?

Аноним 12/04/25 Суб 19:55:49 № 1148699 62

https://www.youtube.com/watch?v=MvmPhO5zUcs

Аноны, как такого же добиться? Я перепробовал миллион говна и нигде даже близко такого нет.

Аноним 13/04/25 Вск 23:25:22 № 1151120 63

>>1148699
Чего такого? Тут качественная настройка текста. Постаброботка сверху накинули эмбиент. А по качеству самого голоса уровень обычной Silero TTS с кастомным конфигом. Не понимаю чему ты тут восхищаешься. Это даже не близко к уровню Элевенлабс.

Если тебе нужно озвучивать книжки качаешь Демагога с поддержкой КУДА ядер.
https://disk.yandex.ru/d/O_jilqejPKIt1A
накатываешь кастомную настройку голоса (просто делаешь с замаеной фаил model.pt после чего под названием Random будет кастомный голос Дмитрия, а не рандомный голос)
https://disk.yandex.ru/d/_WDI3RvAeIpAVw

Все дальше как обычно открываешь книгу в демагоге
скрипты>из файла>Silero>Text to Speech
Диктором ставишь Рандома

Если тебя впечатлил эмбиент поверх озвучки добавить его тоже не сложно.

Аноним 13/04/25 Вск 23:36:52 № 1151128 64

hsyeopuj00001.mp4 5215Кб, 320x240, 00:11:37

>>1148699
Пример работы Силеро на кастомном голосе

Аноним 14/04/25 Пнд 09:39:53 № 1151489 65

>>1151120
Ахуеньчик. А в демагоге можно как-то сделать удобно озвучку разными голосами, например выделив текст общения двух геров что бы один диалог зачитывало одним голосом а после другой уже другим?

Аноним 14/04/25 Пнд 09:49:27 № 1151497 66

>>1151489
Нет. Хотя можно самому накалякать скрипт в питоне но всем лень.

Аноним 16/04/25 Срд 22:22:57 № 1158380 67

>>1075475
Есть ли сейчас какие-то более-менее адекватные TTS с хорошей поддержкой русского?

Пока что из того, что я перепробовал, даже древнючий RHVoice никто переплюнуть не может.

Неужели никому это не интересно? Тот же SoVITS допилить, например...

Аноним 17/04/25 Чтв 20:23:09 № 1160175 68

>>1158380
Silero TTS пробовал? Вообще конечно в идеале самому править гласные, ну или скрипт поставить что бы он сам подставлял + на гласные, выходит очень годно, но иногда даже скрипт может насрать так что просто так озвучить идеально например книгу не получится.

Аноним 18/04/25 Птн 01:05:54 № 1160922 69

asef awew3a3ta awefasdf

Аноним 18/04/25 Птн 05:57:52 № 1161794 70

>>1151497
>>1160175
>скрипт
Сейчас же трудности нет накалякать скрипты даже если питона не знаешь, с помочью нейросетки?

Аноним 18/04/25 Птн 06:27:44 № 1161816 71

>>1161794
Нет. Для этого все равно нужно во первых понимание питона во вторых умение писать правильный промпт. ИИ хорошо пишет код только тогда когда у тебя промпт составляет чуть ли не половину количества символов кода который ты хочешь получить.

Аноним 18/04/25 Птн 10:45:27 № 1161940 72

>>1160175
Вот как раз Silero не пробовал, погоняю, спасибо. Но что-то сомневаюсь, что оно дотягивается по уровню до GPT-SoVITS на английском. Эта штука мне просто мозг взорвала, говорит как настоящий человек. Очень изредка проскакивают мелкие косяки, когда оно или глотает фонемы, или, наоборот, добавляет лишние, но в целом качество просто моё почтение. Даже эмоции есть.

Аноним 18/04/25 Птн 12:57:05 № 1162037 73

>>1160175
>>1161940
Чет попробовал Silero, вообще не понравился. Озвучивает не то чтоб плохо, но металлические призвуки очень явно слышны.

Аноним 18/04/25 Птн 17:27:51 № 1162521 74

>>1161794
ИИ неплохо пишет код, "общий" код.
Типа "сделай мне на питоне экстрактор метаданных из всех картинок в папке, откуда происходит запуск скрипта" - запросто.

А когда у тебя уже чисто прикладная задача под какую-то конкретную среду - тут все сразу и ломается.
"Напиши мне скрипт глушителя на lua для игры Project Zomboid" - и ИИ тут предскузаемо ничего сделать не сможет. Потому что у него нет знания, как там в игре всё работает.
Тебе потребуется изучить внутрянку игры, понять это все самому, и потом уже, задав нужную базу в запросе, попросить написать нужный код.

Я вот хочу кнопку-экстеншн для вебуя автоматика закодить, которая делала бы очень простую вещь (апскейл полученной картинки последовательно два раза на заданных настройках), но так как я понятия не имею о структуре вебуя вообще и плагинов в частности - я даже не знаю, как роботу запрос составить. А разбираться лень.

Аноним 18/04/25 Птн 20:06:59 № 1162886 75

Друже, подскажите бесплатные программы для липсинка

Аноним 19/04/25 Суб 16:55:19 № 1164266 76

>>1161940
>SoVITS
а можно примерчиков озвучки в студию?
прежде чем качать и устанавливать хотелось бы на реальные примеры глянуть.

Аноним 19/04/25 Суб 18:31:51 № 1164467 77

>>1164266
Доберусь до машины на днях - сделаю.

Аноним 20/04/25 Вск 21:18:49 № 1166684 78

FischlHello.mp4 216Кб, 1080x1920, 00:00:14

Снимок экрана20[...].png 338Кб, 1701x1317

>>1164266
>>1164467
Ну собсно вот. Взял одну из фраз Фишли отсюда как референс: https://genshin-impact.fandom.com/wiki/Fischl/Voice-Overs , и сгенерировал две другие. Получилось, как по мне, просто идеально. Если бы мне не сказали, что это не оригиналы, я бы в жизни не догадался.

Аноним 20/04/25 Вск 21:39:01 № 1166700 79

Блеадь... Оставил на выходные piper файн-тюниться. Прихожу домой - был скачок света, все результаты похерились. Ну ебаный в рот, ну...

Аноним 21/04/25 Пнд 05:24:18 № 1167063 80

>>1166684
>Если бы мне не сказали, что это не оригиналы, я бы в жизни не догадался.
Так слышно же искусственность и неправильные ударения.

Аноним 21/04/25 Пнд 09:03:16 № 1167158 81

>>1167063
Ну да, я немного перегнул, каюсь, но НАСТОЛЬКО хороших результатов я не ожидал. С этим вполне можно жить.

Оно еще изредка может скипнуть фонему или воткнуть лишнюю, но, честно говоря, это все равно на голову лучше всего остального, что мне встречалось.

Ударения, кстати, можно расставить руками / LLM-кой, в принципе-то. Будет еще лучше.

Аноним 21/04/25 Пнд 09:20:49 № 1167172 82

>>1167063
Послушал и что-то не заметил косяков в ударениях в английском. Фишль, если что, девочка-чинубье, которая использует местами немецкие фразы - и вот с ними английская фонемизация чуть лажает (но не критично)

Аноним 21/04/25 Пнд 14:47:31 № 1167612 83

Насколько сложно будет с помощью нейросеток сделать переозвучку на русский фильма или аниме на уровне нормального даба? Т.е. не просто накинуть сверху на оригинальные голоса сгенерированную озвучку, но и потереть оригинальную. Насколько знаю можно найти "немые" фильмы в которых есть весь звук кроме озвучки. С такими будет куда проще работать, но вот с аниме или мультами такого нет.
Почему таким никто не занимается? Оригинальные голоса с той же интонацией ведь всяко лучше чем фандаб?

Аноним 21/04/25 Пнд 14:52:37 № 1167624 84

>>1167612
> Насколько сложно будет с помощью нейросеток сделать переозвучку на русский фильма или аниме на уровне нормального даба? Т.е. не просто накинуть сверху на оригинальные голоса сгенерированную озвучку, но и потереть оригинальную.

Невозможно. Можешь попытаться сепарировать звуковую дорожку на голос и остальное, потом перевести, потом обратно слить, но почти наверняка будет кал.

> Насколько знаю можно найти "немые" фильмы в которых есть весь звук кроме озвучки. С такими будет куда проще работать, но вот с аниме или мультами такого нет.

Это обычно слитые монтажерами / студиями дубляжа версии. Встречаются крайне редко, можешь на них не рассчитывать особо.

> Почему таким никто не занимается? Оригинальные голоса с той же интонацией ведь всяко лучше чем фандаб?

Потому что на выходе кал получается.

Аноним 22/04/25 Втр 04:13:46 № 1169147 85

>>1167612
>Почему таким никто не занимается?
Потому что кропотливость работы над этим ебанутейшая, куда проще сесть и запилить говнодаб своим гнусавым голосом.

Аноним 22/04/25 Втр 09:23:06 № 1169395 86

>>1169147
Кропотливость ок, но может же окупиться вполне. Хотел было сам попробовать, но из за РАБоты времени оч мало, а комп вполне производительный для запуска рендеров и нейронок

Аноним 22/04/25 Втр 13:16:21 № 1169698 87

>>1169395
Посмотри на тот же анимевост. Знаешь в чем секрет их успеха и популярности? Скорость озвучки, часа не проходит, серия уже доступна. Ежедневно переводятся десятки аним. А сколько ты будешь пердолить хотя бы одну серию, часа 3? Ну удачи, че.

Аноним 23/04/25 Срд 15:04:58 № 1171482 88

Анон, в чем может быть причина, почему артефачит голос?

Аноним 24/04/25 Чтв 20:56:22 № 1173776 89

Попробовал обучить модель в RVC, обучал набором реплик на японском. Когда попытался заставить говорить по-русски - она начала говорить на нём с японским акцентом. Конечно, аутентично, но не то, что мне нужно. Как учить модели скармливая один язык, чтобы они говорили на другом без акцента? Elevenlabs же это как-то делает.

Аноним 27/04/25 Вск 21:31:36 № 1179437 90

>>1162037
Металл в голосе появился только в 4 версии. В старой 3,1 никакого металла нет. Вот семпл, где там металл? >>1151128

Аноним 28/04/25 Пнд 15:57:21 № 1180854 91

Тестирую RVC, заметил, что очень аутпут частенько шепелявит, или вставляет много звуков "с".

Как поправить дикцию? Или это косяк используемых моделей?

Аноним 28/04/25 Пнд 16:56:08 № 1180925 92

>>1180854
Ползунками настойки. Температура, пич и вот это вот все остальное.

Аноним 28/04/25 Пнд 23:29:29 № 1181625 93

Так что теперь? TTS Нейросети лучше читают тексты чем те программы голосовых движков что были раньше?

Аноним 29/04/25 Втр 02:30:03 № 1181811 94

Маркс Разоблач[...].mkv 2450Кб, 334x352, 00:00:59

>>1158380
>TTS
Я тоже только что начал искать что нового в TTS именно в ИИ, и нашёл что онлайн-сервисы (платные) читают лучше чем RHVoice, хотя есть и небольшие ошибки с датами и с ё.

Читают уже как настоящий диктор, но этот сервис платный, там что-то 20 000 символов в месяц бесплатных, ещё непонятно всегда или один раз.

Аноним 29/04/25 Втр 04:48:44 № 1181909 95

VIIXIXII.JPG 78Кб, 1263x154

>>1181811
>читают лучше чем RHVoice
И RHV такие даты - XXII - неправильно читает.

Аноним 29/04/25 Втр 05:17:47 № 1181911 96

>>1055428
ж

Аноним 29/04/25 Втр 05:30:10 № 1181912 97

поясните тупому как работают нейрокаверы? вот допустим у меня есть модель с голосом киркорова но если я дам ему промт со словами песни он же просто проговорит её а не споет, ведь откуда ему знать как петь? или как? я правильно понимаю что нужно взять файл без музыки где уже кто то что то спел и уже его как бы заменять голосом киркорова но уже со своим промтом?

Аноним 29/04/25 Втр 05:32:56 № 1181913 98

v4.2.2016.21.mkv 1286Кб, 1254x200, 00:00:21

>>1181909
>даты - XXII - неправильно читает
А не, это у меня старая версия была, я обновил на v4.2.2016.21 и исправилось.

Аноним 29/04/25 Втр 05:50:10 № 1181914 99

>>1158380
>адекватные
Короче, из бесплатных RHV и Microsoft Irina Desktop.

Может для улучшения звука ещё в Виндовс поставить эквалайзер, или в звуковом драйвере, там где фирменная утилита с эквалайзером и шаблонами звучаний типа "рок", "джаз", "опера", может поиграться настройками и ещё лучше будет.

А из платных - онлайн сервисы хорошо как диктор читают, ну и сохранить в мр3 у них тоже есть.

Аноним 29/04/25 Втр 18:54:10 № 1182779 100

Анон, как бороться с сибилянтами?

Аноним 29/04/25 Втр 23:00:49 № 1183380 101

>>1179437
Да ну нафиг, я за-е-бал-ся все это перебирать.

В итоге сейчас выбираю между Piper и форком Matcha-TTS от VOSK. Оба хорошо файн-тюнятся, но...

Piper почему-то после файн-тюна начинает говорить с жёстким английским акцентом, хотя в датасете только русский.

Matcha-TTS после файн-тюна начинает местами "позвякивать", порой заметно.

>>1181914
> Короче, из бесплатных RHV и Microsoft Irina Desktop.

Ну, ставить Винду ради TTS я точно не буду. RHVoice дообучить вроде как нельзя, а RVC работать поверх синтезированного голоса будет фигово.

Аноним 29/04/25 Втр 23:01:56 № 1183384 102

>>1183380
Да, задача у меня - в реалтайме озвучивать текст кастомным голосом.

Аноним 30/04/25 Срд 00:43:37 № 1183609 103

>>1183384
>задача у меня

Купить гаджет для этой цели и всё. Есть типа смартфона по размеру шкатулка, там выбор голосов какой надо (женский, мужской, старый, молодой и т.д.). Через неё говорить и она меняет голос.

Ещё в Snapchat было лет 10 назад у школьников был тренд, там можно было петь в микрофон и голос менялся.

Ещё диджейские шкатулочки, всякие луперы, походу должны на ходу уметь менять голос, диджейскую миксер-машинку маленькую купить, подкл. к ней микрофон, ползунками выставить тон, высоту звука и т.д.

Аноним 30/04/25 Срд 00:46:56 № 1183611 104

>>1183384
>кастомным голосом
Ты наверное хотишь голосами известных людей и персонажей мультфильмов?

Если просто поменять тембр/тон/звучание, то достаточно лупер-DJ-машинки, или через DAW станцию если на ПК прогонять голос через какие-то плагины.

Аноним 30/04/25 Срд 00:59:16 № 1183620 105

>>1183611
>DAW станцию
Вот тут в примере плагинов куча, через них можно прогонять голос.
https://www.youtube.com/watch?v=-GWCVeys7QQ

Хоть это не ИИ, но думаешь не будет задержки у ИИ в реалтайме?

Аноним 30/04/25 Срд 06:45:01 № 1183706 106

>>1183609
>>1183611
>>1183620
За готовность помочь и советы спасибо, но это все тоже не совсем то. Я хочу конкретный приятный мне голос заюзать. Насчёт небольшой задержки (где-то до полсекунды) - не проблема, текст все равно генерироваться будет локальной LLM-кой. Про "реальное время" я сказал скорее потому, чтобы отсечь варианты с онлайн-сервисами и прочим, где нужно закидывать сразу портянку текста и ждать.

Аноним 01/05/25 Чтв 20:40:22 № 1185606 107

Чем озвучить текст на японском?

Аноним 01/05/25 Чтв 21:12:50 № 1185642 108

>>1185606
GPT-SoVITS

Аноним 01/05/25 Чтв 21:26:56 № 1185662 109

https://notebooklm.google.com/notebook/bab3cd51-e190-42c3-9190-8e4d4896963d/audio

Аноним 01/05/25 Чтв 22:15:57 № 1185763 110

>>1151489
>А в демагоге можно как-то сделать удобно озвучку разными голосами, например выделив текст общения двух геров что бы один диалог зачитывало одним голосом а после другой уже другим?

Для озвучки разными голосами.
https://github.com/nari-labs/dia

Аноним 02/05/25 Птн 10:25:01 № 1186255 111

Господа, есть план озвучить существующую древнюю игру. Есть оригинальные голоса, хороший перевод на русский и еще пару языков, есть бюджет в пару сотен зеленых, нет знаний.

Идеальный результат это иметь озвучку со старыми голосами, но на новом языке. Голоса, как понимаю, не проблема, достаточно прогнать STS через RVC с нужной натренированной моделью, но я не очень знаю, как можно получить новое аудио на новом языке, но с сохранением интонаций.

Есть идеи?

Аноним 02/05/25 Птн 13:04:11 № 1186409 112

Аноним 02/05/25 Птн 15:28:07 № 1186546 113

>>1186409
хахахаха скинь модельку анон!

Аноним 02/05/25 Птн 21:54:32 № 1187017 114

>>1186409
Хрипит дичайше, и качество... Мда. Впрочем, спасибо, что выложил - теперь я понял, что мои потуги далеко не так плохи, как мне казалось.

Аноним 02/05/25 Птн 22:21:36 № 1187043 115

Кто-нибудь пытался собрать андроид приложение с TTS движком, которое бы регистрировалось в системе как TTS движок, вместо встроенного от гугла?
Какие результаты?
Как производительность?
Есть в гуглПлей или гитхабе?

Аноним 02/05/25 Птн 22:37:00 № 1187054 116

>>1187017
Хрена се, ну делай лучше если можешь, но что то мне кажется что не сможешь. Пиздеть - не мешки ворочить.

Аноним 03/05/25 Суб 08:56:08 № 1187362 117

>>1187043
RHVoice можно поставить на ведро, работает он там вполне бодро.

Аноним 03/05/25 Суб 12:51:20 № 1187469 118

>>1187362
>RHVoice
Звучит как робот, конечно, но работает шустро и слова типа зал. или губ. не превращаются в залив и губернию, как у гугла.
Сяп, анон.

Аноним 03/05/25 Суб 16:01:33 № 1187685 119

Аноны, поделитесь этим видосом из оп-поста 4 треда, у кого осталось, плз.

Аноним 04/05/25 Вск 03:44:31 № 1188506 120

>>1187685

Аноним 04/05/25 Вск 07:00:42 № 1188532 121

>>1188506
Спасибо, как же кайфово она поет.

Аноним 07/05/25 Срд 15:00:19 № 1193094 122

Аноны, подкиньте RVC-моделек с детскими голосами. Требуется подкасты на русском для детей сделать.

Аноним 07/05/25 Срд 15:29:54 № 1193118 123

>>1188506
Цйфзеятжмъёц йз.

Аноним 08/05/25 Чтв 07:52:44 № 1194027 124

>>1193094
>Требуется подкасты на русском для детей сделать.

Аноним 09/05/25 Птн 09:10:58 № 1195289 125

сап ананасы, с наскока ничего не нашел, ни в шапке треда, ни у нейронок, а нужно вот что:
подскажите voice to voice нормальный. То есть я записываю голос текст он его преобразует в голос который мне нужен сохраняя паузы, скорость проговаривания

Аноним 10/05/25 Суб 00:17:24 № 1196515 126

>>1055411 (OP)
>Q: Хочу озвучивать пасты с двача голосом Путина/Неко-Арк/и т.п.

>1. Используешь любой инструмент для синтеза голоса из текста - есть локальные, есть онлайн через huggingface или в виде ботов в телеге:
>https://2ch-ai.gitgud.site/wiki/speech/#синтез-голоса-из-текста-tts
Чо у нас с поддержкой Cuda 12.8 (RTX 50xx)??????? xtts webui требует слишком древний питорч, а ничего старее cu128 сейчас с blackwell не работает

Аноним 10/05/25 Суб 08:55:35 № 1196944 127

нужна нейронка бесплатно чистящая щвук от шума

Аноним 10/05/25 Суб 15:58:51 № 1197357 128

Почему ?

Аноним 14/05/25 Срд 07:53:02 № 1201951 129

>>1187362
>RHVoice можно поставить на ведро, работает он там вполне бодро.
На Виндовс 10 (с обновлениями новее 2021) /11 в браузере Edge есть встроенные читалки, как и старые так и новые, которые натурально читают но через онлайн.

Можно сделать на диске текстовой файл.html в него копировать куски текста со статьи на сайте или из текстовых ответов ИИ, сохранять этот файлик, потом его перекинуть в окно браузера и оттуда прослушивать. И так подкидывать в него новые тексты, сохранять, а в браузере обновлять страницу и прослушивать.

Если напрямую слушать то только сайты где текст статьи сразу вначале начинается без всяких меню из ссылок, можно мышей ей щёлкать типа задавать фокус откуда читать.

Аноним 16/05/25 Птн 17:33:04 № 1205413 130

бамп

Аноним 17/05/25 Суб 22:20:43 № 1206457 131

>>1201951
Знакомый слушает текстовые книги на ежедневной основе через TTS гугла на гуглафоне.
Задача - найти более качественный локальный tts, который сможет читать текст в потоке без интернетов.

Аноним 19/05/25 Пнд 03:22:31 № 1207799 132

что лучше всего для рилтайм преобразования речи в текст?

Аноним 21/05/25 Срд 18:57:54 № 1210823 133

>>1196515
Сейм, это возможно как то пофиксить?

Аноним 22/05/25 Чтв 10:15:42 № 1211559 134

Пгивет, пагни!
Почитываю один тг-канал, там с недавнего времени новости стали делать озвучкой голосом, вот свежее - сегодняшнее как пример. Звучит очень реалистично, но факт, что это какая-то нейронка.
Как бы узнать - как они это делают? Админу писал - ожидаемо, сходил нахуй судя по всему.

Аноним 22/05/25 Чтв 23:43:32 № 1212555 135

Пытаюсь разобраться с fish speech, скачал с github 1.5 версию и интерфейс 1-й пик, а на том же huggingface та же версия 2-й пик. Что я делаю не так?

Аноним 23/05/25 Птн 00:08:47 № 1212612 136

>>1207799
Не знаю акутально ли, но если надо что то легкое и быстрое то очевидный vosk.
Также находил такое решение https://github.com/davabase/whisper_real_time
но там уже через опенаишный вшиспер, он требовательнее, но результат приятнее. В отличие от воска, расставляет знаки препинания и тд.
А так еще сам вопрос задам, что можно заюзать для озвучивания текста?
Нужно что-то не слишком тяжелое, так как на ПК уже будет работать модель речь-текст, а видеопамяти всего 2 гига, и что то еще туда уже не поместится. Ну и само собой, надо качественно чтоб было

Аноним 24/05/25 Суб 07:54:21 № 1214248 137

Чё-то проигрываю с нового ТТС от Гугла

Аноним 24/05/25 Суб 08:01:40 № 1214252 138

>>1211559
Это таки тоже гугловский ТТС. Слышал этот голос в нейроподкастах, после того, как релизнули Google NotebookLM

Аноним 25/05/25 Вск 20:49:29 № 1216398 139

Кто-нибудь работает с риалтайм сменой голоса на голос обученной модели? Если да, то что используйте для модели и что для самой подмены в текущих реалиях?

Аноним 25/05/25 Вск 21:09:41 № 1216420 140

>>1216398
Иди нахуй, гомосек.

Аноним 26/05/25 Пнд 21:45:40 № 1217643 141

>>1211559
Боже, какой ужас. Пидарасы не могут пофиксить это ебанное артефактное "дыхание"

Аноним 27/05/25 Втр 03:09:55 № 1218326 142

>>1217643
а мне наоборот кажется, что с такими вот артефактами звучит более естественно, чем голос с одинаковой интонаций.
ХЗ, вкусовщина конечно.

Аноним 27/05/25 Втр 05:56:39 № 1218370 143

Знатоки, подскажите, пожалуйста, как сделать перевод для ролика на английском языке. Какой ИИ инструмент cможет ЛОКАЛЬНО:
1. перевести звуковую дорожку (или видео файл)
2. озвучить на другом языке

Аноним 27/05/25 Втр 15:47:55 № 1219012 144

>>1218370
1. Вытащить текст из аудио на английском в текст - Whisper
2. Перевести текст с английского на русский - тут чем тебе удобнее: от яндекс переводчика до локальной LLM
3. Озвучить переведенный текст - любая TTS (XTTS, F5, Fish Sheech)
4. Склеить видос с новым аудио в любом видеоредакторе.

Есть большая вероятность, что первые 5-6 попыток принесут хуевый результат.

Аноним 27/05/25 Втр 18:12:04 № 1219351 145

>>1218370
не совсем локально, но может тебе поможет сделать то, что ты хочешь:
https://github.com/ilyhalight/voice-over-translation?tab=readme-ov-file

Как вариант - заливаешь свой видос на ютуб, закрываешь его приватностью, доступ только по ссылке и т.д
Запускаешь вот с этим скриптом с Гитхаба - и слушаешь на русском или казахском.

Аноним 27/05/25 Втр 19:32:06 № 1219545 146

Новая нейронка джемени
Сделал Диалог знаменитый

Аноним 29/05/25 Чтв 20:05:13 № 1223566 147

>>1218370
Перевести не знаю, есть транскрибер аудио на вшиспере
https://github.com/davabase/transcriber_app/
А так можешь еще побегать по репозиторию шептуна, там много готовых проектов, которые можно себе забрать

Аноним 01/06/25 Вск 21:12:23 № 1228530 148

Chatterbox TTS
https://huggingface.co/spaces/ResembleAI/Chatterbox
Ставим на локалочку.

Аноним 02/06/25 Пнд 00:31:53 № 1228841 149

>>1228530
хули ставить, если эта балалайка поддерживает только английский язык (русского нет и не планируют).

Аноним 02/06/25 Пнд 00:39:44 № 1228851 150

>>1228841
Зато смешно лопочет если вставит русский текст.

Аноним 02/06/25 Пнд 02:57:45 № 1228973 151

>>1228851
это, безусловно, весовый аргумент, чтобы накатить локально

Аноним 02/06/25 Пнд 06:00:41 № 1229016 152

Анон, я тупой, помоги пожалуйста. Нужно озвучить большой кусок английского текста, десять страниц. Где я могу сделать это бесплатно, на каком сайте?

Аноним 02/06/25 Пнд 07:42:04 № 1229040 153

>>1229016
бесплатно, ничего не устанавливая: Google TTS в aistudio.google.com
Все 10 страниц за раз не пережует, нормально генерит примерно 9-10 минут речи. Если один раз настроить параметры и не дрочить настройки - куски потом склеишь

бесплатно, но лайтовая ебка с установкой: вон сверху Chatterbox TTS, есть еще Fish Speech, t5-TTS и хуева гора клонов. Качество, возможности у всех по-разному.

Платно: ElevenLabs

Аноним 02/06/25 Пнд 12:42:29 № 1229276 154

>>1229040
Анончик, попробую чаттербокс. Скажи, пожалуйста, кратко, какие шаги по установке или где они описаны, а дальше я сам постараюсь разобраться!

Аноним 02/06/25 Пнд 16:30:44 № 1229588 155

>>1229276
Есть официальный но ебанутый репозиторий от разрабов : https://github.com/resemble-ai/chatterbox
Ебанутый он тем, что там нихуя не написано, что в зависимостях при установке указана ебанутая версия numpy, которая для python ниже 3.11 не существует и что есть ограничение на 40 секунд генерации речи (это меняется параметром max_new_tokens в /src/chatterbox/tts.py).

Есть нефициальный репо от мимокрока, который вроде как говорят получше : https://github.com/RemmyLee/chattered/

Ноя сам не ставил.

Аноним 05/06/25 Чтв 01:12:49 № 1233148 156

Аноны, какие есть локальные нейронки/инструмент, которые могут конвертировать подкасты в текст. Надоело джва часа смехуёчки слушать. Я лучше их прочитаю за полчаса.

Аноним 05/06/25 Чтв 04:11:02 № 1233240 157

Блять учёные двача помогите, жеско вставляет фапать на порнушку с диалогами, но ещё больше вставляет слушать это на НАШЕМ родном. Шишка неистово дымится. Пользуюсь яндекс браузером для нейродубляжа, но он настолько хуево работает с видосами что удаётся только глядеть в ЕБАНОМ вк, а там уже хуй че найти можно из-за нововедений, посоветуйте пожалуйста бесплатную хуйню чтобы я мог как в киберпанке в реальном времени смотреть порнушку с нейродубляжом. Или как бля этот ебаный яндекс починить чтобы он мне все видео на русский переводил

Аноним 05/06/25 Чтв 15:23:38 № 1233673 158

>>1233148
yt-dlp -скачиваешь
ffmpeg - перегоняешь в монозвук 16кгц
виспером распознаёшь

попроси чатгпт или клода или дипсик написать тебе скрипт на питоне на всё это

Аноним 07/06/25 Суб 05:55:21 № 1236744 159

Тень Эндера ии.mp4 851Кб, 352x288, 00:00:52

Аноны пробовал "начитать" отрывок из книжки, с разными голосами (типа аудиоспектакль) через Google speech. Персонажи дети - но звучат как кривляющаяся баба, но это ладно, в дубляже тоже часто так делают.
Но вот сами интонации (кроме текста автора, он нравится (Cheron "читает спокойно", если надо кому)), не смотря на 5-10 вариантов генераций, звучат очень наигранно и местами не в попад. Вбивал промты типа:
"детским голосом, со злобой, хриплый, говорит быстро",
"Детский голос, злится, выкрикивает, с сарказмом, говорит быстро".
В общем сам вопрос: с нынешними технологиями можно сделать лучше чем в примере? Или это пока максимум что можно выжать из ИИ?

Аноним 07/06/25 Суб 07:07:09 № 1236758 160

>>1236744
Да, но строго говоря именно так детское говно и читают. Это преемлемо.

Аноним 07/06/25 Суб 07:12:56 № 1236762 161

>>1236758
Хз не сказал бы что серия Ender Wiggin сильно детская. Фактически классика научной фантастики. Но фильм херня для подростков, тут не поспоришь.

Аноним 07/06/25 Суб 18:27:33 № 1237588 162

>>1236744
смотри анон, тоже кручу-верчу Google TTS, вот что понял:
1. В общем промпте нельзя указывать стиль голоса - иначе он весть текст им будет читать.
В нем нужно описывать общие характеристики. типа " детский голос, высокий\низкий, и что он по сюжету делает: ведет диалог, рассказывает о себе или читает текст. Это в понимании ТТС пиздец какие разные штуки.
2. Управлять эмоциями нужно расставляя теги внутри текста, их дохуища разных, но есть позитивный момент, это стандартные теги SSML (Speech Synthesis Markup Language).
Суда примеры писать не буду, весь список в тред не влезет, спроси там же в Ai студии в чате у Гемини, она тебе простыню высрет.
3. Не все параметры стиля голоса, которые ты задаешь так или иначе, могут применяться к выбранному голосу. Есть голоса, которые збс делают подростковый тон ( Aoede, например), а вот этот же стиль совершенно не срабатывает на другом.
4. Бить текст на абзацы с разделением пустой строкой помогает замедлить чтение ( иногда в сингл-моде голос разгоняется и тараторит очень быстро)

Аноним 08/06/25 Вск 01:25:12 № 1238293 163

>>1237588

По пунктам 1, 4: Дело в том что как раз все фразы закидывал по отдельности, в режиме single speaker (потом уже клеил в редакторе).
4. Тут бы наоборот ускорить бы их немного, персонажи агрессивные беспризорники и срутся между собой. А выходит так как будто речь на сцене читают.

SSML посмотрю, даже не знал про него. В любом случае спасибо за развернутый ответ) Нет ли хороших семплов в сети с эмоциональными сценами/ сложными эмоциями? Пока из такого видел только пару сносных нейроозвучек у игр, но там обычно юзают готовую основу (т.е. ИИ, худо-бедно, может ориентироваться на темп и эмоции оригинальной озвучки) и всё равно звучит все это пока паршиво, какой-нибудь старый гнусавый фандаб у аниме и то так слух не режет.

Аноним 08/06/25 Вск 23:08:48 № 1239140 164

>>1238293
>Нет ли хороших семплов в сети с эмоциональными сценами/ сложными эмоциями?
Вот, накидал на основе одного графоманского высера.
https://voca.ro/1b5dUtJi7MN7

На самом деле, несмотря на все плюсы и возможности, для реальных задач - неудобно. Долго писать, еще дольше потом править и ждать генерации. Поймал себя на мысли, что проще натренить модельку и самому через active voice changer надиктовать с ее помощью.
Этот кмк, быстрее и надежнее будет.

Если хочешь заморочиться вот промпт и скрипт:

[STYLE DESCRIPTION}:

Speaker 1: Over-the-top seductive, dominant, and intoxicating. Every word feels like it’s dripping honey, commanding, and wickedly playful. Lots of audible smirks and drawn-out pauses like she knows exactly what she’s doing, and loves watching the listener reaction.

Speaker 2: Awkward, flustered, overwhelmed. Voice cracks constantly. Rapid stammering, anxious gulps, and squeaky surprise noises. Simultaneously terrified and absolutely living for it.

[SCRIPT]

Speaker 1: Так-так-так... посмотрите, кто это тут у нас.

Speaker 1: что ты тут делаешь... почему ты сюда... ммм... зашел?

Speaker 2: о-о, н-нет! я-я... я п-просто... т-телефон.. там... у-уведо-уведомление... мне... я... м-мне н-надо....

Speaker 1: Ммм... так мило... ты так смешно моргаешь.

Speaker 1: ты же хочешь моего... внимания... правда...?

Speaker 2: (panicking) ч-что?! Н-не... нет, нет, нет... Я-я... п-подожди... т-ты—т-ты же н-не ч-что ты д-делаешь...

Speaker 1: тссс...

Speaker 1: не порти момент... Я хочу насладится... каждой... секундой...

Speaker 2: (tiny voice) о, б-боже... о, о н-нет...

Speaker 1: (smirking) ты покраснел... хи-хи... ты такой забавный, ты что, стесняешься меня?.

Speaker 1: скажи мне... ты хочешь... чтобы я была.... ммм... милой с тобой? нежной?
Speaker 1: или...
Speaker 1: я должна унизить тебя. как последнюю... давалку.

Speaker 2: (voice crack) Ч-ч—то? Ч—что т-ты-ты имеешь ввиду... э-э-это ч-что з-значит?!

Speaker 1: О... ты прекрасно меня понял... все ты понял.

Speaker 1: посмотри на себя, руки трясутся, голос дрожит...
Speaker 1: (whispers) мне повторить... тебе... на ушко...?

Speaker 2: (full meltdown) н-нет... д-да... я-я я... я... э-то... э-т-т-то... это

Speaker 1: (smirking) Ой! Посмотри на себя! (laughing) да ты обоссался! Фууу....!.

Speaker 1: отвратительно! Фууууу....!

Speaker 2: (whispers, destroyed) я-я-я я н-не с-специально... о-оно с-само

Speaker 1: фу!... отползи от меня подальше... ты воняешь!
Speaker 1: руками... руками... собирай свою лужу! и отползи вооон в тот угол...
Speaker 1: молча!... молча!.. ничего не говори, зассанец!

Speaker 2: (tiny voice) х-х... х-хараш... но... н-но я... д-да, да... л-ла-ладно...

Голоса GTTS:
Женский (спикер 1): Erinome
Мужской (спикер 2): Achird
Модель: Pro
Температура: 1 у обоих голосов.

Аноним 09/06/25 Пнд 00:07:27 № 1239228 165

>>1233673
Ок, установил, но на выходе хуйня пока что, сплошная стена текста. Впрочем, это зависит от того, насколько качественно вообще что-то надиктовано. Где-то приемлемо, где-то кусок говна.

Аноним 09/06/25 Пнд 01:00:06 № 1239264 166

>>1239228
>сплошная стена текста
так виспер так и работает, либо сплошной текст, либо текст с таймкодами. А ты думал, она тебе сценарий на выходе даст с разделением на спикеров?

>насколько качественно вообще что-то надиктовано
Все так, принцип "говно на входе - говно на выходе" работает везде, железно.

Аноним 09/06/25 Пнд 11:54:09 № 1239646 167

>>1239264
> А ты думал, она тебе сценарий на выходе даст с разделением на спикеров?
Хотя бы расставит точки в конце предложения. Где-то это есть, а где-то нет.
Заметил, что если перегнать что-то вроде аудиокниги в текст, то будет приемлемо.
Диалог уже не тянет.

Аноним 09/06/25 Пнд 13:49:29 № 1239735 168

>>1239646
>Хотя бы расставит точки в конце предложения. Где-то это есть, а где-то нет.
Вот это странно. Что за модель виспера у тебя? Я пользуюсь Large, она норм расставляет.
Можешь пример кинуть аудио, если это не привет, конечно, я попробую

Аноним 09/06/25 Пнд 16:36:34 № 1239888 169

>>1239735
Честно говоря хз какая. Я с горем пополам установил (гайды не помогали) прямо из репы. Дальше запустил обработку аудио и там начала моделька скачиваться на 1.5гб. Чекнул репо и по размеру, судя по всему, это Large.
Вот пример:
Тут диалог нескольких людей https://www.youtube.com/watch?v=LFPmFmJ7WKE выдал https://privatebin.net/?fb7a2a79a58c9b0d#37MdpxHoQr1yce8uDqLjd7JCxELc3GTUjk7223jUNpch pastebin пидарас не даёт загрузить текст

Тут монолог https://www.youtube.com/watch?v=WPYDwR9OLWM выдал https://privatebin.net/?cb5ab16587616794#8KknnAV3p1hxDCa19bUVmU1FMbBEnfdwPUVPyWdpuEQ5 немного лучше

Аноним 10/06/25 Втр 06:00:13 № 1240778 170

>>1239888
>Тут диалог нескольких людей
Хуя, 2 часа почти, мой картофельный пека помрет нахуй. Вот, отрезал по 15 минут кадого ролика.

Пик1 про мнемотехнику
Пик 2 про неразгаденные тайны

запятые, вроде расставил, с точками в мнемотехнике туго, а вот в айсберге вроде норм отработал.
Ничего, кстати никуда не конвертировал по аудио предварительно - вытащил просто аудио из видео, 16 герц там, вот все не делал.

>там начала моделька скачиваться на 1.5гб
у меня Large - 2.88 Гб. В старом-древнем экзэшнике, портативка кароч. Если надо дай знать - залью куда-нибудь.

Как вариант, есть в Audacity плагин с тем же виспером, это если с этой прогой работал, наверное удобно будет и в бете давинчи резолв 20 (там и разделение на спикеров, и транскрайб есть), это если видосы в нем монтажишь или раньше тыкал. Так, просто вспомнилось, вдруг поможет.

Аноним 10/06/25 Втр 11:49:55 № 1240933 171

>>1240778
> у меня Large - 2.88 Гб. В старом-древнем экзэшнике, портативка кароч. Если надо дай знать - залью куда-нибудь.
А на что модель может повлиять? Я читал текст и вроде без ошибок всё распознавалось.

Аноним 10/06/25 Втр 14:31:49 № 1241028 172

>>1240933
вроде как ,чем больше модель, тем она точнее. Параметр точности измеряется показателем WER ( word error rate), в процентах, чем ниже значение, тем модель точнее распознает речь.
Расклад по моделям такой:

Tiny - 10-12%
Base - 8-10%
Small - 5-7%
Medium - 2.90%
Large - 3.00%
Large-v2 - 5-15%
Large-v3 - 4-7%
Turbo - 3.5-4.0%

Но как обычно, тестил хуй пойми кто, хуй пойми на чем. Да и все-таки эти цифры больше для английского языка, тоже надо иметь ввиду. С русским что для ASR, что для TTS - ситуация пиздос. Никто не пилит базовые ру-модели в опенсорс по взрослому, без трусиков.

В Large модели вроде как есть способность диаризации 9это как раз разделение на говорящих), но мне не попадалась реализация с GUI и для русского языка.

Аноним 10/06/25 Втр 14:39:12 № 1241034 173

>>1240933
>А на что модель может повлиять?
Фоновые шумы, дефекты речи, музыка. Супербыстрый темп речи. Чем чище источник в этом плане - тем лучше.

Аноним 17/06/25 Втр 14:01:04 № 1248956 174

А чё такое качество-то говёное? ИИ-хуи. Столько ебатни, а на выходе говно с артефактами. Хотел ролик переозвучить, но блядь, проще живого профессионального диктора заказать за 3к.

Аноним 17/06/25 Втр 16:23:01 № 1249133 175

https://github.com/unslothai/unsloth
Пробовали? Не разобрался.

Аноним 17/06/25 Втр 22:35:48 № 1249632 176

Храни господь людей, которые подробные мануалы пишут

Аноним 19/06/25 Чтв 18:50:55 № 1251082 177

Аноны, есть какие то нвоые голосовые нейронки для преобразования голоса онлайн?

Аноним 23/06/25 Пнд 15:30:52 № 1254596 178

>>116670>>1186546
0

Аноним 29/06/25 Вск 04:13:36 № 1259339 179

Были ли попытки исправить надмозговые озвучки фильмов или доозвучить режисёрские версии фильмов с использованием голосовых нейронок?

Насколько вообще проработано данное направление?

Аноним 29/06/25 Вск 08:28:59 № 1259363 180

>>1259339
ДЛЦ к киберпанку нейронкой вроде озвучивали.
Так что и с кино тоже возможно.
Но пока довольно сложно и муторно.

Аноним 29/06/25 Вск 11:41:49 № 1259414 181

>>1055411 (OP)
Подкиньте идею, где подрезать голоса для датасета у какой-нибудь блядовитой шаболды. Фраз 50 достаточно будет для начала, но должна хоть какая-то стабильность быть. Ну и звук чистый больменее.
Хочу для piper обучить, чтоб на калькуляторе запускать.
Есть варианты?

Аноним 29/06/25 Вск 12:17:10 № 1259427 182

>>1254596
что

Аноним 29/06/25 Вск 16:10:48 № 1259511 183

>>1259363
Интересно, а были попытки заставить персонажей говорить на русском голосами оригинальных актёров?

Аноним 29/06/25 Вск 19:06:19 № 1259619 184

>>1212555
Ты запустил гуи тренировки вместо python -m tools.run_webui

А у кого-то получалось запустить compile на новой версии? Fish-Speech теперь называют себя OpenAudio, установка та же. Без компиляции всё работает, тритон сам по себе нет проблемы поставить, но именно на их код агрится. Причём разные версии тритона и разные коммиты их кода дают разные ошибки. Уже даже пытался код редачить, нет глубокого понимания, поэтому исправить ничего не вышло. Кто-то находил рабочую комбинацию коммита, версии тритона и торча?

Аноним 30/06/25 Пнд 12:33:31 № 1260028 185

фишспич говорит с акцентом и неправильно сставит ударения.
есть что-то нормальное для русского языка.

Аноним 04/07/25 Птн 14:37:17 № 1264491 186

Народ, подскажите в какую папку кидать RVC модели у AllTalk? В папку models закинул - не видит, в voices - тоже не видит.

Аноним 06/07/25 Вск 04:06:44 № 1266346 187

>>1055411 (OP)
А в чем прикол денойзера у silero? Там в экзамплах намного обработанный результат намного хуже исходника. Или оно денотзит так чтобы их модель лучше распознавала?