Google навчився розмовляти голосом людини

Четвер, 28 грудня 2017, 16:40
 

Google розробила просунутий синтезатор мовлення нового покоління, заснований на нейромережі.

Про це пише TechCrunch.

Зазначається, що система перетворення тексту на природні звуки мовлення Tacotron 2 справляється з цим завданням ефективніше за своїх попередників Tacotron і WaveNet.

Попередні системи генерації мовлення мали низку суттєвих недоліків. WaveNet, наприклад, видавала дуже різкі звуки. Tacotron краще справлявся з інтонаціями, але не міг видавати повноцінний "мовленнєвий продукт".

Реклама:

Як повідомляє НВ, алгоритм Tacotron 2, який представлений командою розробників Google за участю Джонатана Шена, працює на основі двох нейронних мереж.

Друкована версія конвертується в спеціальну Tacotron-спектрограму, в якій розподіляються ритм і наголоси, а слова генеруються в аналозі WaveNet. Крім того, додана система збору даних для навчання нейромережі.

Аудіозапис дійсно схожий на вимову живої людини. Темп мовлення звучить вельми переконливо, а основні запинки відбуваються на словах з незвичайною вимовою. Щоправда, частина слухачів в коментарях стверджує, що деякі слова система вимовляє "ламано".

Зразки роботи Tacorton 2 можна прослухати на офіційному сайті Google. Ця технологія, швидше за все, відразу почне використовуватися в продуктах компанії.

Однією з основних проблем нового алгоритму є відсутність регулювання тону мовлення. Не можна передбачити, яка фраза буде виголошена піднесено, а яка - грубо.

Нагадаємо, програмісти "Яндекса" створили незвичайну нейронну мережу, яка вміє складати музику і створювати її в стилі тих творів, які писали відомі композитори минулого.

Читайте нас також у Telegram. Підписуйтесь на наші канали "УП. Кляті питання" та "УП. Off the record"

Реклама:
Підпишіться на наші повідомлення!