Google навчився розмовляти голосом людини

Четвер, 28 грудня 2017, 16:40

Google розробила просунутий синтезатор мовлення нового покоління, заснований на нейромережі.

Про це пише TechCrunch.

Зазначається, що система перетворення тексту на природні звуки мовлення Tacotron 2 справляється з цим завданням ефективніше за своїх попередників Tacotron і WaveNet.

Попередні системи генерації мовлення мали низку суттєвих недоліків. WaveNet, наприклад, видавала дуже різкі звуки. Tacotron краще справлявся з інтонаціями, але не міг видавати повноцінний "мовленнєвий продукт".

Як повідомляє НВ, алгоритм Tacotron 2, який представлений командою розробників Google за участю Джонатана Шена, працює на основі двох нейронних мереж.

Друкована версія конвертується в спеціальну Tacotron-спектрограму, в якій розподіляються ритм і наголоси, а слова генеруються в аналозі WaveNet. Крім того, додана система збору даних для навчання нейромережі.

Аудіозапис дійсно схожий на вимову живої людини. Темп мовлення звучить вельми переконливо, а основні запинки відбуваються на словах з незвичайною вимовою. Щоправда, частина слухачів в коментарях стверджує, що деякі слова система вимовляє "ламано".

Зразки роботи Tacorton 2 можна прослухати на офіційному сайті Google. Ця технологія, швидше за все, відразу почне використовуватися в продуктах компанії.

Однією з основних проблем нового алгоритму є відсутність регулювання тону мовлення. Не можна передбачити, яка фраза буде виголошена піднесено, а яка - грубо.

Нагадаємо, програмісти "Яндекса" створили незвичайну нейронну мережу, яка вміє складати музику і створювати її в стилі тих творів, які писали відомі композитори минулого.