Romanian TTS - Sistem de sinteză text-vorbire în limba română

Despre RomanianTTS

Demonstratorul online pentru sinteza în limba română este rezultatul a două proiecte:

1) Proiectul PRODOC finanțat de Fondul Social European, prin contractul POSDRU/6/1.5/S/5 în cadrul căruia Adriana Stan a beneficiat de o vizită de cercetare de 6 luni la at The Centre for Speech Technology Research, University of Edinburgh, UK, sub îndrumarea prof. Simon KING, dr. Junichi Yamagishi and dr. Matthew Aylett. Pe durata acestei vizite, prima versiune a sistemului RomanianTTS a fost dezvoltată. Această versiune este bazată pe înregistrările audio din RSS Database și software-ul de procesare de text al Cereproc.

2) Proiectul SWARA, finanțat de Ministerul Educației, prin contract PN-II-PT-PCCA-2013-4 No 6/2014, ce a avut ca scop principal dezvoltarea unei soluții asistive portabile, rapide și ușor de utilizat de către pacienții cu laringectomii. Această soluție le-ar permite pacienților să interacționeze cu alte persoane într-o manieră naturală, folosind o voce sintetică adaptată. which aims at providing a portable, fast and easy to use assistive speech synthesis system for laryngectomized patients,

SWARA este un proiect colaborativ între: Universitatea Tehnică din Cluj-Napoca, SC FORTECH SRL, Universitatea de Medicină și Farmacie ”Iuliu Haţieganu” din Cluj-Napoca și Universitatea ”Babeş-Bolyai”, Cluj-Napoca.

Cele mai importante rezultate ale acestui proiect au fost corpusul audio SWARA și modulul de preprocesare de text pentru limba română. Ambele componente sunt utilizate în demonstratorul de mai sus.

Mai multe informații despre sistemul original pot fi găsite în următorul articol:

Adriana Stan, Junichi YAMAGISHI, Simon KING, Matthew AYLETT, The Romanian Speech Synthesis (RSS) corpus: building a high quality HMM-based speech synthesis system using a high sampling rate, Speech Communication vol 53, pg. 442-450, 2011, 2011, doi: 10.1016/j.specom.2010.12.002 pdf | bib

Corpusul Romanian Speech Synthesis (RSS)

Corpusul Romanian Speech Synthesis (RSS) a fost înregistrat într-o cameră anecoică în cadrul Universității din Edinburgh. Au fost utilizate 3 microfoane profesionale: Neumann u89i, Sennheiser MKH 800 și DPA 4035. Deși versiunea curentă a corpusului include doar datele înregistrat cu microfonul Sennheiser MKH800, și restul datelor pot fi obținute de la dezvoltatorii corpusului. Toate înregistrările au fost realizate la 96kHz și 24bps și ulterior subeșantionate la 48kHz. Pentru înregistrare, subeșantionare și conversie a ratei de bit s-a utilizat hardware și software ProTools. Datele au fost colectate pe parcursul unei luni, în 8 sesiuni individuale, în cadrul cărora s-au achiziționat aproximativ 500 de propoziții o dată. La începutul fiecărei sesiuni, vorbitorul a ascultat înregistrări anterioare pentru a utiliza o calitate a vocii și o intonație similară.

DOWNLOAD: http://romaniantts.com/rssdb/

Corpusul RSS este descris mai în detaliu în următorul articol:

Corpusul audio SWARA

Corpusul SWARA este un rezultat al proiectului SWARA, finanțat de Ministerul Educației, prin contract PN-II-PT-PCCA-2013-4 No 6/2014. Acesta conține peste 21 de ore de înregistrări audio de înaltă calitate, achiziționate de la 17 vorbitori. Datele sunt segmentate în aproximativ 19,279 de propoziții și includ transcrierea lor ortografică și alinieri semi-automate la nivel de fonem.

DOWNLOAD: http://speech.utcluj.ro/swarasc/

O descriere completă a corpusului SWARA este disponibilă în următorul articol:

Adriana Stan, Florina Dinescu, Cristina Țiple, Șerban Meza, Bogdan Orza, Magdalena Chirilă and Mircea Giurgiu, The SWARA Speech Corpus: A Large Parallel Romanian Read Speech Dataset, in Proceedings of the 9th Conference on Speech Technology and Human-Computer Dialogue, Bucharest, Romania, July 6-9, 2017 pdf | bib

Demonstrator online

Despre RomanianTTS

Dezvoltatori

Corpusul Romanian Speech Synthesis (RSS)

Corpusul audio SWARA