La Mozilla Foundation senza scopo di lucro sta lavorando su un database di raggi open source per il riconoscimento vocale chiamato Voce comune. A differenza dei grandi giganti (Google, Facebook, ecc.), questo set di dati e il modello di traduzione associato sono accessibili a tutti, rendendolo gratuito da utilizzare nelle applicazioni (open source).
Di Set di dati olandese Tuttavia, è ancora troppo piccolo per essere utile molti troppo prevenuto nei confronti dei giovani.
La cosa bella, però, è che chiunque può registrare testi e verificare i testi registrati:
Aiuta ad espandere il set di dati olandese e offri a tutti l’accesso a un riconoscimento vocale accurato, non solo alle grandi aziende!
È consigliabile creare prima un account, in modo che Mozilla possa correggere le differenze demografiche. (età, sesso, ecc.)
Mozilla Common Voice è un’iniziativa per aiutare le macchine a imparare come parlano le persone reali.
La parola è naturale, la parola è umana. Ecco perché siamo entusiasti di creare una tecnologia vocale utilizzabile per le nostre macchine. Ma per creare sistemi vocali, gli sviluppatori necessitano di una quantità estremamente elevata di dati vocali.
La maggior parte dei dati utilizzati dalle grandi aziende non è disponibile per la maggior parte delle persone. Riteniamo che ciò ostacoli l’innovazione. Ecco perché abbiamo avviato Common Voice, un progetto che aiuta a rendere il riconoscimento vocale aperto e accessibile a tutti.
Ulteriori informazioni su come, cosa e perché: https://commonvoice.mozilla.org/nl/about
Per i nerd:
- Codice sorgente: https://github.com/common-voice/common-voice
- Set di dati: https://huggingface.co/datasets/mozilla-foundation/common_voice_17_0
- Carta: https://arxiv.org/abs/1912.06670
Help Nederlandse taalmodellen beter te worden door bij te dragen aan een open dataset
byu/Balance- inthenetherlands
di Balance-
1 Comment
Is dit wel een goed idee? Meer gratis leerstof voor de AI?