Passa ai contenuti principali

Scientists train AI to generate digital face images inspired entirely by the voice of the speaker. The process of the ENEA RM2012A000637 patent is very useful in this application. / Gli scienziati addestrano l'intelligenza artificiale a generare immagini digitali del viso ispirate interamente alla voce dell'altoparlante. Il procedimento del brevetto ENEA RM2012A000637 è molto utile in questa applicazione.


Segnalato dal Dott. Giuseppe Cotellessa / Reported by Dr. Giuseppe Cotellessa



The algorithm approximated faces based on gender, ethnicity and age, rather than individual characteristics. Source: Oh et al.
The algorithm approximated faces based on gender, ethnicity and age, rather than individual characteristics. / L'algoritmo si avvicina alle facce in base al genere, all'etnia e all'età, piuttosto che alle singole caratteristiche Source: Oh et al.

A team of scientists from the Massachusetts Institute of Technology (MIT) Computer Science and Artificial Intelligence Laboratory (CSAIL) has developed artificial intelligence (AI) capable of generating digital images of a face based entirely on brief audio clips of a person’s voice.
Called Speech2Face, the system is a neural network — a series of algorithms designed to recognize patterns and to work much like the human brain. The research team trained the algorithm using millions of online educational videos that featured roughly 100,000 different people talking. Based on that dataset, Speech2Face was able to make connections between vocal cues and specific facial features on the speaker’s face. During testing, the AI algorithm generated photorealistic digital faces to match speakers' voices from the audio clips.
According to the team, the AI algorithm cannot yet produce a definitive image of a person based on voice alone, but it can reportedly identify specific markers in speech suggestive of age, ethnicity and gender. Consequently, Speech2face only generates generic, forward-facing faces with neutral expressions and not the actual faces of the individual speakers featured on the audio clips. However, the team explained that the AI typically captures the correct age ranges, genders and ethnicities of those speaking in the audio clips.
However, the AI algorithm's accuracy declined when presented with variations in language. For instance, when listening to audio clips of an Asian man speaking Chinese, the image generated was that of an Asian face. When the same individual spoke English in another audio clip, the AI produced the face of a white man. Similarly, the AI demonstrated gender bias, pairing low-pitched voices with the faces of males and high-pitched voices with the faces of females.
Although still in its infancy, AI is being applied in a number of unexpected industries including the artsfoodand beverage and law enforcement — this despite many reports that the technology is still flawed.

ITALIANO

Un gruppo di scienziati del Massachusetts Institute of Technology (MIT) Computer Science e Artificial Intelligence Laboratory (CSAIL) ha sviluppato l'intelligenza artificiale (AI) in grado di generare immagini digitali di un volto basato interamente su brevi clip audio della voce di una persona.
Chiamato Speech2Face, il sistema è una rete neurale, una serie di algoritmi progettati per riconoscere gli schemi e per funzionare in modo molto simile al cervello umano. Il gruppo di ricerca ha addestrato l'algoritmo utilizzando milioni di video educativi online che hanno parlato di circa 100.000 persone diverse. Basandosi su quel set di dati, Speech2Face è stato in grado di stabilire connessioni tra i segnali vocali e le caratteristiche facciali specifiche sul viso dell'altoparlante. Durante il test, l'algoritmo AI ha generato volti digitali fotorealistici per abbinare le voci degli altoparlanti alle clip audio.

Secondo il gruppo, l'algoritmo di intelligenza artificiale non può ancora produrre un'immagine definitiva di una persona basata sulla sola voce, ma può riferire a quanto si riferisce a specifici marcatori in un discorso indicativo di età, etnia e genere. Di conseguenza, Speech2face genera solo volti generici rivolti in avanti con espressioni neutre e non i volti reali dei singoli altoparlanti presenti nelle clip audio. Tuttavia, il gruppo ha spiegato che l'intelligenza artificiale in genere cattura le fasce di età, i generi e le etnie corretti di coloro che parlano nelle clip audio.

Tuttavia, l'accuratezza dell'algoritmo dell'IA è diminuita se presentata con variazioni nella lingua. Ad esempio, ascoltando le clip audio di un uomo asiatico che parla cinese, l'immagine generata era quella di un volto asiatico. Quando lo stesso individuo parlava inglese in un'altra clip audio, l'IA produceva il volto di un uomo bianco. Allo stesso modo, l'intelligenza artificiale ha mostrato pregiudizi di genere, abbinando voci a bassa voce con le facce dei maschi e voci acute con i volti delle femmine.

Anche se ancora nella sua infanzia, l'IA viene applicata in una serie di industrie inaspettate, tra cui l'arte, il cibo e le bevande e le forze dell'ordine - questo nonostante molti rapporti indicano che la tecnologia è ancora viziata.

Da:

Commenti

Post popolari in questo blog

Paracetamolo, ibuprofene o novalgina: quali le differenze? / acetaminophen, ibuprofen, metamizole : what are the differences?

Diminuire l'ossigeno per aumentare la longevità? / Decrease Oxygen to Boost Longevity?

Sci-Fi Eye: il nostro futuro urbano / Sci-Fi Eye: Our Urban Future