Videókban azonosítja és keveri át a hangszereket a mesterséges intelligencia

A PixelPlayer nevű rendszert az MIT Számítógéptudományi és Mesterséges Intelligencia Laboratóriuma hozta létre. Ez volt az első próbálkozás, amikor a zenét mint hangforrást elemezték, és videókat, koncertfelvételeket is feldolgozott a mesterséges intelligencia. Az ún. deep learning módszerrel három neurális hálózat keresett mintázatokat az adatokban: az egyik az audio, a másik a videó adatokból tanult, egy harmadik pedig ezeket szintetizálta.

60 órányi videó feldolgozása alapján a PixelPlayer több mint 20 hangszert ismert fel. Az MIT kutatóit magukat is meglepte az az eredmény, amit a videókon kívül más inputot (tehát mondjuk az egyes felvételeken szereplő hangszerek listáját) nem is kapó rendszer produkált: egészen a pixelek szintjéig lemenve meg tudja állapítani, hogy az a dolog, ami a kép egy adott pontján látható, melyik hangért felelős.

A cikk folytatását a Dal+Szerző oldalán olvashatjátok, ide kattintva.

h	K	s	c	p	s	v
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30