Videókban azonosítja és keveri át a hangszereket a mesterséges intelligencia

A PixelPlayer nevű rendszert az MIT Számítógéptudományi és Mesterséges Intelligencia Laboratóriuma hozta létre. Ez volt az első próbálkozás, amikor a zenét mint hangforrást elemezték, és videókat, koncertfelvételeket is feldolgozott a mesterséges intelligencia. Az ún. deep learning módszerrel három neurális hálózat keresett mintázatokat az adatokban: az egyik az audio, a másik a videó adatokból tanult, egy harmadik pedig ezeket szintetizálta.

60 órányi videó feldolgozása alapján a PixelPlayer több mint 20 hangszert ismert fel. Az MIT kutatóit magukat is meglepte az az eredmény, amit a videókon kívül más inputot (tehát mondjuk az egyes felvételeken szereplő hangszerek listáját) nem is kapó rendszer produkált: egészen a pixelek szintjéig lemenve meg tudja állapítani, hogy az a dolog, ami a kép egy adott pontján látható, melyik hangért felelős.

A cikk folytatását a Dal+Szerző oldalán olvashatjátok, ide kattintva.