Dos estudiants posen fi a l’etern drama de transcriure àudios
Happy Scribe és un projecte tecnològic creat per un català i un francès capaç de convertir en text àudios en 80 idiomes
Una de les lamentacions que uneixen els periodistes de qualsevol redacció del món és el temps dedicat al llarg de la carrera professional a transcriure hores i hores de l’àudio d’entrevistes. Ara en Marc Assens i l’André Bastié, un català i un francès que no arriben al quart de segle, hi han trobat una solució. El primer, estudiant de màster a la Dublin City University, havia de transcriure una dotzena d’entrevistes per a un treball de la facultat. Fart d’aquesta tasca eterna, va decidir crear un algoritme que automatitzés el procés juntament amb el seu company de pis, estudiant d’Erasmus del grau d’enginyeria de telecomunicacions especialitzat en intel·ligència artificial.
En un primer moment, l’aplicació era un pur codi sense interfície, però ràpidament es va escampar per la facultat. Aleshores, Assens i Bastié van decidir donar-li forma i oferir aquest servei de manera gratuïta a través d’una pàgina web. Happy Scribe -així han batejat la idea- és una plataforma capaç de reconèixer l’àudio de 80 idiomes i dialectes diferents i convertir-lo en text. Així doncs, l’usuari tan sols ha d’adjuntar-hi un arxiu d’àudio d’un màxim de 80 minuts -actualment només admet MP3, però estan a punt d’afegir-hi més formats- i la pàgina envia un enllaç amb la transcripció quan està llesta (triga entre deu minuts i un quart d’hora).
Un cop transcrit, l’aplicació obre un editor per retocar aquelles parts que no s’han interpretat de manera correcta. Com d’acurat és el resultat? Assens explica que la plataforma funciona amb machine learning, és a dir, que aprèn contínuament a mesura que s’hi aboquen més i més transcripcions. Per això espera que en els pròxims mesos el funcionament millori visiblement. “La vam crear en tres o quatre dies mentre estàvem d’exàmens”, explica l’estudiant per Skype des del seu pis dublinès.
El projecte també va arribar a oïda de la publicació nord-americana Poynter. Això va provocar una pluja de sol·licituds que va saturar la pàgina i va ser aleshores quan els creadors van decidir posar un petit preu al servei per finançar el manteniment d’un servidor més potent. “Encara un 70% dels clients que rebem són dels Estats Units”, bromeja l’estudiant. Actualment, la plataforma cobra nou cèntims per cada minut de transcripció, és a dir, convertir un àudio de 30 minuts costa menys de tres euros.
El negoci de Scribe és clar: al mercat hi ha poques solucions que permetin automatitzar aquest procés i les que ho fan ho ofereixen a un preu elevat que els allunya del públic massiu, explica Assens. “Hi ha serveis que requereixen incorporar personal humà i poden arribar a cobrar entre 40 i 60 euros per una transcripció”, afegeix. En els últims dos mesos, la plataforma ha tingut 4.000 clients i l’arquitectura de la web permet que milers de persones la puguin utilitzar alhora sense que es col·lapsi. Ara volen incorporar millores en l’editor, com ara una eina que permeti saber en quin punt de l’àudio s’ha pronunciat cada paraula transcrita.
L’èxit de Happy Scribe ha agafat per sorpresa -i en plens treballs finals- els seus fundadors, però Assens assegura que el projecte tindrà continuïtat. De moment, tots dos tornaran a Barcelona per continuar treballant-hi, ja que Assens començarà al setembre el màster en visió per ordinador de la UAB i la UPC. De fet, aquest estudiant de Cerdanyola del Vallès ja havia intentat crear una start-up al laboratori d’innovació del Canòdrom de Barcelona que no va acabar d’emprendre el vol. Segons Assens, Happy Scribe és sostenible actualment, fet que permetrà als fundadors buscar inversors per fer créixer el projecte “sense córrer massa”.