Microsoft vuole contribuire a migliorare gli assistenti vocali come Siri e Cortana. Questi sono in grado di comprendere domande del tipo: “Quanto fa 18 x 78” ma non sono in grado di rispondere a domande complesse, come ad esempio “Che cosa mangiavano gli antichi Greci?”. Domande come quest’ultima rimandano al semplicemente ai motori di ricerca, lasciando agli utenti il compito di setacciare il web alla ricerca della risposta.
Microsoft Machine Reading Comprehension (MS MARCO) è un dataset (un insieme di dati strutturati in forma relazionale) con 100.000 domande e risposte disponibili per i ricercatori, pensate per cambiare il grado di “comprensione” degli assistenti. Il dataset è open-source, con risposte scritte da umani e Microsoft spera con questo di far progredire le ricerche nel campo dell”intelligenza artificiale, aiutando i sistemi automatici a comprendere meglio il linguaggio umano.
Sfruttando un grande archivio del genere non sarà necessario cercare sul web le risposte a molte domande e gli assistenti virtuali saranno in grado di replicare scremando per conto nostro le risposte più adatte.
Le 100.000 domande e risposte in questione sono state selezionate tra quelle più comunemente cercate sul motore di ricerca Bing e chieste all’assistente virtuale Cortana. Le risposte fornite da MARCO sono tratte da 200.000 documenti o siti web, verificate dal punto di vista dell’esattezza e riassunte da esseri umani. La ricerca di Microsoft è disponibile su arxiv.org, un archivio per bozze definitive (“pre-prints”) di articoli scientifici in fisica, matematica, informatica, finanza quantitativa e biologia, accessibile via Internet. I dettagli per i ricercatori sono indicati in questo documento (un PDF).