Riepilogo del testo automatico – Lincoln, Introduzione al riepilogo automatico – Il blog dei dati
Un blog sui dati, l’intelligenza artificiale e i miei progetti
Contents
- 1 Un blog sui dati, l’intelligenza artificiale e i miei progetti
Il riepilogo automatico è prendere un testo lungo, o anche una serie di testi e generare automaticamente un testo molto più breve che contiene la maggior parte delle informazioni. Semplice ? Non molto. Innanzitutto, devi concordare quali informazioni sono davvero importanti. Quindi, dobbiamo essere in grado di estrarli correttamente, riorganizzarli, il tutto in un testo grammaticale e senza intervento umano. E questo è senza contare sul gran numero di varianti di possibili riassunti !
Riepilogo del testo automatico
Con l’esplosione della raccolta e dell’archiviazione delle trame, la necessità di analizzare ed estrarre informazioni pertinenti da questa massa è sempre più presente.
Inoltre, il boom nei modelli di apprendimento profondo per l’elaborazione automatica del linguaggio naturale (TALN) ha facilitato l’uso di dati testuali in questioni operative. Il riepilogo del testo automatico, allo stesso modo della domanda di risposta, l’analisi di somiglianza, la classificazione del documento e altre attività collegate al TALN fanno parte di questi problemi.
È in questo contesto che il Innovazione di laboratorio De Lincoln ha deciso di svolgere lavori sul riassunto del testo automatico. Queste opere hanno permesso di stabilire un punto di riferimento dei modelli di riepilogo automatici disponibili per la lingua francese, per causare il nostro modello e finalmente metterlo in produzione.
formazione modello
Dati
Prima di poter iniziare il nostro lavoro, dovevamo prima creare un database per l’apprendimento di modelli di riepilogo automatico. Abbiamo recuperato oggetti da stampa da diversi siti di notizie francesi. Questa base contiene ~ 60K articoli ed è continuamente aggiornata.
All’avanguardia
Gli algoritmi di riepilogo automatico possono essere separati in due categorie: Riepilogo estrattivo e riassunti astratto. Nella cornice estrattivo, I riassunti sono costruiti dalle frasi estratte dal testo mentre i riassunti astratto sono generati da nuove frasi.
I modelli di sintesi automatici sono abbastanza comuni in inglese, ma sono molto meno in francese.
Metrica
Per la valutazione dei modelli abbiamo usato le seguenti metriche:
ROSSO : Indubbiamente la misurazione più spesso riportata in compiti di sintesi, il sostituto orientato al richiamo per la valutazione del gisting (Lin, 2004) calcola il numero di n-grammi simili tra il riassunto valutato e il riepilogo del riferimento umano.
Meteora: La metrica per la valutazione della traduzione con ordinamento esplicito (Banerjee e Lavie, 2005) è stato progettato per la valutazione dei risultati della traduzione automatica. Si basa sulla media armonica della precisione e del richiamo su nonigrammi, il richiamo che ha una ponderazione maggiore della precisione. Meteor viene spesso utilizzato nelle pubblicazioni di sintesi automatici (vedi et al., 2017; Dong et al., 2019), oltre al rosso.
Novità: È stato notato che alcuni modelli astratti si basano troppo sull’estrazione (vedi et al., 2017; Krysci ’Nski et al.’, 2018). Pertanto, è diventato comune misurare la percentuale di nuovi grammi N prodotti nei riassunti generati.
Fonte: traduzione da Mlsum Paper [2].
La distribuzione di modelli
Per la formazione del modello, abbiamo utilizzato il servizio Cloud Azure ML che fornisce un ambiente completo per la formazione, il monitoraggio e la distribuzione dei modelli.
Abbiamo usato più precisamente l’SDK Python che ti consente di gestire l’intero ambiente azureml in modo programmatico, dal lancio di “lavori” alla distribuzione dei modelli.
Tuttavia, abbiamo incapsulato il nostro modello finale in un’applicazione di pallone containerizzato, quindi distribuito tramite condotte CI/CD su un cluster Kubernetes
I risultati
Prima di tutto, abbiamo fatto diversi tentativi, guidando i modelli su articoli 10K, variando il numero di token indicati all’inizio del modello (512 o 1024) e diverse architetture.
Prima osservazione: le metriche rosse e meteoriche non sembrano molto adatte alla valutazione delle prestazioni dei nostri modelli. Abbiamo quindi scelto di basare i nostri confronti solo sulla colonna sonora e selezionata architettura favorire riassunti più astrattive.
Dopo aver spinto la formazione del nostro modello su articoli da 700k, abbiamo migliorato significativamente i risultati e convalidato una prima versione che troverai di seguito.
Punti di attenzione
Oltre alle prestazioni, questo esperimento ci ha permesso di evidenziare alcuni confini Riepilogo automatico:
Attualmente, la dimensione del testo negli input dei modelli di tipo Trasformare è limitato dalla capacità in memoria delle GPU. Il costo in memoria è quadratico con le dimensioni del testo come input, ciò pone un vero problema per le attività del riepilogo automatico in cui il testo da riassumere è spesso abbastanza lungo.
È molto difficile trovare metriche pertinenti per valutare le attività di generazione di testo.
Stai attento il peso dell’estrattore : Abbiamo anche riscontrato diversi problemi relativi ai dati in se stessi. Il problema principale è che l’articolo dell’articolo era spesso una parafrasi o persino un duplicato delle prime frasi dell’articolo. Ciò ha avuto la conseguenza di incoraggiare i nostri modelli a essere più estrattivi che astratti semplicemente restituendo le prime frasi dell’articolo. Era quindi necessario fare un lavoro di cura eliminando gli articoli in posa per evitare questo tipo di pregiudizio.
Un blog sui dati, l’intelligenza artificiale e i miei progetti.
Il riepilogo automatico è prendere un testo lungo, o anche una serie di testi e generare automaticamente un testo molto più breve che contiene la maggior parte delle informazioni. Semplice ? Non molto. Innanzitutto, devi concordare quali informazioni sono davvero importanti. Quindi, dobbiamo essere in grado di estrarli correttamente, riorganizzarli, il tutto in un testo grammaticale e senza intervento umano. E questo è senza contare sul gran numero di varianti di possibili riassunti !
Sono stato in grado di lavorare per circa un anno su questo emozionante tema appena prima del mio dottorato, questo post è quindi un’opportunità per me di immergermi in questo argomento e di fare il punto delle ultime innovazioni nel settore.
Quindi facciamo una panoramica di questo tema, creando descrivendo i diversi tipi di riassunti che esistono, prima di soffermarsi su due tipi di sistemi leggermente in dettaglio: quelli dell’IA e delle reti neurali e quelli che sono piuttosto focalizzati sull’estrazione ottimale informazione.
I diversi tipi di riepilogo
Quando parliamo di riepilogo, pensiamo spesso alla copertina posteriore di un libro o alla descrizione della sceneggiatura per un film. Generalmente, evitano di rovinare la fine, quando questo è esattamente ciò che si chiede uno strumento di sintesi automatico classico: per dire l’intrigo, in modo che il riassunto possa essere sufficiente per conoscere gli elementi essenziali. Ecco qui Riepilogo mono-documento, Vale a dire che riassumiamo solo un singolo documento (un film, un libro, un articolo, …).
Al contrario, potremmo desiderare a Riepilogo multi-documentario, che ci incontriamo più frequentemente nel contesto delle recensioni della stampa: vogliamo avere un riepilogo delle informazioni più importanti come riportato da varie organizzazioni di stampa.
Una volta che abbiamo deciso il tipo di dati che cerchiamo di riassumere, mono o multi-documentario, abbiamo la scelta tra due approcci: ilestrattivo, che consiste nell’estrazione come ciò che le informazioni prima di rimetterle per creare un riepilogo e l’approccio generativo, che consiste nella creazione di nuove frasi, che non compaiono originariamente nei documenti, al fine di avere un riassunto più fluido e più libero.
Oltre a questi criteri, ci sono vari stili di riassunti, che non ci avvicineremo qui: aggiornare i riepiloghi che consistono nel riassumere le informazioni che compaiono in un nuovo documento e che non sono stati elencati finora, sintetizzati che consistono nell’adozione di un angolo preciso dato dall’utente, ..
AI e reti neurali rivoluzionano il riassunto automatico
Fino alla metà del 2010, la maggior parte dei riassunti era estrattiva. Tuttavia, esisteva già una grande diversità in questi algoritmi che potrebbero variare dalla selezione e dall’estrazione di frasi interi all’estrazione di informazioni precise ricolute quindi nei testi con fori preparati in anticipo chiamati modelli. L’arrivo di nuovi approcci basati sulle reti neurali ha cambiato notevolmente la situazione. Questi algoritmi sono molto più efficaci dei precedenti per generare testo grammaticale e fluido, come quello che si può fare con questa demo GPT.
Le reti neurali, tuttavia, richiedono una formazione di grandi quantità di dati e sono relativamente sbrigate. Lavorano perfettamente per generare commenti per i quali la veridicità è di scarsa importanza, ma può fortemente generare informazioni contraddittorie o semplicemente errate che sono problematiche nel contesto dei riassunti degli articoli di stampa, ad esempio. Molti articoli di ricerca sono interessati a queste “allucinazioni” delle reti neurali.
Un esempio di strumento ibrido: Potara
Il riassunto automatico è stato il primo argomento di ricerca in cui ero interessato e ho avuto l’opportunità di svilupparsi durante il mio padrone un sistema ibrido di riepilogo per estrazione/generazione per un approccio multi-documento, vale a dire riassumere una serie di documenti che parlano dello stesso argomento.
L’idea era di iniziare da un’estrazione classica, vale a dire identificare le frasi più importanti e riunirle per generare un riepilogo. Il problema con questo approccio è che le frasi più importanti potrebbero spesso essere ulteriormente migliorate. Ad esempio, in un articolo che parla di uno sfollamento presidenziale, la frase “Emmanuel Macron ha incontrato la sua controparte americana e ha discusso dell’economia” potrebbe essere migliorata in “Emmanuel Macron Met Joe Biden e ha discusso dell’economia”. I giornalisti evitano attentamente le prove, ci troviamo spesso di fronte a questo tipo di fenomeno.
Per superare questo difetto, possiamo identificare frasi simili presenti in documenti diversi e provare a unire per ottenere una frase migliore. Ansi, dalle seguenti due frasi:
- Emmanuel Macron ha incontrato la sua controparte americana a Washington e ha parlato a lungo di economia.
- Il presidente francese ha incontrato Joe Biden e ha discusso dell’economia.
Possiamo creare una frase breve e informativa:
- Emmanuel Macron Met Joe Biden a Washington e discusso dell’economia.
Sono necessari diversi passaggi per ottenere questo risultato: trovare frasi simili, trovare la migliore fusione, verificare che la fusione sia molto meglio di una frase originale. Prendono parte di molte tecnologie: Word2 con reti neurali per trovare frasi simili, grafici di co-cccurence per unire, ottimizzazione ILP per selezionare le migliori fusioni.
Se vuoi vedere di più, Potara è open source, ma non è stata mantenuta per un po ‘. Questo progetto era stato notevolmente servito da vetrina quando sono stato rilasciato e quindi avevo documentazione, test, integrazione continua, distribuzione su PYPI, ..
Qual è un buon riepilogo automatico ?
Se alcuni criteri sembrano ovvi e relativamente semplici da valutare (ad esempio la grammaticità delle frasi), altri sono molto più complessi. Decidere quali sono le informazioni più importanti di un testo sono già un compito molto soggettivo in sé. Valuta la fluidità, la scelta giusta delle parole usate, ritorna al lavoro di pubblicazione e non parliamo dell’orientamento politico che un riepilogo può prendere !
È probabile che i nuovi modelli generativi basati su reti neurali introducano giudizi o qualificatori di peggiori (o amichevoli), un effetto richiesto quando si tratta di generare un critico cinematografico, ma molto meno quando si parla del programma di un candidato presidenziale !
Il riassunto automatico rimane quindi un argomento molto attivo nella ricerca e può essere per un momento, in particolare per quanto riguarda la capacità di guidare il risultato dell’algoritmo, proprio verso un sentimento particolare, uno stile specifico, una colorazione politica data. Nel settore, inizia ad entrare in dirigenti molto specifici (sintesi delle riunioni per esempio).
Presidenziale 2022: ai tuoi dati !
3 esempi di progetti di dati da realizzare per le elezioni presidenziali del 2022.