{Interessanti novità dalla banca dati terminologica europea IATE (InterActive Terminology for Europe) che da alcune settimane ha messo a disposizione una versione scaricabile della sua vasta raccolta terminologica, fatta di oltre 8 milioni di termini nelle 24 lingue europee.
In questo articolo vedremo insieme come trasformare il materiale fornito da IATE in un semplice glossario bilingue (formato Excel o TXT “tab-delimited”) da importare successivamente nel nostro CAT preferito. Questo ci permetterà di accedere alla terminologia IATE anche senza una connessione internet.
Il file, che si può scaricare da questa pagina, è in formato TBX (TermBase eXchange) e pesa oltre 2GB. Come spiegato sul sito, si tratta di una versione ridotta della banca dati, nel senso che non contiene i commenti né altri campi che sono presenti nella versione online (la terminologia è invece presente integralmente). Nella tabella che segue una panoramica del materiale che si trova nel file:
Language |
Number of terms |
Bulgarian |
29288 |
Czech |
26202 |
Danish |
568998 |
German |
982209 |
Greek |
500253 |
English |
1285247 |
Spanish |
576790 |
Estonian |
32472 |
Finnish |
306922 |
French |
1244893 |
Irish |
57490 |
Croatian |
8257 |
Hungarian |
47420 |
Italian |
659906 |
Lithuanian |
50313 |
Latvian |
28844 |
Maltese |
35284 |
Dutch |
644824 |
Polish |
54299 |
Portuguese |
506583 |
Romanian |
34820 |
Slovak |
33844 |
Slovenian |
41800 |
Swedish |
290879 |
Latin |
61383 |
Multilinugal |
4892 |
All |
|
Sebbene TermBase eXchange sia uno dei formati che vengono letti ad es. da MultiTerm Convert:
il file è talmente pesante che dopo pochi minuti su un PC con 16GB di RAM l’operazione si interrompe per un problema di memoria:
Meglio così, perché pensandoci bene cosa ce ne facciamo di un glossario in 24 lingue? Il glossario completo potrebbe al massimo essere interessante per un’agenzia, alla quale consiglio di leggere questo articolo in cui Paul Filkin propone una soluzione (abbastanza macchinosa e non gratuita) per convertire l’intera banca dati IATE in un glossario MultiTerm. Ma per noi traduttori professionisti nella maggior parte dei casi è sufficiente creare un semplice glossario bilingue nella nostra combinazione di lavoro (o al massimo 2 o 3 glossari se lavoriamo con più lingue).
Per farlo dobbiamo ricorrere a Xbench di ApSIC, un software abbastanza noto nel nostro ambiente, apprezzato soprattutto per le sue potenti funzioni di assicurazione della qualità da usare in combinazione con quei CAT che non le hanno. Per gestire file di grandi dimensioni come quello fornito da IATE dobbiamo scaricare da questa pagina la versione a 64-bit di Xbench 3.0 – Build 1243 (con la versione a 32-bit non funziona).
Una volta scaricato e installato il programma, dobbiamo specificare il nostro indirizzo e-mail per registrarci (la versione trial funziona per 30 giorni) e quindi creare un nuovo progetto:
Nella finestra Project Properties clicchiamo sul pulsante Add…, selezioniamo il formato del glossario (TBX/MARTIF) e clicchiamo su Next:
Nella scheda successiva File List clicchiamo sul pulsante Add File…, selezioniamo il file TBX che abbiamo scaricato dal sito IATE e clicchiamo su Next:
Nella scheda successiva Properties spuntiamo la casella davanti all’opzione Remove duplicates e clicchiamo su Next:
Il passaggio successivo è un po’ più lungo, perché dopo aver cliccato su Next Xbench carica l’elenco delle lingue. Essendo il file molto pesante, questa operazione può durare anche diversi minuti:
Una volta che Xbench ha caricato l’elenco delle lingue nella scheda Language Settings, togliamo il segno di spunta dall’opzione Include segment even if source or target text is missing (perché nel nostro glossario vogliamo importare solo i termini di una lingua per i quali esiste anche un corrispondente nell’altra lingua), selezioniamo la lingua Source, la lingua Target e clicchiamo sul pulsante OK:
A questo punto la finestra Add Files to Project si chiude e nella finestra Project Properties vediamo che è stato caricato il glossario IATE:
Cliccando sul pulsante OK in alto a destra viene avviata l’estrazione della terminologia nella coppia di lingue da noi scelta. Anche la finestra Project Properties si chiude e Xbench inizia a lavorare. Cliccando su See Details è possibile seguire in tempo reale quanti termini vengono estratti da Xbench:
Una volta terminata l’estrazione, la barra verde in alto scompare e in basso viene visualizzato il numero totale di termini estratti:
Bene, ora manca solo più un passaggio, cioè l’esportazione dei termini estratti in un file Excel che ci permetterà poi di caricare la terminologia nel nostro CAT preferito. Per farlo, dobbiamo selezionare dal menu Tools la voce Export Items…:
Nella finestra Export Items, mettiamo il segno di spunta davanti alla voce All items in a glossary e quindi selezioniamo il glossario appena estratto dal sottostante elenco (cliccare sulla freccia rivolta in basso). Poi nell’area Output selezioniamo il formato XLSX, diamo un nome al file (cliccare sul pulsante con i tre puntini) e spuntiamo la casella Add a header in first row. Controlliamo ancora una volta che tutte le impostazioni siano corrette e clicchiamo sul pulsante OK:
Xbench procede così all’esportazione dei dati nel file Excel:
Nel mio esempio, quando ho aperto il file Excel ho visto che erano stati esportati 441.354 termini. I 27.246 termini mancanti sono probabilmente le ripetizioni che Xbench ha eliminato automaticamente durante l’esportazione:
Oltre alle due colonne delle lingue, nel file Excel ne ho trovate altre 35, la maggior parte delle quali vuote e le rimanenti di scarso interesse per me. Prima di importare i dati in MultiTerm, ho eliminato tutte le colonne e tenuto solo quelle delle due lingue. Quindi ho convertito il file Excel in un file XLM con MultiTerm Convert e poi importato il file XML in MultiTerm. Durante questo ultimo passaggio, MultiTerm ha importato solo circa 330 mila termini al primo giro. Allora ho creato un nuovo file con i 111.000 termini che aveva saltato e di questi ne sono avanzati altri 4000 circa che ho importato al terzo giro, per un totale di 441.350:
Per convertire il file Excel in un file TXT con termini separati da tabulatore (ad es. per WordFast o DejaVu), dal menu File di Excel cliccare su Save As…, selezionare il formato Text (Tab delimited) (*.txt) e cliccare sul pulsante Save:
Questo sistema con Xbench mi sembra – al momento – la soluzione più veloce e interessante, soprattutto perché permette di creare glossari bilingui in qualsiasi combinazione linguistica immaginabile.
Buon divertimento!
Stefano
Buongiorno,
Non ho capito bene questo passaggio: “Nella scheda successiva File List clicchiamo sul pulsante Add File…, selezioniamo il file TBX che abbiamo scaricato dal sito IATE e clicchiamo su Next:”, cioè se non possiamo scaricare il file da IATE perché troppo pesante, come facciamo ad averlo a disposizione per caricarlo in Xbench con l’opzione “Add File”?
Ciao, il file si può scaricare tranquillamente dal sito IATE, solo che non si riesce a importare direttamente perché troppo pesante. Si apre solo con Xbench.
Buongiorno,
ho importato il file xml in multi term e effettivamente non ha importato tutti i termini al primo giro. Mi chiedevo come è possibile sapere quali sono i termini che non sono stati importati e se bisogna eliminarli manualmente dal file excel prima di ripetere l’operazione. Grazie in anticipo. 🙂
Ciao Sonia,
fortunatamente l’import avviene nello stesso ordine dei termini nel file Excel. Quindi basta guardare quanti ne ha importati nel glossario.
Se ne ha importati ad es. 350.000 su 400.000, cancella le prime 350.000 righe nell’Excel, salva il file con un altro nome, convertilo in XML con MT-Convert e quindi importalo in MT. Io l’ho dovuto fare in tutto tre volte, contando ogni volta quanti termini venivano importati.
Ci sono riuscita. Grazie mille!
Salve Stefano,
ho provato a seguire la procedura che hai spiegato ma il tutto si blocca molto presto. Dopo aver caricato il file e spuntato la casella davanti all’opzione Remove duplicates, cliccando su Next si apre una finestra di errore con la scritta “Out of memory”. Hai idea di perché accada?
Grazie, Daniela
Ciao Daniela,
magari il tuo PC non ce la fa a gestire un file così grande. Qui trovi un elenco di combinazioni già estratte da IATE:
Se c’è anche la tua combinazione linguistica, prova a usare questi che sono più piccoli.
Se non ce la fai neanche con questi, per € 10 puoi comprare i file già estratti pronti da importare nei vari formati qui:
http://santrans.net/
Ciao Stefano,
sì, penso anche io che il problema sia del mio pc che non riesce a gestire il file. Non ho ancora provato le soluzioni alternative che mi proponi, ma intanto GRAZIE!
Daniela
[…] Una volta scaricato il file, è necessario convertirlo in modo da poter utilizzare solo le coppie linguistiche di interesse del traduttore, dal momento che l’intera banca dati consiste di oltre 8 milioni di termini nelle 24 lingue europee. Navigando in rete ho trovato un interessante intervento di Stefano KaliFire sul blog Tra di noi in cui spiega come trasformare il file scaricato da IATE in un file da caricare sul proprio CAT preferito. La procedura consiste nell’utilizzare Xbench di ApSIC come “ponte” per esportare i dati contenuti nel file TBX in un file Excel da importare, dopo averlo prima convertito, in Multiterm. Per chi fosse interessato la descrizione della procedura è disponibile a questa pagina. […]
Dear collegue translators,
The method described above for creating language pairs derived from the IATE Termbase using Xbench is not only tedious, but it also does not solve various problems inherent in the IATE termbase itself. In my blog santrans.net I describe in detail the inconsistencies like handling of synonyms (Xbench does not extract but the last one of source term synonyms), embedded formatting codes like , etc., non-UTF-8 characters, embedded context descriptions, etc. etc.
All these problems, plus a lot more, have been solved by my extraction program, that I use to extract and reformat language pairs for direct import into the CAT tool of your choice, like SDL Trados 2011/2014, DVX2/3, memoQ, CafeTran and others.
For a full description of my solution, example files and installation instructions, visit my website santrans.net
Best regards,
Henk Sanderson