Feeds:
Articoli
Commenti

Archive for the ‘conversione’ Category

{Interessanti novità dalla banca dati terminologica europea IATE (InterActive Terminology for Europe) che da alcune settimane ha messo a disposizione una versione scaricabile della sua vasta raccolta terminologica, fatta di oltre 8 milioni di termini nelle 24 lingue europee.

IATE

In questo articolo vedremo insieme come trasformare il materiale fornito da IATE in un semplice glossario bilingue (formato Excel o TXT “tab-delimited”) da importare successivamente nel nostro CAT preferito. Questo ci permetterà di accedere alla terminologia IATE anche senza una connessione internet.

Il file, che si può scaricare da questa pagina, è in formato TBX (TermBase eXchange) e pesa oltre 2GB. Come spiegato sul sito, si tratta di una versione ridotta della banca dati, nel senso che non contiene i commenti né altri campi che sono presenti nella versione online (la terminologia è invece presente integralmente). Nella tabella che segue una panoramica del materiale che si trova nel file:

Language

Number of terms

Bulgarian

           29288  

Czech

           26202  

Danish

           568998  

German

           982209  

Greek

           500253  

English

           1285247  

Spanish

           576790  

Estonian

           32472  

Finnish

           306922  

French

           1244893  

Irish

           57490  

Croatian

           8257  

Hungarian

           47420  

Italian

           659906  

Lithuanian

           50313  

Latvian

           28844  

Maltese

           35284  

Dutch

           644824  

Polish

           54299  

Portuguese

           506583  

Romanian

           34820  

Slovak

           33844  

Slovenian

           41800  

Swedish

           290879  

Latin

           61383  

Multilinugal

           4892  

 All

     
8114112  

Sebbene TermBase eXchange sia uno dei formati che vengono letti ad es. da MultiTerm Convert:

MultiTerm Convert

il file è talmente pesante che dopo pochi minuti su un PC con 16GB di RAM l’operazione si interrompe per un problema di memoria:

System Out Of Memory

Meglio così, perché pensandoci bene cosa ce ne facciamo di un glossario in 24 lingue? Il glossario completo potrebbe al massimo essere interessante per un’agenzia, alla quale consiglio di leggere questo articolo in cui Paul Filkin propone una soluzione (abbastanza macchinosa e non gratuita) per convertire l’intera banca dati IATE in un glossario MultiTerm. Ma per noi traduttori professionisti nella maggior parte dei casi è sufficiente creare un semplice glossario bilingue nella nostra combinazione di lavoro (o al massimo 2 o 3 glossari se lavoriamo con più lingue).

Per farlo dobbiamo ricorrere a Xbench di ApSIC, un software abbastanza noto nel nostro ambiente, apprezzato soprattutto per le sue potenti funzioni di assicurazione della qualità da usare in combinazione con quei CAT che non le hanno. Per gestire file di grandi dimensioni come quello fornito da IATE dobbiamo scaricare da questa pagina la versione a 64-bit di Xbench 3.0 – Build 1243 (con la versione a 32-bit non funziona).

Una volta scaricato e installato il programma, dobbiamo specificare il nostro indirizzo e-mail per registrarci (la versione trial funziona per 30 giorni) e quindi creare un nuovo progetto:

Creazione di un nuovo progetto

Nella finestra Project Properties clicchiamo sul pulsante Add…, selezioniamo il formato del glossario (TBX/MARTIF) e clicchiamo su Next:

Selezione del formato

Nella scheda successiva File List clicchiamo sul pulsante Add File…, selezioniamo il file TBX che abbiamo scaricato dal sito IATE e clicchiamo su Next:

Selezione del file

Nella scheda successiva Properties spuntiamo la casella davanti all’opzione Remove duplicates e clicchiamo su Next:

Remove duplicates

Il passaggio successivo è un po’ più lungo, perché dopo aver cliccato su Next Xbench carica l’elenco delle lingue. Essendo il file molto pesante, questa operazione può durare anche diversi minuti:

Caricamento delle lingue

Una volta che Xbench ha caricato l’elenco delle lingue nella scheda Language Settings, togliamo il segno di spunta dall’opzione Include segment even if source or target text is missing (perché nel nostro glossario vogliamo importare solo i termini di una lingua per i quali esiste anche un corrispondente nell’altra lingua), selezioniamo la lingua Source, la lingua Target e clicchiamo sul pulsante OK:

Selezione delle lingue

A questo punto la finestra Add Files to Project si chiude e nella finestra Project Properties vediamo che è stato caricato il glossario IATE:

Xbench pronto per l'estrazione

Cliccando sul pulsante OK in alto a destra viene avviata l’estrazione della terminologia nella coppia di lingue da noi scelta. Anche la finestra Project Properties si chiude e Xbench inizia a lavorare. Cliccando su See Details è possibile seguire in tempo reale quanti termini vengono estratti da Xbench:

Dettagli dell'estrazione

Una volta terminata l’estrazione, la barra verde in alto scompare e in basso viene visualizzato il numero totale di termini estratti:

468.600 termini estratti

Bene, ora manca solo più un passaggio, cioè l’esportazione dei termini estratti in un file Excel che ci permetterà poi di caricare la terminologia nel nostro CAT preferito. Per farlo, dobbiamo selezionare dal menu Tools la voce Export Items…:

Esportazione dei termini estratti

Nella finestra Export Items, mettiamo il segno di spunta davanti alla voce All items in a glossary e quindi selezioniamo il glossario appena estratto dal sottostante elenco (cliccare sulla freccia rivolta in basso). Poi nell’area Output selezioniamo il formato XLSX, diamo un nome al file (cliccare sul pulsante con i tre puntini) e spuntiamo la casella Add a header in first row. Controlliamo ancora una volta che tutte le impostazioni siano corrette e clicchiamo sul pulsante OK:

Impostazioni di esportazione

Xbench procede così all’esportazione dei dati nel file Excel:

Esportazione dei dati

Nel mio esempio, quando ho aperto il file Excel ho visto che erano stati esportati 441.354 termini. I 27.246 termini mancanti sono probabilmente le ripetizioni che Xbench ha eliminato automaticamente durante l’esportazione:

File Excel creato da Xbench

Oltre alle due colonne delle lingue, nel file Excel ne ho trovate altre 35, la maggior parte delle quali vuote e le rimanenti di scarso interesse per me. Prima di importare i dati in MultiTerm, ho eliminato tutte le colonne e tenuto solo quelle delle due lingue. Quindi ho convertito il file Excel in un file XLM con MultiTerm Convert e poi importato il file XML in MultiTerm. Durante questo ultimo passaggio, MultiTerm ha importato solo circa 330 mila termini al primo giro. Allora ho creato un nuovo file con i 111.000 termini che aveva saltato e di questi ne sono avanzati altri 4000 circa che ho importato al terzo giro, per un totale di 441.350:

Glossario MultiTerm de-it

Per convertire il file Excel in un file TXT con termini separati da tabulatore (ad es. per WordFast o DejaVu), dal menu File di Excel cliccare su Save As…, selezionare il formato Text (Tab delimited) (*.txt) e cliccare sul pulsante Save:

Conversione Excel - Tab delimited

Questo sistema con Xbench mi sembra – al momento – la soluzione più veloce e interessante, soprattutto perché permette di creare glossari bilingui in qualsiasi combinazione linguistica immaginabile.

Buon divertimento!

Stefano

Read Full Post »

{ È di alcuni giorni fa la notizia che la Commissione europea Directorate-General for Translation ha rilasciato una nuova versione aggiornata della sua Translation Memory of the Acquis Communautaire (DGT-TM). L’acquis comunitario, cioè l’insieme dei diritti e degli obblighi giuridici e degli obiettivi politici che accomunano e vincolano gli stati membri dell’Unione Europea, comprende:

  • i principi, gli obiettivi politici e ciò che è disposto dai trattati e la legislazione applicativa degli stessi;
  • la giurisprudenza della Corte di giustizia europea;
  • le dichiarazioni e le risoluzioni adottate nell’Unione;
  • gli atti riguardanti la giustizia e gli affari interni;
  • gli atti inerenti alla politica estera e di sicurezza comune;
  • gli accordi internazionali fatti dalla Comunità e quelli conclusi dagli Stati membri tra essi nei settori di competenza dell’Unione.

Questo impressionante corpus di translation unit nelle 22 lingue ufficiali dell’Unione Europea è ora disponibile in una release aggiornata, nella quale sono confluiti anche tutti i dati dal 2004 al 2010. L’intera raccolta può essere scaricata gratuitamente da questa pagina (punto 7 Download the DGT Translation Memory), dove sono contenute anche tutte le necessarie informazioni.

Ecco una breve guida in italiano:

Per convertire questa TM in formato TMX e importarla nel nostro strumento CAT preferito, è necessario scaricare dalla stessa pagina, oltre ai file ZIP dei dati, anche l’apposito programma TMXtract e la relativa libreria a collegamento dinamico (file DLL). Il programma di estrazione ci consente di creare una translation memory bilingue per la o le nostre combinazioni di lavoro.

Una volta scaricato tutto il materiale (i 25 file dei dati DGT-TM-2011, il file TMXtract.exe e il file swt-win32-3218.dll), è necessario spostarlo in un’unica cartella. I file dei dati non devono essere decompressi, perché il programma di estrazione accede direttamente agli ZIP. Lanciando il file TMXtract.exe, si apre questa finestra:

La finestra di TMXtract
Procedere in questo ordine:

  1. Selezionare i file source (i 25 file ZIP DGT-TM-2011 scaricati)
  2. Specificare il file di destinazione in cui verrà salvata la TM
  3. Selezionare la lingua source della nuova TM
  4. Selezionare la lingua target della nuova TM
  5. Controllare che tutte le impostazioni siano corrette e fare clic su Start

A questo punto, il file estratto in formato TMX può essere importato in una nuova TM creata ad hoc. ATTENZIONE: vista l’enorme mole di dati, il processo di importazione nello strumento CAT può durare svariate ore!

Maggiori informazioni in inglese sono reperibili in questa pagina. Sul sito del collega Bruno Ciola è possibile scaricare una serie di file TMX già estratti e di dizionari Autosuggest (per Trados Studio). I dati contenuti in questi file sono quelli della vecchia release DGT-TM-2007, ma possono servire p.es. per fare qualche prova prima di scaricare tutto il malloppo aggiornato da 2GB. Disponibile anche un articolo dettagliato con istruzioni passo-passo in tedesco.

Stefano

Fonte acquis comunitario: Wikipedia

Read Full Post »

{ Segnalo, per chi non se ne fosse già accorto, che una delle novità più interessanti di Office 2007 è la possibilità di salvare i documenti Word, le cartelle di lavoro Excel, le presentazioni PowerPoint, le tabelle, le maschere o i report Access, i documenti Publisher e così via direttamente dal programma in cui li avete creati, senza cioè bisogno di applicativi esterni. Nelle versioni precedenti di Office, come sappiamo, non era possibile creare direttamente un file PDF, a meno di non istallare programmi aggiuntivi come PDF995 o utilizzare l’acrobata, che occupa oltre 600 MB di spazio sul disco e non è certo uno dei più economici.

L’opzione Save as PDF dovrebbe essere presente di default nelle ultime release di Office 2007. In caso contrario, scaricate questo componente aggiuntivo gratuito di Office 2007.

Una volta installato questo componente, potete per esempio creare le vostre fatture in Excel o Word e salvarle in formato PDF senza bisogno di ricorrere a programmi esterni:

Tra l’altro, anche l’acrobata più piccolo (il Reader, per intenderci) occupa quasi 240MB di spazio sul disco fisso… un po’ troppo per un semplice lettore di file PDF:

Mi sono così messo alla ricerca di un’alternativa e alla fine mi sono imbattuto in un comodo programmino freeware che si chiama Foxit Reader e che potete scaricare facendo clic sulla seguente immagine:

Una volta installato, lo potete utilizzare per leggere i vostri file PDF e soprattutto per recuperare un bel po’ di spazio su disco:

Una delle caratteristiche che rende Foxit Reader particolarmente interessante per un traduttore è la funzione di inserimento delle note:

Molto utile quando dobbiamo per esempio rivedere una traduzione che ci viene consegnata in questo formato.

Per coloro che hanno invece bisogno di funzioni di editing o creazione avanzate, ecco un elenco di oltre 50 alternative opensource/free che possono essere utilizzate al posto dei costosi e ingombranti acrobati.

Stefano

.

Read Full Post »

{ Visto che ho già finito il mio Pensum settimanale, ho navigato un po’ alla ricerca di qualche novità interessante. Quella che vi presento ora, un po’ off topic, ma che può comunque tornare utile, è un nuovo e interessante strumento online per convertire un documento PDF in un DOC e poterlo così tradurre più rapidamente con il vostro CAT preferito. Rispetto agli altri programmi, è molto comodo perché appunto online: non dovete installare alcun software sul computer e può essere usato ovunque voi vi troviate. Ovviamente, come è il caso anche degli altri software di conversione da installare su computer, questo tool non è in grado di convertire in Word un PDF costituito solo da immagini (p.es. passato nello scanner).

Il nuovo convertitore online si trova all’indirizzo http://convertpdftoword.net/ (anche molto facile da ricordare).

Ecco la homepage, molto semplice e intuitiva, nella quale dovete selezionare il file sul vostro disco fisso (“Sfoglia”) e poi premere il pulsante “Convert and Download” per avviare la conversione:

Il tempo necessario per la conversione dipende naturalmente dalla vostra connessione internet. Al termine della conversione, facendo clic sul pulsante “Download”, il file DOC viene automaticamente scaricato sul vostro desktop. Penso che questo salvataggio automatico sia dovuto alle mie impostazioni di Firefox, quindi non escludo altre procedure se usate un browser e/o impostazioni diverse.

Ed ecco il risultato:

Ho provato a convertire il mio CV di due pagine: tutto il testo ben formattato e perfettamente utilizzabile con il CAT. Solo il titolo è stato messo in una casella di testo. Tempo impiegato: circa mezzo minuto.

Stefano

.

Read Full Post »

%d blogger hanno fatto clic su Mi Piace per questo: