Feeds:
Articoli
Commenti

Archive for the ‘motori’ Category

{ Google Translate fa un bilancio dei suoi primi 11 anni di vita. In un interessante articolo pubblicato alcuni giorni fa da Franz Och, uno dei principali artefici del traduttore automatico più famoso e criticato del mondo, vengono snocciolati alcuni dati:

  • Nel 2001 erano disponibili otto lingue, oggi sono 64
  • La qualità dei testi tradotti è nettamente aumentata
  • Gli utenti attivi sono 200 milioni al mese
  • Ogni giorno viene tradotto quello che i traduttori professionisti traducono in un anno
  • L’uso dell’applicazione mobile è quadruplicata rispetto all’anno scorso

Lo stesso Orch ammette che per i testi di una certa qualità, quella del traduttore professionista è e sarà sempre una figura chiave:

We believe that as machine translation encourages people to speak their own languages more and carry on more global conversations, translation experts will be more crucial than ever.

Prossimo obiettivo di Google Translate: abbattere le barriere linguistiche entro sei anni. Ce la farà?

Stefano

Read Full Post »

{ Stamattina, mentre mandavo un po’ di auguri via e-mail, ho letto l’ultima vignetta di mox’s blog:

Mox & Calvo: Can there be hope for translators?

Come sempre, molto divertente e anche molto vera! Infatti mi è sorta spontanea una domanda: non è che un giorno, quando la gente si sarà ormai “abituata” alle traduzioni sfornate dai vari traduttori automatici disponibili gratuitamente in internet, ritenendole più o meno accettabili, la nostra professione andrà a farsi benedire? Lo dico perché, facendo un paio di prove, la traduzione proposta – anche se piena di errori – alla fine si capisce (ed è gratis). Ed è proprio questo il problema… Mi chiedo quindi come cambierà l’approccio alla traduzione automatica da parte delle generazioni future, sempre più collegate a internet e quindi sempre più esposte a questo tipo di traduzione artificiale. Non c’è il pericolo di una sorta di assuefazione ai testi zeppi di strafalcioni, ma in fin dei conti comprensibili?

Stefano

.

Read Full Post »

{ Oggi faccio un piccolo aggiornamento a uno dei miei primi articoli intitolato Sistema pratico e veloce per cercare la terminologia ufficiale usata in Svizzera, in cui vi spiegavo appunto come effettuare una ricerca nel sito della Confederazione. Anche in questo caso mi rivolgo quindi principalmente a coloro che hanno necessità di trovare termini da e in una delle quattro lingue nazionali svizzere (tedesco, francese, italiano, romancio + inglese) che ricorrono in un testo destinato al mercato elvetico. In fondo all’articolo riporterò anche la stringa da aggiungere a IntelliWebSearch per poter effettuare una ricerca automatica mentre stiamo traducendo.

Questa nuova tecnica permette di effettuare una ricerca direttamente nel sito della Confederazione, passando però attraverso Google e utilizzando il parametro di ricerca site:. Si possono così saltare alcuni passaggi rispetto al metodo descritto in precedenza. Supponiamo questa volta di dover cercare il termine Kontrollbescheinigungserteilende Stelle che compare in un testo che dobbiamo tradurre per un cliente svizzero.
Invece di andare sul sito admin.ch, andiamo su Google e nel campo di ricerca inseriamo la chiave Kontrollbescheinigungserteilende Stelle SR site:admin.ch:

Come abbiamo già visto nell’articolo precedente, aggiungendo le due lettere SR alla nostra chiave di ricerca, limiteremo i risultati ai documenti contenuti nella Raccolta Sistematica (che è quella in formato html consultabile online). Specificando invece site:admin.ch, diciamo a Google di cercare solo nel sito della Confederazione. Meglio il parametro site:admin.ch rispetto a site:www.admin.ch, perché permette di cercare anche nei sottodomini del sito admin.ch.

Approfitto per segnalare anche un interessante articolo intitolato Strategie di ricerca su Google, scritto da Ilaria, contenente un dettagliato elenco dei vari parametri che possono essere utilizzati quando cerchiamo su Google.

Come si vede nella pagina dei risultati, la nostra chiave di ricerca è stata trovata in un documento contenuto nella Raccolta Sistematica, che viene quindi visualizzato tra i primi:

A questo punto seguiamo anche qui la stessa procedura già descritta nell’articolo precedente. Facciamo clic sul primo risultato per visualizzare la pagina e, per avere un riferimento, cerchiamo l’esatta posizione in cui si trova il termine tedesco:

Una volta localizzata la posizione del termine, facciamo clic sulla lingua target che ci interessa in alto a destra della pagina (nel nostro esempio Italiano):

Viene così visualizzata la stessa pagina in italiano con il termine tradotto:

Stringhe IntelliWebSearch
Per creare per esempio questa ricerca nel programma IntelliWebSearch, aggiungere le due seguenti stringhe nei campi Inizio e Fine di una nuova ricerca:

Inizio: http://www.google.com/search?as_q=
Fine: SR&hl=en&num=10&btnG=Google+Search&as_epq=&as_oq=&as_eq=&lr=&cr=&as_ft=i&as_filetype=&as_qdr=all&as_nlo=&as_nhi=&as_occt=any&as_dt=i&as_sitesearch=admin.ch&as_rights=&safe=images

Ecco lo screenshot con i dati completi:

La ricerca qui sopra va bene per cercare termini dal tedesco all’italiano o francese. Per effettuare una ricerca contraria dall’italiano/francese verso il tedesco, sostituire SR con RS. Esempio: legge federale RS site:admin.ch oppure loi fédérale RS site:admin.ch.

Stefano

.

Read Full Post »

{ Spesso ci capita di voler restringere la nostra ricerca a documenti molto recenti, per esempio relativi all’ultimo mese, alle ultime 24 ore o addirittura agli ultimi minuti (news in tempo reale). In un precedente articolo intitolato Nuove e interessanti opzioni di ricerca in Google vi avevo fatto vedere la nuova colonna delle funzioni – attivabile in ogni pagina dei risultati di Google – per affinare i risultati proposti.

Come avevamo visto, tra di esse ce ne sono alcune che ci permettono di limitare i risultati in base alla loro data di pubblicazione:

Se quello che ci interessa è limitare i risultati ai documenti pubblicati in un determinato lasso di tempo (cioè utilizzare una delle opzioni nel cerchio rosso dello screenshot in alto) possiamo automatizzare l’operazione saltando alcuni passaggi. Infatti, invece di andare su Google, inserire il termine da cercare, attendere il caricamento della pagina dei risultati e, da qui, aprire la colonna delle nuove funzioni e selezionarne una (per visualizzare per esempio solo i documenti pubblicati nell’ultima settimana), otteniamo lo stesso risultato aggiungendo uno speciale parametro alla stringa di ricerca. Possiamo così creare per esempio una nuova serie di stringhe da aggiungere a IntelliWebSearch per effettuare questo tipo di ricerche.

Il parametro in questione è tbs=qdr:x. Per specificare il lasso di tempo che ci interessa, dobbiamo sostituire la x con la lettera y (anni) o w (settimane) o d (giorni) o n (minuti) o s (secondi). Ecco alcuni esempi:

Con la stringa http://www.google.com/search?q=bioreattore&hl=it&output=search&tbs=qdr:w&tbo=1 ci vengono proposti i risultati per la chiave bioreattore pubblicati nel corso dell’ultima settimana:

Invece, con la stringa http://www.google.com/search?q=bioreattore&hl=it&output=search&tbs=qdr:y&tbo=1 ci vengono proposti i risultati per la chiave bioreattore pubblicati nel corso dell’ultimo anno:

Per fare un esempio di ricerca di news in tempo reale, inserendo la chiave http://www.google.com/search?q=barack%20obama&hl=it&output=search&tbs=qdr:n&tbo=1, ci vengono proposti i risultati per la chiave Barack Obama pubblicati nel corso dell’ultimo minuto:

Stringhe IntelliWebSearch
Per creare per esempio una nuova ricerca limitata ai documenti pubblicati nel corso dell’ultimo anno, aggiungere le due seguenti stringhe nei campi Inizio e Fine di una nuova ricerca:

Inizio: http://www.google.com/search?q=
Fine: &hl=it&output=search&tbs=qdr:y&tbo=1

Ecco lo screenshot con i dati completi:

Per cambiare l’intervallo di tempo, sostituire la y contenuta nella stringa del campo Fine con una delle altre lettere come spiegato sopra.

Stefano

.

Read Full Post »

{ Oggi parlerò del motore di ricerca Translation Search Machine (TSM). È uno strumento che esiste già da parecchio tempo e penso anche abbastanza noto nell’ambiente. Creato da un’agenzia svizzera, si tratta di un vero e proprio motore di ricerca con un suo bot che va costantemente alla ricerca di siti web tradotti in più lingue. Il motore si aggiorna quindi ogni giorno con nuovi contenuti. I documenti trovati vengono segmentati in singole Translation Unit e indicizzati. Quando l’utente inserisce una chiave di ricerca, viene visualizzata la relativa traduzione in tutte le lingue disponibili.

La versione beta di TSM è stata lanciata il 1° gennaio 2005 e, da allora, ogni giorno vengono aggiunte a questa sorta di translation memory globale circa 1 milione di nuove TU. I primi ad essere stati indicizzati dal bot sono stati i principali siti web elvetici, seguiti poi da quelli di altri Paesi multilingue.

Il motore di ricerca si trova all’indirizzo http://www.ttn.ch/TSM.ASP e si presenta con questa interfaccia grafica:

Nella pagina di presentazione del motore (in inglese) ci sono vari link con la spiegazione dettagliata di tutte le funzioni, alcune delle quali verranno trattate più avanti in questo articolo.

Facendo clic sui link Source Languages, Target Languages e Preferences è possibile impostare il motore secondo le necessità individuali. I primi due link sono abbastanza autoesplicativi (e le lingue selezionabili davvero tante), mentre nella pagina Preferences si può scegliere il numero dei risultati da visualizzare per ogni pagina e altre impostazioni, che al momento di pubblicare questo articolo sembrano non essere (ancora) disponibili. Come si può vedere nello screenshot, ho impostato come lingua source German e come lingue target Italian e French. Apro una piccola parentesi per le colleghe e i colleghi che traducono verso l’italiano: dove possibile, imposto come lingua target insieme all’italiano sempre anche il francese, perché a volte non si trova l’italiano ma il francese sì, che può aiutare molto (lo spagnolo meno). Chiusa parentesi. Un altro vantaggio di questo motore è quello che è in grado di indicizzare documenti di qualsiasi formato (oltre HTML, ASP, PHP, anche DOC, PDF, PPT, ecc.). Diamo per esempio un’occhiata allo screenshot dei risultati per il termine “Kontasktstelle” (fare clic sull’immagine per ingrandirla):

La presentazione dei risultati è abbastanza intuitiva: per ognuno di essi viene visualizzata un’intestazione, seguita dalla TU tedesca in cui ricorre la chiave e, nelle due righe successive, dalla corrispondente TU nelle altre lingue selezionate.

L’intestazione è costituita da tre elementi:

  1. Indirizzo del sito da cui è stata estratta la TU con un link ad altre occorrenze del termine nello stesso sito. Facendo per esempio clic sul link [ Show 88 TUs of http://www.ec.europa.eu ] vengono visualizzate altre 88 TU in cui ricorre lo stesso termine (nel sito http://www.ec.europa.eu)
  2. Formato del documento da cui è stata estratta la TU (DOC, HTM, ecc.)
  3. Titolo della pagina

Ogni singola TU è preceduta da una serie di link (max. cinque), che meritano di essere spiegati nel dettaglio. Anche se sembra cliccabile solo il codice della lingua, è possibile fare clic anche sulla successiva serie di simboli:

  1. Codice lingua – Facendo clic su questo link, viene aperto il documento originale sul server dove era stato trovato. In questo documento non è possibile evidenziale la o le chiavi di ricerca
  2. Simbolo I – Facendo clic su questo simbolo viene aperta la copia locale del documento. Eventuali immagini presenti nel documento vengno tuttavia visualizzate con un link al sito originale. Attenzione: non è detto che le immagini corrispondano effettivamente al testo, perché il testo proviene da una copia locale salvata nel database del motore, mentre le immagini puntano al sito del testo originale, che nel frattempo può essere sparito e le immagini utilizzate per altri scopi. In questo tipo di documento, la o le chiavi di ricerca sono evidenziate in rosso
  3. Simbolo II – Facendo clic su questo simbolo si apre una pagina divisa in due che visualizza da una parte il testo source e, dall’altra, il testo target (copie locali salvate nella memoria di TSM). La o le chiavi di ricerca sono evidenziate in rosso nel testo source.
  4. Simbolo T – Facendo clic su questo simbolo si apre una pagina divisa in due che visualizza da una parte il testo source e, dall’altra, il testo target in formato testo. Le singole TU sono numerate, in modo da poter localizzare più facilmente il termine desiderato.
  5. Simboli ↓ ↑ – Facendo clic sui simboli freccia giù o freccia su è possibile passare rispettivamente alla TU successiva o precedente del documento

Come mi ha spiegato il suo sviluppatore, Martin Bächtold, il motore TSM è collegato a una specie di database centrale e quindi le sue prestazioni sono un po’ limitate, perché il tutto deve essere gestito da un unico computer con tanti processori.
Infatti sta già lavorando da alcuni anni alla generazione successiva, che si chiamerà keybot. Non avendo un database centrale, le sue potenzialità saranno praticamente illimitate. Per poter indicizzare in meno di un anno le 20 miliardi di pagine presenti in internet, la macchina dovrà analizzare oltre 1000 URL al secondo. La ricerca lavorerà in alta parallelizzazione (tipo il motore di ricerca Google), permettendo di indicizzare praticamente qualsiasi pagina tradotta presente sul web. Ecco lo screenshot della homepage di keybot:

E qui lo screenshot della pagina dei risultati:

Non ci resta dunque che aspettare il lancio di questa nuova versione del motore. Eventuali novità verranno naturalmente subito pubblicate sul blog. Stay tuned!

Stefano

.

Read Full Post »

Older Posts »