Revision history for Perl extension AlignmentSet.


*** NEW FEATURES of version 1.00 ***
- Now the modules are in the "Lingua::" namespace - The EvaluationResult.pm module now is Lingua::AlignmentEval.pm - en la función "compare" del modulo "AlignmentEval.pm", en las tablas en formato latex, la columna "AER" es ahora "AER (%)".
*** NEW FEATURES of version "candidate #2 to version 1.0" ***

Note: la única incompatibilidad con la versión anterior es que processAlignment devuelve ahora un objeto. La función convert sigue funcionando como antes pero se aconseja ya no usarla.

$alSet = AlignmentSet->new([["s2t_path","GIZA"]]);

en vez de

$alSet = AlignmentSet->new([[{"sourceToTarget"=>"s2t_path"},"GIZA"]]);

(esta última sigue válida)

$alSet= AlignmentSet->new([["myPath"]]);

$alSet->setWordFiles($sourcePath,$targetPath); $alSet->visualise(...);


*** NEW FEATURES of version "candidate #1 to version 1.0" ***

--> 1. En todos formatos puede haber sourcetotarget and targettosource alignments. Esto implica cambiar las claves del hash "location":

para NAACL:
"alignment" se cambia por "sourceToTarget" and "targetToSource"

par BLINKER:se aprovecha para hacerlo menos rigido: ahora se especifica source: entire path of raw text source file target (optional)
sourceToTarget: directory
targetToSource: directory

--> 2. El unico campo obligatorio del hash "location" es el que dice donde esta el archivo de aligneado: "sourceToTarget". Si solo se trabaja con los links ya no hace falta especificar tambien el source y target (para evaluar, por ejemplo).

--> 3. Sobre los números de pares de frases (sentence pair number):

hay un número externo (inputSentPairNum) que es el que se lee del archivo de entrada (si la entrada son los pares 25 a 50, inputSentPairNum va de 25 a 50). Tambien se necesita un número interno (internalSentPairNum), que siempre empieza a 1. Si en una proxima version se hace possible definir un AlignmentSet desde varios conjuntos de archivos de entrada (por ejemplo los 50 pares de un archivo giza A y los 100 de un archivo giza B), por fuerza la numeracion interna tendra que ser diferente de la de entrada.

Por lo tanto, internalSentPairNum se debe usar por defecto en todos los archivos de salida (dejando la posibilidad, para ciertos formatos, de usar inputSentPairNum para la salida ?).

Ahora la función evaluate también usa internalSentPairNum: compara el par de frases enésimo que le llega con el enésimo de la referencia, cual sea el número que tienen en el archivo de entrada. Una excepción: si el formato es NAACL y el alignMode "as-is", porque en este caso lee a saco las lineas de links de la entrada y los compara tal cual, sin usar la estructura interna.