Revision history for Perl extension AlignmentSet.
$s2t->chFormat($newLocation[,$newFormat,$alignMode]);
$union = $s2t->processAlignment(\&Alignment::getUnion,$newLocation[,$newFormat,$alignMode]);
Note: la única incompatibilidad con la versión anterior es que processAlignment devuelve ahora un objeto. La función convert sigue funcionando como antes pero se aconseja ya no usarla.
$alSet = AlignmentSet->new([["s2t_path","GIZA"]]);
en vez de
$alSet = AlignmentSet->new([[{"sourceToTarget"=>"s2t_path"},"GIZA"]]);
(esta última sigue válida)
$sameContentAlSet = $alSet->copy;
$alSet->setWordFiles($sourcePath,$targetPath); $alSet->visualise(...);
$alSet->setTargetToSourceFile($targetToSourcePath);
--> 1. En todos formatos puede haber sourcetotarget and targettosource alignments. Esto implica cambiar las claves del hash "location":
para NAACL:
"alignment" se cambia por "sourceToTarget" and "targetToSource"
par BLINKER:se aprovecha para hacerlo menos rigido: ahora se especifica
source: entire path of raw text source file
target (optional)
sourceToTarget: directory
targetToSource: directory
--> 2. El unico campo obligatorio del hash "location" es el que dice donde esta el archivo de aligneado: "sourceToTarget". Si solo se trabaja con los links ya no hace falta especificar tambien el source y target (para evaluar, por ejemplo).
--> 3. Sobre los números de pares de frases (sentence pair number):
hay un número externo (inputSentPairNum) que es el que se lee del archivo de entrada (si la entrada son los pares 25 a 50, inputSentPairNum va de 25 a 50). Tambien se necesita un número interno (internalSentPairNum), que siempre empieza a 1. Si en una proxima version se hace possible definir un AlignmentSet desde varios conjuntos de archivos de entrada (por ejemplo los 50 pares de un archivo giza A y los 100 de un archivo giza B), por fuerza la numeracion interna tendra que ser diferente de la de entrada.
Por lo tanto, internalSentPairNum se debe usar por defecto en todos los archivos de salida (dejando la posibilidad, para ciertos formatos, de usar inputSentPairNum para la salida ?).
Ahora la función evaluate también usa internalSentPairNum: compara el par de frases enésimo que le llega con el enésimo de la referencia, cual sea el número que tienen en el archivo de entrada. Una excepción: si el formato es NAACL y el alignMode "as-is", porque en este caso lee a saco las lineas de links de la entrada y los compara tal cual, sin usar la estructura interna.