El tratamiento automático del lenguaje

Tratamiento automático

El tratamiento automático del lenguaje ha sido uno de los avances más notables que ha marcado el fin del siglo XX y ha abierto paso al siglo XXI. Dicho tratamiento no sería lo que hoy conocemos sin la ayuda de la Lingüística computacional y la Ingeniería lingüística. La primera, encargada del desarrollo de procedimientos y métodos informáticos en el tratamiento automático del lenguaje, es de carácter interdisciplinar, es decir, se sirve de la ayuda de otras muchas disciplinas como la lógica, la lingüística, etc. La segunda está vinculada con una vertiente más aplicada y tecnológica de la Lingüística computacional. El impacto de esta última depende de las aplicaciones concretas que se van generando.

Ambas disciplinas han facilitado la labor de los investigadores dedicados al estudio de obras antiguas, en lo que a la extracción de información respecta a partir de grandes masas de texto. Esto es, la búsqueda de información en bases documentales.

El punto clave que ha garantizado el éxito de este desarrollo tan reciente es la búsqueda sobre índice partiendo de palabras y conceptos generales de los documentos, de manera que la base de datos donde quedan recogidos ordena, de acuerdo a los intereses de la persona, todas aquellas obras que contienen la información pertinente que el investigador desea encontrar.

En lo que respecta a la extracción de la información, se recogen con más frecuencia los nombres de autores, fechas, precios, etc. Esto se ordena en torno a dos tipos de metodología: uno relacionado con el conocimiento del tema y la estructura y otro con un método estadístico para identificar únicamente párrafos clave.

Sin duda, la tecnología ha facilitado en gran medida la labor de traductores e investigadores. La Lingüística de corpus, que parte de los corpus tradicionales hasta la elaboración de los que actualmente conocemos, ha experimentado una evolución en el tratamiento informático de la información. Tradicionalmente, el lingüista proporcionaba al ordenador el conocimiento lingüístico y el informático diseñaba el programa que pudiera usar dicha información.

La Lingüística de corpus es de vital importancia para diseñar aplicaciones de reconocimiento del habla pronosticando qué palabras podrán aparecer en que posiciones. Generalmente, hablamos de grandes aportaciones como decidir qué palabras incluir en el diccionario según la frecuencia de aparición, describir significados a partir de los patrones recurrentes hallados, etc.

No cabe duda de que este campo en concreto está echando raíces y, paulatinamente, va asentando nuevos modelos y metodologías de trabajo para mejorar las bases de datos y proporcionar al ser humano una mayor facilidad a la hora de satisfacer su sed de conocimiento.