Universidad de La Rioja

Digitalización, estandarización y estructuración de datos lingüísticos
GUÍA DOCENTE    Curso 2024-25

Titulación:Máster Universitario en Procesamiento del Lenguaje y Aplicaciones de la Int656M
Asignatura:Digitalización, estandarización y estructuración de datos lingüísticos5281
Materia:Corpus y bancos de datos para el procesamiento del lenguaje
Módulo:Lingüística computacional y procesamiento del lenguaje
Modalidad de enseñanza de la titulación:VirtualCarácter:Obligatoria
Curso:1Créditos ECTS:4,00Duración:Semestral (Primer Semestre)
Horas virtuales sincrónicas:40,00Horas estimadas de trabajo autónomo:60,00
Horas virtuales asincrónicas:0,00 
Idiomas en que se imparte la asignatura:Español
Idiomas del material de lectura o audiovisual:Inglés, Francés, Español

Departamentos responsables de la docencia

MATEMÁTICAS Y COMPUTACIÓNR111
Dirección:C/ Madre de Dios, 53Código postal:26006
Localidad:LogroñoProvincia:La Rioja
Teléfono:941299452Fax:941299460Correo electrónico:dpto.dmc@unirioja.es
FILOLOGÍAS HISPÁNICA Y CLÁSICASR106
Dirección:C/ San José de Calasanz, 33Código postal:26004
Localidad:LogroñoProvincia:La Rioja
Teléfono:941299410Fax:941299419Correo electrónico:dpto.dfhc@unirioja.es

Profesorado previsto

Profesor:Gómez Seibane, SaraResponsable de la asignatura
Teléfono:941299408Correo electrónico:sara.gomezs@unirioja.es
Despacho:309Edificio:FILOLOGÍASTutorías:Consultar
Profesor:Domínguez Pérez, César
Teléfono:941299439Correo electrónico:cesar.dominguez@unirioja.es
Despacho:3234Edificio:CENTRO CIENTÍFICO TECNOLÓGICOTutorías:Consultar

Descripción de los contenidos

-Recopilación de corpus
-Representatividad
-Índices y concordancias
-Estandarización
-Técnicas de alineamiento
-Datasets y tagsets
-Niveles de anotación
-Bases de datos
-Lenguajes de marcado
-Compilación de corpus con lenguaje estándar de marcado
-Anotación de lenguaje natural para procesamiento y aprendizaje automático

Requisitos previos de conocimientos y competencias para poder cursar con éxito la asignatura

Ninguno especificado.

Competencias

Competencias generales

CG01 - Poseer y comprender conocimientos sobre procesamiento del lenguaje natural y aplicaciones de la inteligencia artificial a la lingüística que aporten una base u oportunidad de ser originales en el desarrollo de soluciones dentro del ámbito de la lingüística computacional
CG02 - Aplicar los conocimientos adquiridos a la resolución de problemas en entornos nuevos o poco conocidos relacionados con las áreas de estudio de lingüística computacional, procesamiento del lenguaje natural y aplicaciones de la inteligencia artificial a la lingüística
CG03 - Integrar conocimientos y formular juicios a partir de una información que incluya reflexiones sobre las responsabilidades sociales y éticas vinculadas a la aplicación de la lingüística computacional, el procesamiento del lenguaje natural y aplicaciones de la inteligencia artificial a la lingüística
CG04 - Comunicar las conclusiones sobre lingüística computacional, procesamiento del lenguaje natural y aplicaciones de la inteligencia artificial a la lingüística -y los conocimientos y razones últimas que las sustentan- a públicos especializados y no especializados de un modo claro y sin ambigüedades
CG05 - Evaluar el progreso del propio aprendizaje de técnicas y recursos de procesamiento del lenguaje natural e inteligencia artificial aplicada a la lingüística

Competencias específicas

CC01 - Aplicar programas de base de datos al diseño e implementación de corpus lingüísticos
CC02 - Evaluar el diseño de un corpus lingüístico de acuerdo con principios de representatividad
CC36 - Recopilar un corpus con un lenguaje estándar de marcado
CC37 - Tokenizar y alinear los datos lingüísticos para que puedan incorporarse a un corpus lingüístico paralelo
CE01 - Distinguir las áreas principales del campo de estudio de la lingüística computacional
CE02 - Justificar la relación entre la lingüística de corpus y la lingüística computacional
CE03 - Aplicar recursos y técnicas de bases de datos al procesamiento del lenguaje natural
CE04 - Sintetizar distintos modos de almacenamiento de datos lingüísticos y bases de datos
CE05 - Estructurar, por medio de programas específicos, datos lingüísticos para procesamiento del lenguaje natural
HD01 - Estructurar datos lingüísticos por medio de distintos lenguajes de marcado
HD02 - Trasladar textos marcados a bases de datos

Resultados del aprendizaje

Los resultados de aprendizaje (Conocimientos o contenidos [CC], competencias[CG y CE] y habilidades o destrezas [HD]) se incluyen en el apartado de competencias hasta que se actualice la aplicación informática del Ministerio de Universidades.

Objetivos de desarrollo sostenible

Objetivos de Desarrollo sostenible4 Educación de calidad.5 Igualdad de género.9 Industria, innovación e infraestructura.12 Producción y consumo responsables.

Temario

Definición de corpus
Clasificación de los corpus
Niveles de anotación de los corpus
Métodos de diseño de los corpus
Estandarización de los corpus
La representatividad de los corpus
Lenguajes de marcado
Bases de datos

Bibliografía

Tipo:Título
BásicaGiovanni Parodi, Pascual Cantos, Chad Howe (eds.). Lingüística de corpus en español. New York: Routledge, 2022.
BásicaPaniagua, Fernando. Lenguajes de marcas y sistemas de gestión de información. Ediciones Paraninfo, S.A, 2021.
BásicaRamez, Elmasri y Navathe Shamkant. Fundamentos de Sistemas de Bases de Datos. Addison Wesley, 2007.
BásicaRojo, Guillermo. Introducción a la lingüística de corpus en español. New York: Routledge, 2021.
Recursos en Internet
Material didáctico para teoría y prácticas disponible en el aula virtual
      http://unirioja.blackboard.com

Metodología

Modalidades organizativas

Clases teóricas
Seminarios y talleres
Clases prácticas
Estudio y trabajo en grupo
Estudio y trabajo autónomo individual

Métodos de enseñanza

Método expositivo - Lección magistral
Estudio de casos
Resolución de ejercicios y problemas
Aprendizaje basado en problemas
Aprendizaje orientado a proyectos
Aprendizaje cooperativo

Organización

Actividades dirigidasTamaño
de grupo
Horas
virtuales
sincrónicas
Horas
virtuales
asincrónicas
Horas
totales
Clases teóricasGrande15,00 15,00
SeminariosReducido5,00 5,00
Clases prácticasReducido20,00 20,00
Total de horas de actividades dirigidas40,00
Trabajo autónomo del estudianteHoras
Estudio y trabajo autónomo individual60,00
Total de horas de trabajo autónomo60,00
Total de horas100,00

Evaluación

Sistema de evaluaciónRecuperableNo Recup.
Trabajos y proyectos70%30%
Total100%

Criterios críticos para superar la asignatura

1) Criterio crítico para la parte no recuperable (30% de la calificación): en cada uno de los entregables asociados a esta parte se debe obtener al menos un 4 (sobre 10) en la evaluación. Si no se supera este criterio, se puntuará con un 0 el 30% no recuperable, y se tendrá que obtener, para superar la asignatura, o bien en la convocatoria ordinaria o bien en la extraordinaria, al menos un 5 sobre 7 en la parte recuperable.
2) Para superar la asignatura, hay que obtener al menos un 4 (sobre 10) en la parte recuperable.
3) Para superar la asignatura, la calificación final debe ser al menos de 5 (sobre 10), tras ponderar la parte no recuperable (30%) y la parte recuperable (70%).

Versión: 14/06/2024 10:30:27 - G 2024-25 - 656M - 5281 - Impresión: 16/11/2025 01:07:00