Digitalización, estandarización y estructuración de datos lingüísticos
GUÍA DOCENTE Curso 2024-25
| Titulación: | Máster Universitario en Procesamiento del Lenguaje y Aplicaciones de la Int | 656M |
| Asignatura: | Digitalización, estandarización y estructuración de datos lingüísticos | 5281 |
| Materia: | Corpus y bancos de datos para el procesamiento del lenguaje |
| Módulo: | Lingüística computacional y procesamiento del lenguaje |
| Modalidad de enseñanza de la titulación: | Virtual | Carácter: | Obligatoria |
| Curso: | 1 | Créditos ECTS: | 4,00 | Duración: | Semestral (Primer Semestre) |
| Horas virtuales sincrónicas: | 40,00 | Horas estimadas de trabajo autónomo: | 60,00 |
| Horas virtuales asincrónicas: | 0,00 | |
| Idiomas en que se imparte la asignatura: | Español |
| Idiomas del material de lectura o audiovisual: | Inglés, Francés, Español |
Departamentos responsables de la docencia
| MATEMÁTICAS Y COMPUTACIÓN | R111 |
| Dirección: | C/ Madre de Dios, 53 | Código postal: | 26006 |
| Localidad: | Logroño | Provincia: | La Rioja |
| Teléfono: | 941299452 | Fax: | 941299460 | Correo electrónico: | dpto.dmc@unirioja.es |
| FILOLOGÍAS HISPÁNICA Y CLÁSICAS | R106 |
| Dirección: | C/ San José de Calasanz, 33 | Código postal: | 26004 |
| Localidad: | Logroño | Provincia: | La Rioja |
| Teléfono: | 941299410 | Fax: | 941299419 | Correo electrónico: | dpto.dfhc@unirioja.es |
Profesorado previsto
| Profesor: | Gómez Seibane, Sara | Responsable de la asignatura |
| Teléfono: | 941299408 | Correo electrónico: | sara.gomezs@unirioja.es |
| Despacho: | 309 | Edificio: | FILOLOGÍAS | Tutorías: | Consultar |
| Profesor: | Domínguez Pérez, César |
| Teléfono: | 941299439 | Correo electrónico: | cesar.dominguez@unirioja.es |
| Despacho: | 3234 | Edificio: | CENTRO CIENTÍFICO TECNOLÓGICO | Tutorías: | Consultar |
Descripción de los contenidos
-Recopilación de corpus
-Representatividad
-Índices y concordancias
-Estandarización
-Técnicas de alineamiento
-Datasets y tagsets
-Niveles de anotación
-Bases de datos
-Lenguajes de marcado
-Compilación de corpus con lenguaje estándar de marcado
-Anotación de lenguaje natural para procesamiento y aprendizaje automático
Requisitos previos de conocimientos y competencias para poder cursar con éxito la asignatura
Ninguno especificado.
Competencias
Competencias generales
CG01 - Poseer y comprender conocimientos sobre procesamiento del lenguaje natural y aplicaciones de la inteligencia artificial a la lingüística que aporten una base u oportunidad de ser originales en el desarrollo de soluciones dentro del ámbito de la lingüística computacional
CG02 - Aplicar los conocimientos adquiridos a la resolución de problemas en entornos nuevos o poco conocidos relacionados con las áreas de estudio de lingüística computacional, procesamiento del lenguaje natural y aplicaciones de la inteligencia artificial a la lingüística
CG03 - Integrar conocimientos y formular juicios a partir de una información que incluya reflexiones sobre las responsabilidades sociales y éticas vinculadas a la aplicación de la lingüística computacional, el procesamiento del lenguaje natural y aplicaciones de la inteligencia artificial a la lingüística
CG04 - Comunicar las conclusiones sobre lingüística computacional, procesamiento del lenguaje natural y aplicaciones de la inteligencia artificial a la lingüística -y los conocimientos y razones últimas que las sustentan- a públicos especializados y no especializados de un modo claro y sin ambigüedades
CG05 - Evaluar el progreso del propio aprendizaje de técnicas y recursos de procesamiento del lenguaje natural e inteligencia artificial aplicada a la lingüística
Competencias específicas
CC01 - Aplicar programas de base de datos al diseño e implementación de corpus lingüísticos
CC02 - Evaluar el diseño de un corpus lingüístico de acuerdo con principios de representatividad
CC36 - Recopilar un corpus con un lenguaje estándar de marcado
CC37 - Tokenizar y alinear los datos lingüísticos para que puedan incorporarse a un corpus lingüístico paralelo
CE01 - Distinguir las áreas principales del campo de estudio de la lingüística computacional
CE02 - Justificar la relación entre la lingüística de corpus y la lingüística computacional
CE03 - Aplicar recursos y técnicas de bases de datos al procesamiento del lenguaje natural
CE04 - Sintetizar distintos modos de almacenamiento de datos lingüísticos y bases de datos
CE05 - Estructurar, por medio de programas específicos, datos lingüísticos para procesamiento del lenguaje natural
HD01 - Estructurar datos lingüísticos por medio de distintos lenguajes de marcado
HD02 - Trasladar textos marcados a bases de datos
Resultados del aprendizaje
Los resultados de aprendizaje (Conocimientos o contenidos [CC], competencias[CG y CE] y habilidades o destrezas [HD]) se incluyen en el apartado de competencias hasta que se actualice la aplicación informática del Ministerio de Universidades.
Objetivos de desarrollo sostenible





Temario
Definición de corpus
Clasificación de los corpus
Niveles de anotación de los corpus
Métodos de diseño de los corpus
Estandarización de los corpus
La representatividad de los corpus
Lenguajes de marcado
Bases de datos
Bibliografía
| Tipo: | Título |
| Básica | Giovanni Parodi, Pascual Cantos, Chad Howe (eds.). Lingüística de corpus en español. New York: Routledge, 2022.
|
| Básica | Paniagua, Fernando. Lenguajes de marcas y sistemas de gestión de información. Ediciones Paraninfo, S.A, 2021. |
| Básica | Ramez, Elmasri y Navathe Shamkant. Fundamentos de Sistemas de Bases de Datos. Addison Wesley, 2007. |
| Básica | Rojo, Guillermo. Introducción a la lingüística de corpus en español. New York: Routledge, 2021. |
| Recursos en Internet |
Material didáctico para teoría y prácticas disponible en el aula virtual |
Metodología
Modalidades organizativas
Clases teóricas
Seminarios y talleres
Clases prácticas
Estudio y trabajo en grupo
Estudio y trabajo autónomo individual
Métodos de enseñanza
Método expositivo - Lección magistral
Estudio de casos
Resolución de ejercicios y problemas
Aprendizaje basado en problemas
Aprendizaje orientado a proyectos
Aprendizaje cooperativo
Organización
| Actividades dirigidas | Tamaño de grupo | Horas virtuales sincrónicas | Horas virtuales asincrónicas | Horas totales |
| Clases teóricas | Grande | 15,00 | | 15,00 |
| Seminarios | Reducido | 5,00 | | 5,00 |
| Clases prácticas | Reducido | 20,00 | | 20,00 |
| Total de horas de actividades dirigidas | 40,00 |
| Trabajo autónomo del estudiante | Horas |
| Estudio y trabajo autónomo individual | 60,00 |
| Total de horas de trabajo autónomo | 60,00 |
Evaluación
| Sistema de evaluación | Recuperable | No Recup. |
| Trabajos y proyectos | 70% | 30% |
| Total | 100% |
Criterios críticos para superar la asignatura
1) Criterio crítico para la parte no recuperable (30% de la calificación): en cada uno de los entregables asociados a esta parte se debe obtener al menos un 4 (sobre 10) en la evaluación. Si no se supera este criterio, se puntuará con un 0 el 30% no recuperable, y se tendrá que obtener, para superar la asignatura, o bien en la convocatoria ordinaria o bien en la extraordinaria, al menos un 5 sobre 7 en la parte recuperable.
2) Para superar la asignatura, hay que obtener al menos un 4 (sobre 10) en la parte recuperable.
3) Para superar la asignatura, la calificación final debe ser al menos de 5 (sobre 10), tras ponderar la parte no recuperable (30%) y la parte recuperable (70%).
Versión: 14/06/2024 10:30:27 - G 2024-25 - 656M - 5281 - Impresión: 16/11/2025 01:07:00