Temario del Curso / Course curriculum

  • 1

    Fundamentos matemáticos del análisis espectral / Mathematical foundations of spectral analysis.

  • 2

    Reducción de dimensionalidad del audio digital / Reducing the dimensionality of digital audio

    • Sesión 1. El problema de la alta dimensionalidad del audio digital / Session 1. The problem of high dimensionality in digital audio

    • Sesión 2. Reducción de dimensionalidad mediante la extracción de características / Session 2. Dimensionality reduction through feature extraction

    • Sesión 3. El audio digital como matrices y vectores, y operaciones básicas de álgebra lineal / Session 3. Digital audio as matrices and vectors. Basic operations of linear algebra

    • Sesión 4. El análisis de componentes principales / Session 4. Principal component analysis

    • Sesión 5. PCA en Python3 aplicado al audio digital / Session 5. PCA in Python3 applied to digital audio

    • Tarea C2

  • 3

    Aprendizaje supervisado con regresión lineal, descenso por gradiente y validación cruzada / Supervised learning with linear regression, gradient descent and cross validation

    • Sesión 1. Perspectiva general de técnicas de aprendizaje automático (Machine Learning) / Session 1. Machine Learning Techniques Overview

    • Sesión 2. La regresión lineal / Session 2. The lineal regression

    • Sesión 3. Optimización de la regresión lineal aplicada al audio / Session 3. Optimization of linear regression applied to audio

    • Sesión 4. La validación cruzada / Session 4. Cross validation

    • Sesión 5. Regresión lineal en Python 3 con aplicación al audio / Session 5. Linear regression in Python 3 with application to audio

    • Tarea C3

  • 4

    Clasificación de géneros musicales con Softmax / Classification of musical genres with Softmax

    • Sesión 1. La regresión logística y su comparativa con la regresión lineal / Session 1. Logistic regression and its comparison with linear regression

    • Sesión 2. El gradiente de la entropía cruzada de la regresión logística / Session 2. The cross-entropy gradient of the logistic regression

    • Sesión 3. La regresión logística en Python3 para la clasificación de arco vs pizzicato / Session 3. Logistic regression in Python3 for arc vs pizzicato classification

    • Sesión 4. La función Softmax para la clasificación multi-clase / Session 4. The Softmax function for multiclass classification

    • Sesión 5. Softmax en Python3 para la clasificación de audio de 10 distintos géneros musicales / Session 5. Softmax in Python 3 for audio classification of 10 different musical genres

    • Tarea C4

  • 5

    Clasificación de géneros musicales con redes neuronales artificiales / Classification of musical genres with artificial neural networks

    • Sesión 1. La relación entre Softmax y una red neuronal artificial / Session 1. The relationship between Softmax and an artificial neural network

    • Sesión 2. Definición y análisis matemático de una red neuronal artificial / Session 2. Definition and mathematical analysis of an artificial neural network

    • Sesión 3. Descripción de las tres no-linealidades más comunes para una red neuronal / Session 3. Description of the 3 most common non-linearities for a neural network

    • Sesión 4. El gradiente del objetivo respecto a los parámetros en una red neuronal artificial / Session 4. The gradient of the target with respect to the parameters in an artificial neural network

    • Tarea C5

  • 6

    Tensorflow2 y ejemplos de aplicaciones al audio digital / TensorFlow 2 and examples of applications to digital audio

    • Sesión 1. La librería Tensorflow2 para el desarrollo de redes neuronales artificiales / Session 1. The TensorFlow 2 library for the development of artificial neural networks

    • Sesión 2. Red neuronal en Tensorflow2 para la clasificación de géneros musicales / Session 2. Neural network in TensorFlow 2 for the classification of musical genres

    • Sesión 3. El modelo DeepSpeech para la transcripción de voz en audio digital / Session 3. The DeepSpeech model for voice transcription into digital audio

    • Sesión 4. Modelos neuronales para la síntesis de audio / Session 4. Neural models for audio synthesis

Instructor(s)

Iran Roman

Instructor

Irán R. Román es un neurocientífico teórico, especialista en el diseño de modelos computacionales que explican cómo el cerebro humano procesa el ritmo musical y el análisis de escenas auditivas. Irán tiene un doctorado por la universidad de Stanford, donde estudió en el Centro para Investigación Informática en Música y Acústica. El trabajo científico de Irán ha sido publicado en varias revistas científicas y congresos internacionales. Además, en el año 2019, el centro de Inteligencia Artificial en Stanford le otorgó su premio de investigación más prestigioso. Además de su amplia experiencia como investigador y docente, Irán ha trabajado en compañías como Apple, Tesla Motors, y Plantronics, donde desarrolló algoritmos que aumentan la experiencia de usuarios con dispositivos de audio mediante el uso de agentes que poseen inteligencia artificial.