Descripción del proyecto

Curso Online

Curso sobre Análisis de datos de alta dimensión

Visión general del curso sobre Análisis de datos de alta dimensión

Si está interesado en el análisis de datos de alta dimensión e interpretación, este es el curso de ciencia de datos para usted. Comenzamos aprendiendo la definición matemática de la distancia y la usamos para motivar el uso de la descomposición de valores singulares (SVD) para la reducción de dimensiones de conjuntos de datos de alta dimensión, y escalamiento multidimensional y su conexión con el análisis de componentes principales.

Aprenderemos sobre el efecto por lotes, el problema analítico de datos más desafiante en la genómica actual, y describiremos cómo se pueden usar las técnicas para detectar y ajustar los efectos por lotes. Específicamente, describiremos el análisis de componentes principales y el análisis factorial y demostraremos cómo se aplican estos conceptos a la visualización de datos y al análisis de datos de datos experimentales de alto rendimiento.

Finalmente, damos una breve introducción al aprendizaje automático y lo aplicamos a datos a gran escala de alto rendimiento. Describimos la idea general detrás del análisis de agrupamiento y describimos los medios K y el agrupamiento jerárquico y demostramos cómo se usan en genómica y describimos algoritmos de predicción tales como los vecinos k más cercanos junto con los conceptos de conjuntos de entrenamiento, conjuntos de pruebas, tasas de error y cruces. validación.

Dada la diversidad en la formación educativa de nuestros estudiantes, hemos dividido la serie en siete partes. Puede tomar toda la serie o cursos individuales que le interesen. Si usted es estadístico, debe considerar omitir los primeros dos o tres cursos, de manera similar, si son biólogos, debería considerar omitir algunas de las conferencias introductorias de biología.

Tenga en cuenta que los aspectos de estadística y programación de la clase aumentan en dificultad relativamente rápido en los primeros tres cursos. En el tercer curso, se enseñarán conceptos estadísticos avanzados, como modelos jerárquicos, y en el cuarto, habilidades avanzadas de ingeniería de software, como computación paralela y conceptos de investigación reproducibles.

Estos cursos conforman 2 XSeries y son autodidactas:

PH525.1x: Estadística y R para las ciencias de la vida

PH525.2x: Introducción a modelos lineales y álgebra matricial

PH525.3x: Inferencia estadística y modelado para experimentos de alto rendimiento

PH525.4x: Análisis de datos de alta dimensión

PH525.5x: Introducción al bioconductor: anotación y análisis de genomas y ensayos genómicos.

PH525.6x: informática de alto rendimiento para genómica reproducible

PH525.7x: estudios de caso en genómica funcional

Esta clase fue apoyada en parte por NIH Grant R25GM114818.

Lo que aprenderás en este curso

  • Distancia matemática
  • Reducción de dimensiones
  • Descomposición de valores singulares y análisis de componentes principales
  • Gráficos de escalamiento dimensional múltiple
  • Análisis factorial
  • Manejo de los efectos por lotes
  • Agrupamiento
  • Mapas de calor
  • Conceptos básicos de aprendizaje automático

Cursos Online sobre Análisis de Datos de Alta Dimensión

  • Institución: Harvard
  • Costo: Gratis
  • Certificado: Incluye
  • Modalidad: Online
  • Inicio: Ver Fechas
  • Duración: 4 semanas
  • Dedicación: 2 a 4 horas por semana
  • Idioma: Inglés
  • Subtítulos: Inglés
  • Ir al curso

Etiquetas: