Mathematics for Machine Learning – Marc Peter Deisenroth, A. Aldo Faisal, Cheng Soon Ong – 1st Edition

Descripción

El aprendizaje automático consiste en diseñar algoritmos que extraigan automáticamente información valiosa de los datos. El énfasis aquí está en lo “automático”, es decir, el aprendizaje automático se ocupa de metodologías de propósito general que se puedan aplicar a muchos conjuntos de datos, al mismo tiempo que producen algo que sea significativo. Hay tres conceptos que son la base del aprendizaje automático: datos, un modelo y aprendizaje. Dado que el aprendizaje automático está impulsado inherentemente por los datos, los datos son la base del aprendizaje automático.

El objetivo del aprendizaje automático es diseñar metodologías de propósito general para extraer patrones valiosos de los datos, idealmente sin mucha experiencia específica del dominio. Por ejemplo, dado un gran corpus de documentos $por ejemplo, libros en muchas bibliotecas$, se pueden utilizar métodos de aprendizaje automático para encontrar automáticamente temas relevantes que se comparten en todos los documentos $Hoffman et al., 2010$. Para lograr este objetivo, diseñamos modelos que normalmente están relacionados con el proceso que genera los datos, de manera similar a modelar el conjunto de datos que se nos proporciona. Por ejemplo, en un entorno de regresión, el modelo describiría una función que asigna entradas a salidas de valor real. Parafraseando a Mitchell $1997$: se dice que un modelo aprende de los datos si su desempeño en una tarea dada mejora después de que se toman en cuenta los datos. El objetivo es encontrar buenos modelos que se generalicen bien a datos aún no vistos, que nos pueden interesar en el futuro.

El aprendizaje puede entenderse como una forma de aprendizaje para encontrar automáticamente patrones y estructuras en los datos mediante la optimización de los parámetros del modelo. Si bien el aprendizaje automático ha visto muchas historias de éxito y hay software disponible para diseñar y entrenar sistemas de aprendizaje automático ricos y flexibles, creemos que los fundamentos matemáticos del aprendizaje automático son importantes para comprender los principios fundamentales sobre los que se construyen los sistemas de aprendizaje automático más complejos. Comprender estos principios puede facilitar la creación de nuevas soluciones de aprendizaje automático, la comprensión y depuración de enfoques existentes y el aprendizaje sobre los supuestos y limitaciones inherentes de las metodologías con las que estamos trabajando. Un desafío al que nos enfrentamos regularmente en el aprendizaje automático es que los conceptos y las palabras son escurridizos, y un componente particular del sistema de aprendizaje automático puede abstraerse a diferentes conceptos matemáticos. Por ejemplo, la palabra “algoritmo” se usa en al menos dos sentidos diferentes en el contexto del aprendizaje automático. En el primer sentido, utilizamos la frase “algoritmo de aprendizaje automático” para referirnos a un sistema que realiza predicciones basadas en datos de entrada no previstos por el predictor. Nos referimos a estos algoritmos como predictores.

En el segundo sentido, utilizamos exactamente la misma frase “algoritmo de aprendizaje automático” para referirnos a un sistema que adapta algunos parámetros internos del predictor para que funcione bien con datos de entrada futuros no vistos. Aquí nos referimos a esta adaptación como entrenar un sistema. Este libro no resolverá el problema de la ambigüedad, pero queremos destacar de antemano que, según el contexto, las mismas expresiones pueden significar cosas diferentes. Sin embargo, intentamos hacer que el contexto sea lo suficientemente claro para reducir el nivel de ambigüedad. La primera parte de este libro presenta los conceptos matemáticos y los fundamentos necesarios para hablar sobre los tres componentes principales de un sistema de aprendizaje automático: datos, modelos y aprendizaje. Aquí describiremos brevemente estos componentes y los revisaremos nuevamente en el Capítulo 8 una vez que hayamos discutido los conceptos matemáticos necesarios. Si bien no todos los datos son numéricos, a menudo es útil considerar los datos en formato numérico. En este libro, asumimos que los datos ya se han convertido adecuadamente en una representación numérica adecuada para leerlos como vectores en un programa informático. Por lo tanto, pensamos en los datos como vectores.

Como otra ilustración de lo sutiles que son las palabras, hay $al menos$ tres formas diferentes de pensar en los vectores: un vector como una matriz de números $una visión de la ciencia informática$, un vector como una flecha con una dirección y magnitud $una visión de la física$ y un vector como un objeto que obedece a la adición y la escala $una visión matemática$. modelo Un modelo se utiliza normalmente para describir un proceso de generación de datos, similar al conjunto de datos en cuestión. Por lo tanto, los buenos modelos también pueden considerarse versiones simplificadas del proceso real $desconocido$ de generación de datos, capturando aspectos que son relevantes para modelar los datos y extrayendo patrones ocultos de ellos. Un buen modelo puede utilizarse entonces para predecir lo que sucedería en el mundo real sin realizar experimentos en el mundo real. aprendizaje Ahora llegamos al quid de la cuestión, el componente de aprendizaje del aprendizaje automático. Supongamos que se nos proporciona un conjunto de datos y un modelo adecuado.

Ver más
  • Foreword
    Part I Mathematical Foundations
    1 Introduction and Motivation
    1.1 Finding Words for Intuitions
    1.2 Two Ways to Read This Book
    1.3 Exercises and Feedback
    2 Linear Algebra
    2.1 Systems of Linear Equations
    2.2 Matrices
    2.3 Solving Systems of Linear Equations
    2.4 Vector Spaces
    2.5 Linear Independence
    2.6 Basis and Rank
    2.7 Linear Mappings
    2.8 Affine Spaces
    2.9 Further Reading
    3 Analytic Geometry
    3.1 Norms
    3.2 Inner Products
    3.3 Lengths and Distances
    3.4 Angles and Orthogonality
    3.5 Orthonormal Basis
    3.6 Orthogonal Complement
    3.7 Inner Product of Functions
    3.8 Orthogonal Projections
    3.9 Rotations
    3.10 Further Reading
    4 Matrix Decompositions
    4.1 Determinant and Trace
    4.2 Eigenvalues and Eigenvectors
    4.3 Cholesky Decomposition
    4.4 Eigendecomposition and Diagonalization
    4.5 Singular Value Decomposition
    4.6 Matrix Approximation
    4.7 Matrix Phylogeny
    4.8 Further Reading
    5 Vector Calculus
    5.1 Differentiation of Univariate Functions
    5.2 Partial Differentiation and Gradients
    5.3 Gradients of Vector-Valued Functions
    5.4 Gradients of Matrices
    5.5 Useful Identities for Computing Gradients
    5.6 Backpropagation and Automatic Differentiation
    5.7 Higher-Order Derivatives
    5.8 Linearization and Multivariate Taylor Series
    5.9 Further Reading
    6 Probability and Distributions
    6.1 Construction of a Probability Space
    6.2 Discrete and Continuous Probabilities
    6.3 Sum Rule, Product Rule, and Bayes’ Theorem
    6.4 Summary Statistics and Independence
    6.5 Gaussian Distribution
    6.6 Conjugacy and the Exponential Family
    6.7 Change of Variables/Inverse Transform
    6.8 Further Reading
    7 Continuous Optimization
    7.1 Optimization Using Gradient Descent
    7.2 Constrained Optimization and Lagrange Multipliers
    7.3 Convex Optimization
    7.4 Further Reading
    Exercises
    Part II Central Machine Learning Problems
    8 When Models Meet Data
    8.1 Data, Models, and Learning
    8.2 Empirical Risk Minimization
    8.3 Parameter Estimation
    8.4 Probabilistic Modeling and Inference
    8.5 Directed Graphical Models
    8.6 Model Selection
    9 Linear Regression
    9.1 Problem Formulation
    9.2 Parameter Estimation
    9.3 Bayesian Linear Regression
    9.4 Maximum Likelihood as Orthogonal Projection
    9.5 Further Reading
    10 Dimensionality Reduction with Principal Component Analysis
    10.1 Problem Setting
    10.2 Maximum Variance Perspective
    10.3 Projection Perspective
    10.4 Eigenvector Computation and Low-Rank Approximations
    10.5 PCA in High Dimensions
    10.6 Key Steps of PCA in Practice
    10.7 Latent Variable Perspective
    10.8 Further Reading
    11 Density Estimation with Gaussian Mixture Models
    11.1 Gaussian Mixture Model
    11.2 Parameter Learning via Maximum Likelihood
    11.3 EM Algorithm
    11.4 Latent-Variable Perspective
    11.5 Further Reading
    12 Classification with Support Vector Machines
    12.1 Separating Hyperplanes
    12.2 Primal Support Vector Machine
    12.3 Dual Support Vector Machine
    12.4 Kernels
    12.5 Numerical Solution
    12.6 Further Reading
    References
    Index
  • Citar Libro

Descargar Mathematics for Machine Learning

Tipo de Archivo
Idioma
Descargar RAR
Descargar PDF
Páginas
Tamaño
Libro
Inglés
417 pag.
17 mb

¿Qué piensas de este libro?

No hay comentarios

guest
Valorar este libro:
0 Comentarios
Comentarios en línea
Ver todos los comentarios
0
Nos encantaría conocer tu opinión, comenta.x