• Aprenderly
  • Explore
    • Ciencia
    • Ciencias sociales
    • Historia
    • Ingeniería
    • Matemáticas
    • Negocio
    • Numeración de las artes

    Top subcategories

    • Advanced Math
    • Estadísticas y Probabilidades
    • Geometría
    • Trigonometry
    • Álgebra
    • other →

    Top subcategories

    • Astronomía
    • Biología
    • Ciencias ambientales
    • Ciencias de la Tierra
    • Física
    • Medicina
    • Química
    • other →

    Top subcategories

    • Antropología
    • Psicología
    • Sociología
    • other →

    Top subcategories

    • Economía
    • other →

    Top subcategories

    • Ciencias de la computación
    • Diseño web
    • Ingeniería eléctrica
    • other →

    Top subcategories

    • Arquitectura
    • Artes escénicas
    • Ciencias de la religión
    • Comunicación
    • Escritura
    • Filosofía
    • Música
    • other →

    Top subcategories

    • Edad Antigua
    • Historia de Europa
    • Historia de los Estados Unidos de América
    • Historia universal
    • other →
 
Sign in Sign up
Upload
Combinación de evolución y aprendizaje neuronal y por
Combinación de evolución y aprendizaje neuronal y por

Algoritmos de Estimación de Distribuciones en problemas
Algoritmos de Estimación de Distribuciones en problemas

1

Aprendizaje por refuerzo

Aprendizaje por refuerzo o Aprendizaje reforzado es un área del aprendizaje automático inspirada en la psicología conductista, cuya ocupación es determinar qué acciones debe escoger un agente de software en un entorno dado con el fin de maximizar alguna noción de ""recompensa"" o premio acumulado. El problema, por su generalidad, se estudia en muchas otras disciplinas, como la teoría de juegos, teoría de control, investigación de operaciones, teoría de la información, la optimización basada en la simulación, estadísticas y algoritmos genéticos. En otros campos de investigación donde se estudian los métodos de aprendizaje de refuerzo se llama programación dinámica aproximada. El problema se ha estudiado en la teoría de control óptimo, aunque la mayoría de los estudios no están preocupados con la existencia de soluciones óptimas y su caracterización, y no con los aspectos de aprendizaje o de aproximación. En la economía y la teoría de juegos, aprendizaje por refuerzo se puede utilizar para explicar cómo puede surgir equilibrio bajo la racionalidad limitada. En aprendizaje de máquina, el medio ambiente es formulado generalmente como un proceso de decisión de Markov (MDP), y muchos algoritmos de aprendizaje por refuerzo son altamente relacionados técnicas de la programación dinámica. La principal diferencia entre las técnicas clásicas y algoritmos de aprendizaje por refuerzo es que este último no es necesario el conocimiento de los MDP y se dirigen a grandes MDPs donde los métodos exactos se convierten en no viables. Aprendizaje por refuerzo difiere del estándar de aprendizaje supervisado en el que los pares de entradas / salidas correctas nunca se presentan, ni acciones subóptimas corregidas explícitamente. Además, hay un enfoque en el rendimiento en línea, que consiste en encontrar un equilibrio entre la exploración (de un territorio desconocido) y explotación (de los conocimientos actuales).
El centro de tesis, documentos, publicaciones y recursos educativos más amplio de la Red.
  • aprenderly.com © 2025
  • GDPR
  • Privacy
  • Terms
  • Report