`Learning.Environment`🔗

`Environment`🔗

StructureLearning.Environment

Details

A stochastic environment.

structure

Learning.Environment.{u_4, u_5} (𝓐 : Type u_4) (𝓨 : Type u_5)
  [MeasurableSpace 𝓐] [MeasurableSpace 𝓨] : Type (max u_4 u_5)
Learning.Environment.{u_4, u_5}
  (𝓐 : Type u_4) (𝓨 : Type u_5)
  [MeasurableSpace 𝓐]
  [MeasurableSpace 𝓨] : Type (max u_4 u_5)

Code

structure Environment (𝓐 𝓨 : Type*) [MeasurableSpace 𝓐] [MeasurableSpace 𝓨] where
  /-- Distribution of the next observation as function of the past history. -/
  feedback : (n : ℕ) → Kernel ((Iic n → 𝓐 × 𝓨) × 𝓐) 𝓨
  /-- The feedback kernels are Markov kernels. -/
  [h_feedback : ∀ n, IsMarkovKernel (feedback n)]
  /-- Distribution of the first observation given the first action. -/
  ν0 : Kernel 𝓐 𝓨
  /-- The initial observation kernel is a Markov kernel. -/
  [hp0 : IsMarkovKernel ν0]

Used by (128)

condDistrib_reward''
condDistrib_rewardByCount_stepsUntil
condIndepFun_reward_stepsUntil_action
condIndepFun_reward_stepsUntil_action'
hasLaw_rewardByCount
identDistrib_rewardByCount
identDistrib_rewardByCount_id
integral_regret_le_of_forall_integral_pullCount_le
probReal_sumRewards_le_sumRewards_le
prob_pullCount_prod_sumRewards_mem_le
reward_cond_action
reward_cond_stepsUntil
IsAlgEnvSeq
IsAlgEnvSeqUntil
IsDeterministicEnv
IsObliviousEnv
bayesStationaryEnv
detEnvironment
eq_trajMeasure_map_frestrictLe_of_isAlgEnvSeqUntil
evalEnv
feedbackCondAction
feedbackCondAction_obliviousEnv
feedbackFun
feedbackFunZero
feedbackFunZero_detEnvironment
feedbackFunZero_onlineEvalEnv
feedbackFun_detEnvironment
feedbackFun_onlineEvalEnv
feedback_eq_deterministic
feedback_eq_feedbackCondAction
feedback_obliviousEnv
feedback_onlineEvalEnv_ae_eq_eval_action
feedback_stationaryEnv
fst_stepKernel
instIsDeterministicEnvDetEnvironment
instIsDeterministicEnvOnlineEvalEnv
instIsMarkovKernelFeedbackCondAction
instIsMarkovKernelForallSubtypeNatMemFinsetIicProdStepKernel
instIsMarkovKernelProdForallSubtypeNatMemFinsetIicFeedback
instIsMarkovKernelν0
instIsObliviousEnvObliviousEnv
instIsObliviousEnvOnlineEvalEnv
instIsObliviousEnvStationaryEnv
instIsProbabilityMeasureForallNatProdTrajMeasure
isAlgEnvSeqUntil_unique
isAlgEnvSeq_unique
measurable_feedbackFun
measurable_feedbackFunZero
obliviousEnv
obliviousEnv_feedback
obliviousEnv_ν0
onlineEvalEnv
stationaryEnv
stepKernel
stepKernel_def
trajMeasure
ν0_eq_deterministic
ν0_eq_feedbackCondAction
ν0_obliviousEnv
ν0_stationaryEnv
hasCondDistrib_reward
isAlgEnvSeq_arrayMeasure
expectation_pullCount_le
isAlgEnvSeqUntil_roundRobinAlgorithm
expectation_pullCount_le
expectation_pullCount_le'
isAlgEnvSeqUntil_roundRobinAlgorithm
condDistrib_action
condDistrib_feedback
condDistrib_feedback_zero
condDistrib_step
hasCondDistrib_action
hasCondDistrib_feedback
hasCondDistrib_feedback_zero
hasCondDistrib_step
hasLaw_action_zero
hasLaw_step_zero
isAlgEnvSeq_trajMeasure
absolutelyContinuous_map_history
action_detAlgorithm_ae_all_eq
action_detAlgorithm_ae_eq
action_zero_detAlgorithm
adapted_empMean_add_one
adapted_sumRewards_add_one
condIndepFun_feedback_history_action
condIndepFun_feedback_history_action_action
condIndepFun_feedback_history_action_action'
hasCondDistrib_step
hasLaw_action_zero_detAlgorithm
hasLaw_history_withDensity
hasLaw_history_zero
hasLaw_step_zero
identDistrib_trajectory
isAlgEnvSeqUntil
isBayesAlgEnvSeq
isPredictable_empMean
isPredictable_sumRewards
law_pullCount_sumRewards_unique'
law_sumRewards_unique
map_trajectory
measurable_history
measurable_step
stronglyAdapted_empMean_add_one
stronglyAdapted_sumRewards_add_one
action_detAlgorithm_ae_eq
action_zero_detAlgorithm
hasCondDistrib_step
hasLaw_action_zero_detAlgorithm
hasLaw_step_zero
mono
ae_IsAlgEnvSeq
action_ae_all_eq
action_ae_eq
action_ae_eq_of_IsAlgEnvSeqUntil
action_zero_ae_eq
action_zero_of_IsAlgEnvSeqUntil
hasLaw_action_zero
hasLaw_action_zero_of_IsAlgEnvSeqUntil
hasCondDistrib_feedback
hasCondDistrib_feedback_zero
condIndepFun_feedback_history_action
condIndepFun_feedback_history_action_action
condIndepFun_feedback_history_action_action'
hasCondDistrib_feedback
pullCount_eq_one
hasLaw_action
iIndep_action
hasCondDistrib_trajMeasure

Actions: Source · Open Issue

Learning.Environment🔗

Environment🔗

`Learning.Environment`🔗

`Environment`🔗