`Learning.Algorithm`🔗

`Algorithm`🔗

StructureLearning.Algorithm

Details

A stochastic, sequential algorithm.

structure

Learning.Algorithm.{u_4, u_5} (𝓐 : Type u_4) (𝓨 : Type u_5)
  [MeasurableSpace 𝓐] [MeasurableSpace 𝓨] : Type (max u_4 u_5)
Learning.Algorithm.{u_4, u_5}
  (𝓐 : Type u_4) (𝓨 : Type u_5)
  [MeasurableSpace 𝓐]
  [MeasurableSpace 𝓨] : Type (max u_4 u_5)

Code

structure Algorithm (𝓐 𝓨 : Type*) [MeasurableSpace 𝓐] [MeasurableSpace 𝓨] where
  /-- Policy or sampling rule: distribution of the next action. -/
  policy : (n : ℕ) → Kernel (Iic n → 𝓐 × 𝓨) 𝓐
  /-- The policy is a Markov kernel. -/
  [h_policy : ∀ n, IsMarkovKernel (policy n)]
  /-- Distribution of the first action. -/
  p0 : Measure 𝓐
  /-- The first action distribution is a probability measure. -/
  [hp0 : IsProbabilityMeasure p0]

Used by (216)

condDistrib_reward''
condDistrib_rewardByCount_stepsUntil
condIndepFun_reward_stepsUntil_action
condIndepFun_reward_stepsUntil_action'
etcAlgorithm
hasLaw_rewardByCount
identDistrib_rewardByCount
identDistrib_rewardByCount_eval
identDistrib_rewardByCount_id
integral_regret_le_of_forall_integral_pullCount_le
probReal_sumRewards_le_sumRewards_le
prob_exists_pullCount_eq_and_sumRewards_mem_le
prob_pullCount_eq_and_sumRewards_mem_le
prob_pullCount_mem_and_sumRewards_mem_le
prob_pullCount_prod_sumRewards_mem_le
prob_sumRewards_mem_le
prob_sumRewards_sub_pullCount_mul_ge_le
prob_sumRewards_sub_pullCount_mul_ge_le_of_Fintype
prob_sumRewards_sub_pullCount_mul_le_le
reward_cond_action
reward_cond_stepsUntil
tsAlgorithm
ucbAlgorithm
IsAlgEnvSeq
IsAlgEnvSeqUntil
IsBayesAlgEnvSeq
IsDeterministicAlg
absolutelyContinuous_uniformAlgorithm
actionZero
actionZero_detAlgorithm
detAlgorithm
detAlgorithm_p0
detAlgorithm_policy
eq_trajMeasure_map_frestrictLe_of_isAlgEnvSeqUntil
feedback_evalEnv_ae_eq_eval_action
feedback_evalEnv_ae_eq_eval_action_comp
feedback_onlineEvalEnv_ae_eq_eval_action
forall_feedback_evalEnv_ae_eq_eval_action
forall_feedback_onlineEvalEnv_ae_eq_eval_action
fst_stepKernel
hascondDistrib_feedback_evalEnv
hascondDistrib_feedback_onlineEvalEnv
instIsDeterministicAlgDetAlgorithm
instIsMarkovKernelForallSubtypeNatMemFinsetIicProdPolicy
instIsMarkovKernelForallSubtypeNatMemFinsetIicProdStepKernel
instIsProbabilityMeasureForallNatProdTrajMeasure
instIsProbabilityMeasureP0
isAlgEnvSeqUntil_unique
isAlgEnvSeq_unique
measurable_nextAction
nextAction
nextAction_detAlgorithm
p0_eq_dirac
policy_eq_deterministic
randomSampling
randomSampling_p0
randomSampling_policy
roundRobinAlgorithm
stepKernel
stepKernel_def
trajMeasure
uniformAlgorithm
action
action_add_one_eq
action_zero
algFunction
algFunction_map
condIndepFun_reward_hist
hasCondDistrib_action
hasCondDistrib_action'
hasCondDistrib_reward
hasCondDistrib_reward'
hasCondDistrib_reward_hist_action_pullCount
hasCondDistrib_reward_pullCount_action
hasCondDistrib_reward_zero
hasLaw_action_zero
hist
hist_add_one
hist_add_one_eq_IicSuccProd
hist_add_one_eq_IicSuccProd'
hist_congr
hist_eq
hist_zero
indepFun_fst_add_one_hist
indepFun_snd_apply_pullCount_action
indepFun_snd_hist_cond
initAlgFunction
initAlgFunction_map
isAlgEnvSeq_arrayMeasure
measurable_action
measurable_action_add_one'
measurable_action_add_one_truePast
measurable_algFunction
measurable_hist
measurable_hist_comap
measurable_hist_truePast
measurable_initAlgFunction
measurable_pullCount'_action_add_one
measurable_pullCount_action_add_one
measurable_pullCount_action_add_one_hist
measurable_pullCount_add_one_truePast
measurable_reward
measurable_stepsUntil
probReal_sumRewards_le_sumRewards_le
prob_exists_pullCount_eq_and_sumRewards_mem_le
prob_pullCount_mem_and_sumRewards_mem_le
prob_pullCount_prod_sumRewards_mem_le
prob_sumRewards_le_sumRewards_le
reward
reward_add_one
reward_ae_eq_cond
reward_eq
reward_zero
stepsUntil_congr
stepsUntil_congr_aux
stepsUntil_indicator_congr
sumRewards_eq
truePast
truePast_eq_of_pullCount_eq
truePast_eq_of_pullCount_eq_of_ne_zero
integral_sum_range_actionMean_bestAction_sub_ucb_bestAction_le
integral_sum_range_ucb_action_sub_actionMean_action_le
expectation_pullCount_le
isAlgEnvSeqUntil_roundRobinAlgorithm
hasCondDistrib_action
integral_regret_eq_add
integral_ucb_action_eq_integral_ucb_bestAction
expectation_pullCount_le
expectation_pullCount_le'
isAlgEnvSeqUntil_roundRobinAlgorithm
probReal_ucbIndex_ge
probReal_ucbIndex_le
prob_ucbIndex_ge
prob_ucbIndex_le
AbsolutelyContinuous
density
measurable_density
prodLeft
prodLeft_p0
prodLeft_policy
bayesTrajMeasure
bayesTrajMeasurePosterior
condDistrib_action
condDistrib_feedback
condDistrib_feedback_zero
condDistrib_step
hasCondDistrib_action
hasCondDistrib_feedback
hasCondDistrib_feedback_zero
hasCondDistrib_step
hasLaw_action_zero
hasLaw_step_zero
instIsMarkovKernelForallSubtypeNatMemFinsetIicProdBayesTrajMeasurePosterior
instIsProbabilityMeasureForallNatProdBayesTrajMeasure
isAlgEnvSeq_trajMeasure
isBayesAlgEnvSeq_bayesTrajMeasure
absolutelyContinuous_map_history
adapted_empMean_add_one
adapted_sumRewards_add_one
condDistrib_feedback_stationaryEnv
condIndepFun_feedback_history_action
condIndepFun_feedback_history_action_action
condIndepFun_feedback_history_action_action'
hasCondDistrib_feedback_stationaryEnv
hasCondDistrib_step
hasLaw_history_withDensity
hasLaw_history_zero
hasLaw_step_zero
identDistrib_pullCount_sumRewards
identDistrib_trajectory
isAlgEnvSeqUntil
isBayesAlgEnvSeq
isPredictable_empMean
isPredictable_sumRewards
law_pullCount_sumRewards_unique
law_pullCount_sumRewards_unique'
law_sumRewards_unique
map_trajectory
measurable_history
measurable_step
stronglyAdapted_empMean_add_one
stronglyAdapted_sumRewards_add_one
hasCondDistrib_step
hasLaw_step_zero
mono
ae_IsAlgEnvSeq
condDistrib_history_eq_condDistrib_hist_withDensity
hasCondDistrib_IT_action
hasCondDistrib_IT_feedback
hasCondDistrib_IT_feedback_zero
hasCondDistrib_action'
hasCondDistrib_env_history
hasCondDistrib_feedback'
hasLaw_IT_action_zero
hasLaw_IT_hist
hasLaw_action_zero
hasLaw_history_withDensity
prob_empMean_bestAction_sub_actionMean_le_le
prob_empMean_sub_actionMean_ge_le
action_ae_all_eq
action_ae_eq
action_ae_eq_of_IsAlgEnvSeqUntil
action_zero_ae_eq
action_zero_of_IsAlgEnvSeqUntil
hasLaw_action_zero
hasLaw_action_zero_of_IsAlgEnvSeqUntil
hasCondDistrib_feedback
hasCondDistrib_feedback_zero
condIndepFun_feedback_history_action
condIndepFun_feedback_history_action_action
condIndepFun_feedback_history_action_action'
hasCondDistrib_feedback
pullCount_eq_one
hasLaw_action
iIndep_action
hasCondDistrib_trajMeasure

Actions: Source · Open Issue

Learning.Algorithm🔗

Algorithm🔗

`Learning.Algorithm`🔗

`Algorithm`🔗