Law of the sum of rewards #
theorem
Bandits.ArrayModel.identDistrib_sum_range_snd
{๐ : Type u_1}
{m๐ : MeasurableSpace ๐}
[Countable ๐]
{ฮฝ : ProbabilityTheory.Kernel ๐ โ}
[ProbabilityTheory.IsMarkovKernel ฮฝ]
(a : ๐)
(k : โ)
:
ProbabilityTheory.IdentDistrib (fun (ฯ : probSpace ๐ โ) => โ i โ Finset.range k, ฯ.2 i a)
(fun (ฯ : โ โ ๐ โ โ) => โ i โ Finset.range k, ฯ i a) (arrayMeasure ฮฝ) (streamMeasure ฮฝ)
theorem
Bandits.ArrayModel.prob_pullCount_prod_sumRewards_mem_le
{๐ : Type u_1}
{m๐ : MeasurableSpace ๐}
[DecidableEq ๐]
[Countable ๐]
[StandardBorelSpace ๐]
[Nonempty ๐]
{alg : Learning.Algorithm ๐ โ}
{ฮฝ : ProbabilityTheory.Kernel ๐ โ}
[ProbabilityTheory.IsMarkovKernel ฮฝ]
(a : ๐)
(n : โ)
{s : Set (โ ร โ)}
[DecidablePred fun (x : โ) => x โ Prod.fst '' s]
(hs : MeasurableSet s)
:
(arrayMeasure ฮฝ)
{ฯ : probSpace ๐ โ | (Learning.pullCount (action alg) a n ฯ, Learning.sumRewards (action alg) (reward alg) a n ฯ) โ s} โค โ k โ Finset.range (n + 1) with k โ Prod.fst '' s,
(streamMeasure ฮฝ) {ฯ : โ โ ๐ โ โ | โ i โ Finset.range k, ฯ i a โ Prod.mk k โปยน' s}
theorem
Bandits.ArrayModel.prob_pullCount_mem_and_sumRewards_mem_le
{๐ : Type u_1}
{m๐ : MeasurableSpace ๐}
[DecidableEq ๐]
[Countable ๐]
[StandardBorelSpace ๐]
[Nonempty ๐]
{alg : Learning.Algorithm ๐ โ}
{ฮฝ : ProbabilityTheory.Kernel ๐ โ}
[ProbabilityTheory.IsMarkovKernel ฮฝ]
(a : ๐)
(n : โ)
{s : Set โ}
[DecidablePred fun (x : โ) => x โ s]
(hs : MeasurableSet s)
{B : Set โ}
(hB : MeasurableSet B)
:
(arrayMeasure ฮฝ)
{ฯ : probSpace ๐ โ | Learning.pullCount (action alg) a n ฯ โ s โง Learning.sumRewards (action alg) (reward alg) a n ฯ โ B} โค โ k โ Finset.range (n + 1) with k โ s, (streamMeasure ฮฝ) {ฯ : โ โ ๐ โ โ | โ i โ Finset.range k, ฯ i a โ B}
theorem
Bandits.ArrayModel.prob_exists_pullCount_eq_and_sumRewards_mem_le
{๐ : Type u_1}
{m๐ : MeasurableSpace ๐}
[DecidableEq ๐]
[Countable ๐]
[StandardBorelSpace ๐]
[Nonempty ๐]
{alg : Learning.Algorithm ๐ โ}
{ฮฝ : ProbabilityTheory.Kernel ๐ โ}
[ProbabilityTheory.IsMarkovKernel ฮฝ]
(a : ๐)
(m : โ)
{B : Set โ}
(hB : MeasurableSet B)
:
theorem
Bandits.ArrayModel.prob_sumRewards_le_sumRewards_le
{๐ : Type u_1}
{m๐ : MeasurableSpace ๐}
[DecidableEq ๐]
[Countable ๐]
[StandardBorelSpace ๐]
[Nonempty ๐]
{alg : Learning.Algorithm ๐ โ}
{ฮฝ : ProbabilityTheory.Kernel ๐ โ}
[ProbabilityTheory.IsMarkovKernel ฮฝ]
[Fintype ๐]
(a : ๐)
(n mโ mโ : โ)
:
(arrayMeasure ฮฝ)
{ฯ : probSpace ๐ โ | Learning.pullCount (action alg) (bestArm ฮฝ) n ฯ = mโ โง Learning.pullCount (action alg) a n ฯ = mโ โง Learning.sumRewards (action alg) (reward alg) (bestArm ฮฝ) n ฯ โค Learning.sumRewards (action alg) (reward alg) a n ฯ} โค (streamMeasure ฮฝ) {ฯ : โ โ ๐ โ โ | โ i โ Finset.range mโ, ฯ i (bestArm ฮฝ) โค โ i โ Finset.range mโ, ฯ i a}
theorem
Bandits.ArrayModel.probReal_sumRewards_le_sumRewards_le
{๐ : Type u_1}
{m๐ : MeasurableSpace ๐}
[DecidableEq ๐]
[Countable ๐]
[StandardBorelSpace ๐]
[Nonempty ๐]
{alg : Learning.Algorithm ๐ โ}
{ฮฝ : ProbabilityTheory.Kernel ๐ โ}
[ProbabilityTheory.IsMarkovKernel ฮฝ]
[Fintype ๐]
(a : ๐)
(n mโ mโ : โ)
:
(arrayMeasure ฮฝ).real
{ฯ : probSpace ๐ โ | Learning.pullCount (action alg) (bestArm ฮฝ) n ฯ = mโ โง Learning.pullCount (action alg) a n ฯ = mโ โง Learning.sumRewards (action alg) (reward alg) (bestArm ฮฝ) n ฯ โค Learning.sumRewards (action alg) (reward alg) a n ฯ} โค (streamMeasure ฮฝ).real {ฯ : โ โ ๐ โ โ | โ i โ Finset.range mโ, ฯ i (bestArm ฮฝ) โค โ i โ Finset.range mโ, ฯ i a}
theorem
Bandits.sumRewards_eq_comp
{๐ : Type u_1}
{ฮฉ : Type u_2}
[DecidableEq ๐]
{A : โ โ ฮฉ โ ๐}
{R : โ โ ฮฉ โ โ}
{n : โ}
{a : ๐}
:
theorem
Bandits.pullCount_eq_comp
{๐ : Type u_1}
{ฮฉ : Type u_2}
[DecidableEq ๐]
{A : โ โ ฮฉ โ ๐}
{R : โ โ ฮฉ โ โ}
{n : โ}
{a : ๐}
:
theorem
Learning.IsAlgEnvSeq.law_sumRewards_unique
{๐ : Type u_1}
{ฮฉ : Type u_2}
{ฮฉ' : Type u_3}
[DecidableEq ๐]
{m๐ : MeasurableSpace ๐}
{mฮฉ : MeasurableSpace ฮฉ}
{mฮฉ' : MeasurableSpace ฮฉ'}
{P : MeasureTheory.Measure ฮฉ}
[MeasureTheory.IsProbabilityMeasure P]
{P' : MeasureTheory.Measure ฮฉ'}
[MeasureTheory.IsProbabilityMeasure P']
{alg : Algorithm ๐ โ}
{ฮฝ : ProbabilityTheory.Kernel ๐ โ}
[ProbabilityTheory.IsMarkovKernel ฮฝ]
{A : โ โ ฮฉ โ ๐}
{R : โ โ ฮฉ โ โ}
{Aโ : โ โ ฮฉ' โ ๐}
{Rโ : โ โ ฮฉ' โ โ}
{n : โ}
{a : ๐}
[StandardBorelSpace ๐]
[Nonempty ๐]
(h1 : IsAlgEnvSeq A R alg (stationaryEnv ฮฝ) P)
(h2 : IsAlgEnvSeq Aโ Rโ alg (stationaryEnv ฮฝ) P')
:
MeasureTheory.Measure.map (sumRewards A R a n) P = MeasureTheory.Measure.map (sumRewards Aโ Rโ a n) P'
theorem
Learning.IsAlgEnvSeq.law_pullCount_sumRewards_unique'
{๐ : Type u_1}
{ฮฉ : Type u_2}
{ฮฉ' : Type u_3}
[DecidableEq ๐]
{m๐ : MeasurableSpace ๐}
{mฮฉ : MeasurableSpace ฮฉ}
{mฮฉ' : MeasurableSpace ฮฉ'}
{P : MeasureTheory.Measure ฮฉ}
[MeasureTheory.IsProbabilityMeasure P]
{P' : MeasureTheory.Measure ฮฉ'}
[MeasureTheory.IsProbabilityMeasure P']
{alg : Algorithm ๐ โ}
{ฮฝ : ProbabilityTheory.Kernel ๐ โ}
[ProbabilityTheory.IsMarkovKernel ฮฝ]
{A : โ โ ฮฉ โ ๐}
{R : โ โ ฮฉ โ โ}
{Aโ : โ โ ฮฉ' โ ๐}
{Rโ : โ โ ฮฉ' โ โ}
{n : โ}
[StandardBorelSpace ๐]
[Nonempty ๐]
(h1 : IsAlgEnvSeq A R alg (stationaryEnv ฮฝ) P)
(h2 : IsAlgEnvSeq Aโ Rโ alg (stationaryEnv ฮฝ) P')
:
ProbabilityTheory.IdentDistrib (fun (ฯ : ฮฉ) (a : ๐) => (pullCount A a n ฯ, sumRewards A R a n ฯ))
(fun (ฯ : ฮฉ') (a : ๐) => (pullCount Aโ a n ฯ, sumRewards Aโ Rโ a n ฯ)) P P'
theorem
Learning.IsAlgEnvSeq.law_pullCount_sumRewards_unique
{๐ : Type u_1}
{ฮฉ : Type u_2}
{ฮฉ' : Type u_3}
[DecidableEq ๐]
{m๐ : MeasurableSpace ๐}
{mฮฉ : MeasurableSpace ฮฉ}
{mฮฉ' : MeasurableSpace ฮฉ'}
{P : MeasureTheory.Measure ฮฉ}
[MeasureTheory.IsProbabilityMeasure P]
{P' : MeasureTheory.Measure ฮฉ'}
[MeasureTheory.IsProbabilityMeasure P']
{alg : Algorithm ๐ โ}
{ฮฝ : ProbabilityTheory.Kernel ๐ โ}
[ProbabilityTheory.IsMarkovKernel ฮฝ]
{A : โ โ ฮฉ โ ๐}
{R : โ โ ฮฉ โ โ}
{Aโ : โ โ ฮฉ' โ ๐}
{Rโ : โ โ ฮฉ' โ โ}
{n : โ}
{a : ๐}
[StandardBorelSpace ๐]
[Nonempty ๐]
(h1 : IsAlgEnvSeq A R alg (stationaryEnv ฮฝ) P)
(h2 : IsAlgEnvSeq Aโ Rโ alg (stationaryEnv ฮฝ) P')
:
MeasureTheory.Measure.map (fun (ฯ : ฮฉ) => (pullCount A a n ฯ, sumRewards A R a n ฯ)) P = MeasureTheory.Measure.map (fun (ฯ : ฮฉ') => (pullCount Aโ a n ฯ, sumRewards Aโ Rโ a n ฯ)) P'
theorem
Learning.IsAlgEnvSeq.identDistrib_pullCount_sumRewards
{๐ : Type u_1}
{ฮฉ : Type u_2}
{ฮฉ' : Type u_3}
[DecidableEq ๐]
{m๐ : MeasurableSpace ๐}
{mฮฉ : MeasurableSpace ฮฉ}
{mฮฉ' : MeasurableSpace ฮฉ'}
{P : MeasureTheory.Measure ฮฉ}
[MeasureTheory.IsProbabilityMeasure P]
{P' : MeasureTheory.Measure ฮฉ'}
[MeasureTheory.IsProbabilityMeasure P']
{alg : Algorithm ๐ โ}
{ฮฝ : ProbabilityTheory.Kernel ๐ โ}
[ProbabilityTheory.IsMarkovKernel ฮฝ]
{A : โ โ ฮฉ โ ๐}
{R : โ โ ฮฉ โ โ}
{Aโ : โ โ ฮฉ' โ ๐}
{Rโ : โ โ ฮฉ' โ โ}
[StandardBorelSpace ๐]
[Nonempty ๐]
(h1 : IsAlgEnvSeq A R alg (stationaryEnv ฮฝ) P)
(h2 : IsAlgEnvSeq Aโ Rโ alg (stationaryEnv ฮฝ) P')
:
ProbabilityTheory.IdentDistrib (fun (ฯ : ฮฉ) (n : โ) (a : ๐) => (pullCount A a n ฯ, sumRewards A R a n ฯ))
(fun (ฯ' : ฮฉ') (n : โ) (a : ๐) => (pullCount Aโ a n ฯ', sumRewards Aโ Rโ a n ฯ')) P P'
theorem
Bandits.prob_pullCount_prod_sumRewards_mem_le
{๐ : Type u_1}
{ฮฉ : Type u_2}
[DecidableEq ๐]
{m๐ : MeasurableSpace ๐}
{mฮฉ : MeasurableSpace ฮฉ}
{P : MeasureTheory.Measure ฮฉ}
[MeasureTheory.IsProbabilityMeasure P]
{alg : Learning.Algorithm ๐ โ}
{ฮฝ : ProbabilityTheory.Kernel ๐ โ}
[ProbabilityTheory.IsMarkovKernel ฮฝ]
{A : โ โ ฮฉ โ ๐}
{R : โ โ ฮฉ โ โ}
{n : โ}
{a : ๐}
[StandardBorelSpace ๐]
[Nonempty ๐]
[Countable ๐]
(h : Learning.IsAlgEnvSeq A R alg (Learning.stationaryEnv ฮฝ) P)
{s : Set (โ ร โ)}
[DecidablePred fun (x : โ) => x โ Prod.fst '' s]
(hs : MeasurableSet s)
:
theorem
Bandits.prob_pullCount_mem_and_sumRewards_mem_le
{๐ : Type u_1}
{ฮฉ : Type u_2}
[DecidableEq ๐]
{m๐ : MeasurableSpace ๐}
{mฮฉ : MeasurableSpace ฮฉ}
{P : MeasureTheory.Measure ฮฉ}
[MeasureTheory.IsProbabilityMeasure P]
{alg : Learning.Algorithm ๐ โ}
{ฮฝ : ProbabilityTheory.Kernel ๐ โ}
[ProbabilityTheory.IsMarkovKernel ฮฝ]
{A : โ โ ฮฉ โ ๐}
{R : โ โ ฮฉ โ โ}
{n : โ}
{a : ๐}
[StandardBorelSpace ๐]
[Nonempty ๐]
[Countable ๐]
(h : Learning.IsAlgEnvSeq A R alg (Learning.stationaryEnv ฮฝ) P)
{s : Set โ}
[DecidablePred fun (x : โ) => x โ s]
(hs : MeasurableSet s)
{B : Set โ}
(hB : MeasurableSet B)
:
P {ฯ : ฮฉ | Learning.pullCount A a n ฯ โ s โง Learning.sumRewards A R a n ฯ โ B} โค โ k โ Finset.range (n + 1) with k โ s, (streamMeasure ฮฝ) {ฯ : โ โ ๐ โ โ | โ i โ Finset.range k, ฯ i a โ B}
theorem
Bandits.prob_sumRewards_mem_le
{๐ : Type u_1}
{ฮฉ : Type u_2}
[DecidableEq ๐]
{m๐ : MeasurableSpace ๐}
{mฮฉ : MeasurableSpace ฮฉ}
{P : MeasureTheory.Measure ฮฉ}
[MeasureTheory.IsProbabilityMeasure P]
{alg : Learning.Algorithm ๐ โ}
{ฮฝ : ProbabilityTheory.Kernel ๐ โ}
[ProbabilityTheory.IsMarkovKernel ฮฝ]
{A : โ โ ฮฉ โ ๐}
{R : โ โ ฮฉ โ โ}
{n : โ}
{a : ๐}
[StandardBorelSpace ๐]
[Nonempty ๐]
[Countable ๐]
(h : Learning.IsAlgEnvSeq A R alg (Learning.stationaryEnv ฮฝ) P)
{B : Set โ}
(hB : MeasurableSet B)
:
P (Learning.sumRewards A R a n โปยน' B) โค โ k โ Finset.range (n + 1), (streamMeasure ฮฝ) {ฯ : โ โ ๐ โ โ | โ i โ Finset.range k, ฯ i a โ B}
theorem
Bandits.prob_pullCount_eq_and_sumRewards_mem_le
{๐ : Type u_1}
{ฮฉ : Type u_2}
[DecidableEq ๐]
{m๐ : MeasurableSpace ๐}
{mฮฉ : MeasurableSpace ฮฉ}
{P : MeasureTheory.Measure ฮฉ}
[MeasureTheory.IsProbabilityMeasure P]
{alg : Learning.Algorithm ๐ โ}
{ฮฝ : ProbabilityTheory.Kernel ๐ โ}
[ProbabilityTheory.IsMarkovKernel ฮฝ]
{A : โ โ ฮฉ โ ๐}
{R : โ โ ฮฉ โ โ}
{n : โ}
{a : ๐}
[StandardBorelSpace ๐]
[Nonempty ๐]
[Countable ๐]
(h : Learning.IsAlgEnvSeq A R alg (Learning.stationaryEnv ฮฝ) P)
{m : โ}
(hm : m โค n)
{B : Set โ}
(hB : MeasurableSet B)
:
P {ฯ : ฮฉ | Learning.pullCount A a n ฯ = m โง Learning.sumRewards A R a n ฯ โ B} โค (streamMeasure ฮฝ) {ฯ : โ โ ๐ โ โ | โ i โ Finset.range m, ฯ i a โ B}
theorem
Bandits.prob_exists_pullCount_eq_and_sumRewards_mem_le
{๐ : Type u_1}
{ฮฉ : Type u_2}
[DecidableEq ๐]
{m๐ : MeasurableSpace ๐}
{mฮฉ : MeasurableSpace ฮฉ}
{P : MeasureTheory.Measure ฮฉ}
[MeasureTheory.IsProbabilityMeasure P]
{alg : Learning.Algorithm ๐ โ}
{ฮฝ : ProbabilityTheory.Kernel ๐ โ}
[ProbabilityTheory.IsMarkovKernel ฮฝ]
{A : โ โ ฮฉ โ ๐}
{R : โ โ ฮฉ โ โ}
[StandardBorelSpace ๐]
[Nonempty ๐]
[Countable ๐]
(h : Learning.IsAlgEnvSeq A R alg (Learning.stationaryEnv ฮฝ) P)
(a : ๐)
(m : โ)
{B : Set โ}
(hB : MeasurableSet B)
:
P {ฯ : ฮฉ | โ (n : โ), Learning.pullCount A a n ฯ = m โง Learning.sumRewards A R a n ฯ โ B} โค (streamMeasure ฮฝ) {ฯ : โ โ ๐ โ โ | โ i โ Finset.range m, ฯ i a โ B}
theorem
Bandits.probReal_sumRewards_le_sumRewards_le
{๐ : Type u_1}
{ฮฉ : Type u_2}
[DecidableEq ๐]
{m๐ : MeasurableSpace ๐}
{mฮฉ : MeasurableSpace ฮฉ}
{P : MeasureTheory.Measure ฮฉ}
[MeasureTheory.IsProbabilityMeasure P]
{alg : Learning.Algorithm ๐ โ}
{ฮฝ : ProbabilityTheory.Kernel ๐ โ}
[ProbabilityTheory.IsMarkovKernel ฮฝ]
{A : โ โ ฮฉ โ ๐}
{R : โ โ ฮฉ โ โ}
[StandardBorelSpace ๐]
[Nonempty ๐]
[Fintype ๐]
(h : Learning.IsAlgEnvSeq A R alg (Learning.stationaryEnv ฮฝ) P)
(a : ๐)
(n mโ mโ : โ)
:
P.real
{ฯ : ฮฉ | Learning.pullCount A (bestArm ฮฝ) n ฯ = mโ โง Learning.pullCount A a n ฯ = mโ โง Learning.sumRewards A R (bestArm ฮฝ) n ฯ โค Learning.sumRewards A R a n ฯ} โค (streamMeasure ฮฝ).real {ฯ : โ โ ๐ โ โ | โ i โ Finset.range mโ, ฯ i (bestArm ฮฝ) โค โ i โ Finset.range mโ, ฯ i a}
theorem
Bandits.StreamMeasure.prob_sum_range_sub_ge_le_of_HasSubgaussianMGF
{๐ : Type u_1}
{m๐ : MeasurableSpace ๐}
{ฮฝ : ProbabilityTheory.Kernel ๐ โ}
[ProbabilityTheory.IsMarkovKernel ฮฝ]
{a : ๐}
{ฯ2 : NNReal}
(h : ProbabilityTheory.HasSubgaussianMGF (fun (x : โ) => x - โซ (x : โ), id x โฮฝ a) ฯ2 (ฮฝ a))
{ฮต : โ}
(hฮต : 0 โค ฮต)
(n : โ)
:
theorem
Bandits.StreamMeasure.prob_sum_range_sub_le_le_of_HasSubgaussianMGF
{๐ : Type u_1}
{m๐ : MeasurableSpace ๐}
{ฮฝ : ProbabilityTheory.Kernel ๐ โ}
[ProbabilityTheory.IsMarkovKernel ฮฝ]
{a : ๐}
{ฯ2 : NNReal}
(h : ProbabilityTheory.HasSubgaussianMGF (fun (x : โ) => x - โซ (x : โ), id x โฮฝ a) ฯ2 (ฮฝ a))
{ฮต : โ}
(hฮต : 0 โค ฮต)
(n : โ)
:
theorem
Bandits.StreamMeasure.prob_sum_range_sub_ge_le_of_HasSubgaussianMGF'
{๐ : Type u_1}
{m๐ : MeasurableSpace ๐}
{ฮฝ : ProbabilityTheory.Kernel ๐ โ}
[ProbabilityTheory.IsMarkovKernel ฮฝ]
{n : โ}
{a : ๐}
{ฯ2 : NNReal}
(hฯ2 : 0 < ฯ2)
(h : ProbabilityTheory.HasSubgaussianMGF (fun (x : โ) => x - โซ (x : โ), id x โฮฝ a) ฯ2 (ฮฝ a))
{ฮด : โ}
(hฮด : 0 < ฮด)
(hn : 0 < n)
:
theorem
Bandits.StreamMeasure.prob_sum_range_sub_le_le_of_HasSubgaussianMGF'
{๐ : Type u_1}
{m๐ : MeasurableSpace ๐}
{ฮฝ : ProbabilityTheory.Kernel ๐ โ}
[ProbabilityTheory.IsMarkovKernel ฮฝ]
{n : โ}
{a : ๐}
{ฯ2 : NNReal}
(hฯ2 : 0 < ฯ2)
(h : ProbabilityTheory.HasSubgaussianMGF (fun (x : โ) => x - โซ (x : โ), id x โฮฝ a) ฯ2 (ฮฝ a))
{ฮด : โ}
(hฮด : 0 < ฮด)
(hn : 0 < n)
:
theorem
Bandits.prob_sumRewards_sub_pullCount_mul_ge_le
{๐ : Type u_1}
{ฮฉ : Type u_2}
[DecidableEq ๐]
{m๐ : MeasurableSpace ๐}
{mฮฉ : MeasurableSpace ฮฉ}
{P : MeasureTheory.Measure ฮฉ}
[MeasureTheory.IsProbabilityMeasure P]
{alg : Learning.Algorithm ๐ โ}
{ฮฝ : ProbabilityTheory.Kernel ๐ โ}
[ProbabilityTheory.IsMarkovKernel ฮฝ]
{A : โ โ ฮฉ โ ๐}
{R : โ โ ฮฉ โ โ}
{n : โ}
{a : ๐}
[StandardBorelSpace ๐]
[Nonempty ๐]
[Countable ๐]
{ฯ2 : NNReal}
(hฯ2 : 0 < ฯ2)
(ha : ProbabilityTheory.HasSubgaussianMGF (fun (x : โ) => x - โซ (x : โ), id x โฮฝ a) ฯ2 (ฮฝ a))
(h : Learning.IsAlgEnvSeq A R alg (Learning.stationaryEnv ฮฝ) P)
{ฮด : โ}
(hฮด : 0 < ฮด)
:
theorem
Bandits.prob_sumRewards_sub_pullCount_mul_le_le
{๐ : Type u_1}
{ฮฉ : Type u_2}
[DecidableEq ๐]
{m๐ : MeasurableSpace ๐}
{mฮฉ : MeasurableSpace ฮฉ}
{P : MeasureTheory.Measure ฮฉ}
[MeasureTheory.IsProbabilityMeasure P]
{alg : Learning.Algorithm ๐ โ}
{ฮฝ : ProbabilityTheory.Kernel ๐ โ}
[ProbabilityTheory.IsMarkovKernel ฮฝ]
{A : โ โ ฮฉ โ ๐}
{R : โ โ ฮฉ โ โ}
{n : โ}
{a : ๐}
[StandardBorelSpace ๐]
[Nonempty ๐]
[Countable ๐]
{ฯ2 : NNReal}
(hฯ2 : 0 < ฯ2)
(ha : ProbabilityTheory.HasSubgaussianMGF (fun (x : โ) => x - โซ (x : โ), id x โฮฝ a) ฯ2 (ฮฝ a))
(h : Learning.IsAlgEnvSeq A R alg (Learning.stationaryEnv ฮฝ) P)
{ฮด : โ}
(hฮด : 0 < ฮด)
:
theorem
Bandits.prob_sumRewards_sub_pullCount_mul_ge_le_of_Fintype
{๐ : Type u_1}
{ฮฉ : Type u_2}
[DecidableEq ๐]
{m๐ : MeasurableSpace ๐}
{mฮฉ : MeasurableSpace ฮฉ}
{P : MeasureTheory.Measure ฮฉ}
[MeasureTheory.IsProbabilityMeasure P]
{alg : Learning.Algorithm ๐ โ}
{ฮฝ : ProbabilityTheory.Kernel ๐ โ}
[ProbabilityTheory.IsMarkovKernel ฮฝ]
{A : โ โ ฮฉ โ ๐}
{R : โ โ ฮฉ โ โ}
{n : โ}
[StandardBorelSpace ๐]
[Nonempty ๐]
[Fintype ๐]
{ฯ2 : NNReal}
(hฯ2 : 0 < ฯ2)
(hฮฝ : โ (a : ๐), ProbabilityTheory.HasSubgaussianMGF (fun (x : โ) => x - โซ (x : โ), id x โฮฝ a) ฯ2 (ฮฝ a))
(h : Learning.IsAlgEnvSeq A R alg (Learning.stationaryEnv ฮฝ) P)
{ฮด : โ}
(hฮด : 0 < ฮด)
:
P
{ฯ : ฮฉ | โ (a : ๐),
โ t < n,
Learning.pullCount A a t ฯ โ 0 โง โ(2 * โ(Learning.pullCount A a t ฯ) * โฯ2 * Real.log (1 / ฮด)) โค Learning.sumRewards A R a t ฯ - โ(Learning.pullCount A a t ฯ) * โซ (x : โ), id x โฮฝ a} โค ENNReal.ofReal (โ(Fintype.card ๐) * (โn - 1) * ฮด)
theorem
Bandits.probReal_sum_le_sum_streamMeasure
{๐ : Type u_1}
{m๐ : MeasurableSpace ๐}
{ฮฝ : ProbabilityTheory.Kernel ๐ โ}
[ProbabilityTheory.IsMarkovKernel ฮฝ]
[Nonempty ๐]
[Fintype ๐]
{c : NNReal}
(hฮฝ : โ (a : ๐), ProbabilityTheory.HasSubgaussianMGF (fun (x : โ) => x - โซ (x : โ), id x โฮฝ a) c (ฮฝ a))
(a : ๐)
(m : โ)
:
theorem
Bandits.prob_sum_le_sqrt_log
{๐ : Type u_1}
{m๐ : MeasurableSpace ๐}
{ฮฝ : ProbabilityTheory.Kernel ๐ โ}
[ProbabilityTheory.IsMarkovKernel ฮฝ]
{n : โ}
{ฯ2 : NNReal}
(hฮฝ : โ (a : ๐), ProbabilityTheory.HasSubgaussianMGF (fun (x : โ) => x - โซ (x : โ), id x โฮฝ a) ฯ2 (ฮฝ a))
(hฯ2 : ฯ2 โ 0)
{c : โ}
(hc : 0 โค c)
(a : ๐)
(k : โ)
(hk : k โ 0)
:
theorem
Bandits.prob_sum_ge_sqrt_log
{๐ : Type u_1}
{m๐ : MeasurableSpace ๐}
{ฮฝ : ProbabilityTheory.Kernel ๐ โ}
[ProbabilityTheory.IsMarkovKernel ฮฝ]
{n : โ}
{ฯ2 : NNReal}
(hฮฝ : โ (a : ๐), ProbabilityTheory.HasSubgaussianMGF (fun (x : โ) => x - โซ (x : โ), id x โฮฝ a) ฯ2 (ฮฝ a))
(hฯ2 : ฯ2 โ 0)
{c : โ}
(hc : 0 โค c)
(a : ๐)
(k : โ)
(hk : k โ 0)
:
theorem
Bandits.prob_avg_add_sqrt_log_le
{๐ : Type u_1}
{m๐ : MeasurableSpace ๐}
{ฮฝ : ProbabilityTheory.Kernel ๐ โ}
[ProbabilityTheory.IsMarkovKernel ฮฝ]
{ฯ2 : NNReal}
{c : โ}
(hฮฝ : โ (a : ๐), ProbabilityTheory.HasSubgaussianMGF (fun (x : โ) => x - โซ (x : โ), id x โฮฝ a) ฯ2 (ฮฝ a))
(hฯ2 : ฯ2 โ 0)
(hc : 0 โค c)
(a : ๐)
(n k : โ)
(hk : k โ 0)
:
theorem
Bandits.prob_avg_sub_sqrt_log_ge
{๐ : Type u_1}
{m๐ : MeasurableSpace ๐}
{ฮฝ : ProbabilityTheory.Kernel ๐ โ}
[ProbabilityTheory.IsMarkovKernel ฮฝ]
{ฯ2 : NNReal}
{c : โ}
(hฮฝ : โ (a : ๐), ProbabilityTheory.HasSubgaussianMGF (fun (x : โ) => x - โซ (x : โ), id x โฮฝ a) ฯ2 (ฮฝ a))
(hฯ2 : ฯ2 โ 0)
(hc : 0 โค c)
(a : ๐)
(n k : โ)
(hk : k โ 0)
:
theorem
Learning.IsBayesAlgEnvSeq.prob_empMean_sub_actionMean_ge_le
{๐ : Type u_1}
{ฮฉ : Type u_2}
[MeasurableSpace ๐]
[MeasurableSpace ฮฉ]
{K : โ}
[Nonempty (Fin K)]
{Q : MeasureTheory.Measure ๐}
{ฮบ : ProbabilityTheory.Kernel (๐ ร Fin K) โ}
[ProbabilityTheory.IsMarkovKernel ฮบ]
{alg : Algorithm (Fin K) โ}
{E : ฮฉ โ ๐}
{A : โ โ ฮฉ โ Fin K}
{R : โ โ ฮฉ โ โ}
{P : MeasureTheory.Measure ฮฉ}
[MeasureTheory.IsProbabilityMeasure P]
(h : IsBayesAlgEnvSeq Q ฮบ alg E A R P)
{ฯ2 : NNReal}
(hฯ2 : 0 < ฯ2)
(hs :
โ (e : ๐) (a : Fin K),
ProbabilityTheory.HasSubgaussianMGF (fun (x : โ) => x - โซ (x : โ), id x โฮบ (e, a)) ฯ2 (ฮบ (e, a)))
{ฮด : โ}
(hฮด : 0 < ฮด)
(n : โ)
:
theorem
Learning.IsBayesAlgEnvSeq.prob_empMean_bestAction_sub_actionMean_le_le
{๐ : Type u_1}
{ฮฉ : Type u_2}
[MeasurableSpace ๐]
[MeasurableSpace ฮฉ]
{K : โ}
[Nonempty (Fin K)]
{Q : MeasureTheory.Measure ๐}
{ฮบ : ProbabilityTheory.Kernel (๐ ร Fin K) โ}
[ProbabilityTheory.IsMarkovKernel ฮบ]
{alg : Algorithm (Fin K) โ}
{E : ฮฉ โ ๐}
{A : โ โ ฮฉ โ Fin K}
{R : โ โ ฮฉ โ โ}
{P : MeasureTheory.Measure ฮฉ}
[MeasureTheory.IsProbabilityMeasure P]
(h : IsBayesAlgEnvSeq Q ฮบ alg E A R P)
{ฯ2 : NNReal}
(hฯ2 : 0 < ฯ2)
(hs :
โ (e : ๐) (a : Fin K),
ProbabilityTheory.HasSubgaussianMGF (fun (x : โ) => x - โซ (x : โ), id x โฮบ (e, a)) ฯ2 (ฮบ (e, a)))
{ฮด : โ}
(hฮด : 0 < ฮด)
(n : โ)
:
P
{ฯ : ฮฉ | โ t < n,
pullCount A (bestAction ฮบ E ฯ) t ฯ โ 0 โง empMean A R (bestAction ฮบ E ฯ) t ฯ - actionMean ฮบ E (bestAction ฮบ E ฯ) ฯ โค -โ(2 * โฯ2 * Real.log (1 / ฮด) / โ(pullCount A (bestAction ฮบ E ฯ) t ฯ))} โค ENNReal.ofReal ((โn - 1) * ฮด)