Il 0% ha trovato utile questo documento (0 voti)
7 visualizzazioni

OTT_06-08

Il documento tratta il corso di Ottimizzazione per il Corso di Laurea Magistrale in Ingegneria Informatica. Esamina le condizioni di ottimalità per problemi non vincolati e convessi, includendo definizioni, teoremi e esempi pratici. Viene inoltre discussa la teoria dell'ottimizzazione vincolata e le proprietà delle funzioni e insiemi convessi.

Caricato da

Patrick Valdo
Copyright
© © All Rights Reserved
Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.
Formati disponibili
Scarica in formato PDF, TXT o leggi online su Scribd
Il 0% ha trovato utile questo documento (0 voti)
7 visualizzazioni

OTT_06-08

Il documento tratta il corso di Ottimizzazione per il Corso di Laurea Magistrale in Ingegneria Informatica. Esamina le condizioni di ottimalità per problemi non vincolati e convessi, includendo definizioni, teoremi e esempi pratici. Viene inoltre discussa la teoria dell'ottimizzazione vincolata e le proprietà delle funzioni e insiemi convessi.

Caricato da

Patrick Valdo
Copyright
© © All Rights Reserved
Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.
Formati disponibili
Scarica in formato PDF, TXT o leggi online su Scribd
Sei sulla pagina 1/ 64

Corso di Laurea Magistrale in

Ingegneria Informatica
A.A. 2024-2025
II semestre

Ottimizzazione

Giovanni Giallombardo

DIMES, Università della Calabria


Sommario

1. Condizioni di ottimalità per problemi non vincolati

2. Elementi di analisi convessa

3. Condizioni di ottimalità per problemi convessi non vincolati

4. Esempi sulle condizioni di ottimalità

5. Teoria dell’ottimizzazione vincolata

6. Esempi introduttivi

1/43
Condizioni di ottimalità per
problemi non vincolati
Condizioni necessarie di ottimalità

Consideriamo il problema di ottimizzazione non vincolata

min f(x) (UOP)


x∈Rn

Minimo locale
Indichiamo con
B(x∗ , δ) = {x ∈ Rn : kx − x∗ k ≤ δ}
un intorno di x∗ di raggio δ > 0.
Il punto x∗ è detto punto di minimo locale e il corrispondente valore f(x∗ ) è
detto minimo locale se

∃δ > 0 : f(x∗ ) ≤ f(x) ∀x ∈ B(x∗ , δ).

Punti stazionari
Un punto x ∈ Rn si dice stazionario se risulta ∇f(x) = 0.

2/43
Condizioni necessarie di ottimalità

Condizione necessaria del primo ordine


Sia f : Rn 7→ R e sia x∗ ∈ Rn un minimo locale di f. Allora x∗ è un punto
stazionario di f.

Prova
Nel punto x∗ non esistono direzioni di discesa, pertanto

∇f(x∗ )⊤ d ≥ 0 ∀d ∈ Rn .

Supponiamo che esista una direzione d ∈ Rn tale che ∇f(x∗ )⊤ d > 0. In tal
caso la direzione −d sarebbe di discesa. Pertanto deve risultare

∇f(x∗ )⊤ d = 0 ∀d ∈ Rn

e di conseguenza ∇f(x∗ ) = 0.

3/43
Condizioni necessarie di ottimalità

Condizione necessaria del secondo ordine


Sia f : Rn 7→ R e sia x∗ ∈ Rn un minimo locale di f. Allora x∗ è un punto
stazionario di f e risulta

d⊤ ∇2 f(x∗ )d ≥ 0 ∀d ∈ Rn .

Prova
La stazionarietà è stata già dimostrata. Consideriamo la serie di Taylor
1
f(x∗ + td) = f(x∗ ) + t∇f(x∗ )⊤ d + t2 d⊤ ∇2 f(x∗ )d + β(x∗ , td)
2
con
β(x∗ , td)
lim =0
t→0 t2 kdk2
Poiché x∗ è un punto di minimo locale, per t sufficientemente piccolo risulta

f(x∗ + td) − f(x∗ ) 1 β(x∗ , td)


0≤ = d⊤ ∇2 f(x∗ )d +
t2 2 t2
da cui la tesi segue facendo tendere t a zero. 4/43
Condizioni sufficienti di ottimalità

Condizione sufficiente del secondo ordine


Sia f : Rn 7→ R e sia x∗ ∈ Rn punto stazionario di f per cui risulta

d⊤ ∇2 f(x∗ )d > 0 ∀d ∈ Rn , d 6= 0.

Allora il punto x∗ è un punto di minimo locale stretto per f.

Prova ...
Supponiamo che x∗ non sia un punto di minimo locale stretto. Ciò implica
che
∀ϵ > 0 ∃xϵ ∈ Rn : kxϵ − x∗ k ≤ ϵ f(xϵ ) ≤ f(x∗ )
Indichiamo con ( )
λ1 ∇2 f(x∗ ) > 0

il minimo autovalore di ∇2 f(x∗ ) e ricordiamo che f ∈ C 2 e ∇f(x∗ ) = 0.

5/43
Condizioni sufficienti di ottimalità

... Prova
Dallo sviluppo di Taylor otteniamo
1
f(xϵ ) − f(x∗ ) = (xϵ − x∗ )⊤ ∇2 f(x∗ )(xϵ − x∗ ) + β(x∗ , xϵ − x∗ )
2
1 ( 2 ∗ )
≥ λ1 ∇ f(x ) kxϵ − x∗ k2 + β(x∗ , xϵ − x∗ )
2
Dividendo tutto per kxϵ − x∗ k2 si ottiene

f(xϵ ) − f(x∗ ) 1 ( 2 ∗ ) β(x∗ , xϵ − x∗ )


0≥ ≥ λ1 ∇ f(x ) +
kxϵ − x∗ k2 2 kxϵ − x∗ k2

Facendo tendere ϵ a zero si ottiene la contraddizione 0 ≥ f(xϵ ) − f(x∗ ) > 0.

6/43
Elementi di analisi convessa
Insiemi convessi

Definizione
Un sottoinsieme C ⊂ Rn è convesso se

αx + (1 − α)y ∈ C ∀x, y ∈ C, ∀α ∈ [0, 1]

7/43
Insieme convesso

8/43
Insieme convesso

8/43
Insieme non convesso

9/43
Insieme non convesso

9/43
Funzioni convesse

Definizione
Sia C ⊂ Rn un insieme convesso.
Una funzione f : C 7→ R si dice convessa se
( )
f αx + (1 − α)y ≤ αf(x) + (1 − α)f(y) ∀x, y ∈ C, ∀α ∈ [0, 1]

Se vale la diseguaglianza stretta per ogni x 6= y e ogni α ∈ (0, 1)


la funzione di dice strettamente convessa.
Se la funzione −f è (strettamente) convessa la funzione f si dice
(strettamente) concava.

10/43
Funzione convessa

11/43
Funzione convessa

11/43
Funzione convessa

11/43
Funzione convessa

11/43
Insiemi convessi e funzioni convesse

Epigrafo
Siano C ⊂ Rn un insieme convesso e f : C 7→ (−∞, ∞] una funzione
convessa su C.
Si chiama epigrafo di f il sottoinsieme di Rn+1 definito come
{ }
epi(f) , (x, w) : x ∈ C, w ∈ R, f(x) ≤ w

Proprietà

Una funzione f : C 7→ (−∞, ∞], definita sull’insieme convesso C, è


convessa se e solo se il suo epigrafo è convesso.

12/43
Insiemi convessi e funzioni convesse

Epigrafo

13/43
Insiemi convessi e funzioni convesse

Epigrafo

13/43
Insiemi convessi e funzioni convesse

Proprietà

L’intersezione di insiemi convessi è un insieme convesso;


Gli insiemi di livello di una funzione convessa sono convessi;
Una funzione lineare è convessa (e concava);
Una qualsiasi norma è una funzione convessa;
Siano f1 , . . . , fm : C 7→ R funzioni convesse definite sull’insieme
convesso C. Allora è convessa la funzione h : C 7→ (−∞, +∞]

h(x) = max fi (x)


i=1,...,m

Se x1 , . . . , xm ∈ C sono punti dell’insieme convesso C e α1 , . . . , αm ≥ 0



sono scalari tali che m i=1 αi = 1 allora
( m )
∑ ∑m
f αi xi ≤ αi f(xi )
i=1 i=1

14/43
Funzioni convesse e differenziabilità

Caratterizzazione di funzioni convesse e differenziabili


Sia C ⊂ Rn un insieme convesso e sia f : Rn 7→ R differenziabile su C.
Condizione necessaria e sufficiente per la convessità di f su C è che
sia soddisfatta

f(y) ≥ f(x) + ∇f(x)⊤ (y − x) ∀x, y ∈ C.

La diseguaglianza stretta per ogni x 6= y è condizione per la stretta


convessità.

15/43
Funzioni convesse e differenziabilità

Caratterizzazione di funzioni convesse e differenziabili

16/43
Funzioni convesse e differenziabilità

Caratterizzazione di funzioni convesse e C 2


Sia C ⊂ Rn un insieme convesso, sia f : Rn 7→ R due volte continuamente
differenziabile su C, e sia Q ∈ Rn×n una matrice simmetrica.
Condizione sufficiente per la convessità di f su C è che la matrice
Hessiana ∇2 f(x) sia semidefinita positiva per ogni x ∈ C;
Condizione sufficiente per la stretta convessità di f su C è che la
matrice Hessiana ∇2 f(x) sia definita positiva per ogni x ∈ C;
Condizione necessaria e sufficiente per la convessità di f su Rn è che la
matrice Hessiana ∇2 f(x) sia semidefinita positiva per ogni x ∈ Rn ;
Condizione necessaria e sufficiente per la convessità (stretta) della
funzione quadratica f(x) = x⊤ Qx è che la matrice Q sia semidefinita
(definita) positiva.
Notiamo che

f(x) = x⊤ Qx ∇f(x) = 2Qx ∇2 f(x) = 2Q

17/43
Condizioni di ottimalità per
problemi convessi non vincolati
Condizioni di ottimalità

Equivalenza di minimi globali e locali per funzioni convesse


Se f : Rn 7→ R è convessa, ogni punto di minimo locale è anche punto di
minimo globale di f.

Prova
Supponiamo che x∗ sia un punto di minimo locale ma non globale.
Pertanto esiste z ∈ Rn tale che f(z) < f(x∗ ).
Applichiamo la definizione di funzione convessa al segmento

x(α) = αz + (1 − α)x∗ ∀α ∈ (0, 1]

che congiunge x∗ e z, e otteniamo


( ) ( )
f x(α) ≤ αf(z) + (1 − α)f(x∗ ) = f(x∗ ) + α f(z) − f(x∗ ) < f(x∗ ) ∀α ∈ (0, 1]

Osserviamo che qualunque intorno di x∗ contiene un x(α) che soddisfa


( )
f x(α) < f(x∗ ), una contraddizione con l’ottimalità locale di x∗ .

18/43
Condizioni di ottimalità

Punti stazionari e minimi globali di funzioni convesse differenziabili


Se f : Rn 7→ R è convessa e differenziabile, ogni punto stazionario x∗ è un
punto di minimo globale.

Prova
Supponiamo che x∗ non sia un punto di minimo globale.
Pertanto esiste z ∈ Rn tale che f(z) < f(x∗ ).
Ricordando l’espressione della derivata direzionale otteniamo

f(x∗ + α(z − x∗ )) − f(x∗ )


∇f(x∗ )⊤ (z − x∗ ) = lim
α↓0 α
αf(z) + (1 − α)f(x∗ ) − f(x∗ )
≤ lim
α↓0 α
= f(z) − f(x∗ ) < 0

Pertanto ∇f(x∗ ) 6= 0, che contraddice la stazionarietà di x∗ .

19/43
Condizioni di ottimalità

Funzioni quadratiche
Sia
1 ⊤
q(x) = x Qx + c⊤ x
2
una funzione quadratica con Q ∈ Rn×n simmetrica, e c ∈ Rn .
Allora
q(x) ammette un punto di minimo globale se e solo se Q è semidefinita
positiva ed esiste x∗ tale che Qx∗ + c = 0.
q(x) ammette un unico punto di minimo globale se e solo se Q è
definita positiva.
Se Q è semidefinita positiva, ogni punto x∗ tale che Qx∗ + c = 0 è un
punto di minimo globale per q(x).

20/43
Esempi sulle condizioni di
ottimalità
Funzione di Rosenbrock

f(x1 , x2 ) = 100(x2 − x21 )2 + (1 − x1 )2

21/43
Funzione di Rosenbrock

Linee di livello

f(x1 , x2 ) = 100(x2 − x21 )2 + (1 − x1 )2

22/43
Funzione di Rosenbrock

Gradiente ed Hessiana

f(x1 , x2 ) = 100(x2 − x21 )2 + (1 − x1 )2

 
−400x1 (x2 − x21 ) − 2(1 − x1 )
∇f(x1 , x2 ) =  
200(x2 − x21 )

 
1200x21 − 400x2 + 2 −400x1
∇ f(x1 , x2 ) = 
2 
−400x1 200

23/43
Funzione di Rosenbrock

Punti stazionari
   
−400x1 (x2 − x21 ) − 2(1 − x1 ) 0
∇f(x1 , x2 ) =  = 
200(x2 − x21 ) 0

x2 − x21 = 0 ⇒ 1 − x1 = 0 ⇒ x1 = 1 ⇒ x2 = 1

( ) ( )
x1 1
=
x2 1

24/43
Funzione di Rosenbrock

Condizioni del secondo ordine


 
802 −400
∇2 f(x1 , x2 ) =  
−400 200
Autovalori
√ √
λ1 = 501 − 250601 = 0.39936 λ2 = 501 + 250601 = 1001.60064

m
La matrice Hessiana è definita positiva, quindi il punto stazionario è un
minimo locale stretto.
D’altra parte f(x1 , x2 ) = 0 e poiché f(x1 , x2 ) ≥ 0, ovviamente risulta che (x1 , x2 )
è il minimo globale.

25/43
Funzione di Rosenbrock

Linee di livello e minimo globale

f(x1 , x2 ) = 100(x2 − x21 )2 + (1 − x1 )2 x∗ = (1, 1)⊤

26/43
Funzione di Rosenbrock

Linee di livello, minimo globale e starting point

f(x1 , x2 ) = 100(x2 − x21 )2 + (1 − x1 )2 x∗ = (1, 1)⊤ x(0) = (−1.2, 1)⊤

27/43
Teoria dell’ottimizzazione
vincolata
Problemi di ottimizzazione vincolata

Consideriamo il problema
min f(x)
x∈Rn
s.t. ci (x) = 0 ∀i ∈ E (COP)
ci (x) ≥ 0 ∀i ∈ I
dove

f : Rn 7→ R, ci : Rn 7→ R, per ogni i ∈ E ∪ I
almeno uno degli insiemi E e I è non vuoto
le funzioni f e ci sono tutte continuamente differenziabili

Indicando con
{ }
Ω = x ∈ Rn : ci (x) = 0, i ∈ E; ci (x) ≥ 0, i ∈ I
Il problema può essere rappresentato in forma compatta come
min f(x) (COP)
x∈Ω

28/43
Problemi di ottimizzazione vincolata

Osserviamo che

Problemi di massimo possono essere sempre ricondotti a problemi di


minimo cambiando il segno della funzione obiettivo
Vincoli di minore o uguale, che magari contengono termini noti non
nulli bi
gi (x) ≤ bi
possono essere ricondotti a vincoli di maggiore o uguale con termini
noti nulli ridefinendo la funzione di vincolo
ci (x) := bi − gi (x) ≥ 0

I vincoli sul segno sono rappresentati in modo generale, per esempio


xj ≥ 0 ⇔ 0 ≤ ci (x) = xj

Non sono presi in considerazione diseguaglianze strette, altrimenti la


regione ammissibile sarebbe aperta (localmente il problema sarebbe
equivalente a un problema non vincolato)

29/43
Minimi locali vincolati

Punti di minimo locale


Un punto x∗ ∈ Rn si dice di minimo locale per (COP) se esiste un intorno
B(x∗ , δ) tale che
f(x) ≥ f(x∗ ) ∀x ∈ B(x∗ , δ) ∩ Ω

Punti di minimo locale stretto


Un punto x∗ ∈ Rn si dice di minimo locale stretto per (COP) se esiste un
intorno B(x∗ , δ) tale che

f(x) > f(x∗ ) ∀x ∈ B(x∗ , δ) ∩ Ω, x 6= x∗

Vogliamo caratterizzare i minimi locali (condizioni di ottimalità) innanzitutto


mediante lo studio di alcuni esempi introduttivi.

30/43
Esempi introduttivi
Esempio 1: Un vincolo di eguaglianza

Consideriamo il problema

min x1 + x2
x∈R2 (COP1)
s.t. x21 + x22 − 2 = 0

Quindi

f(x) = x1 + x2 (funzione lineare)


I = ∅,
E = {1}
c1 (x) = x21 + x22 − 2
x∗ = (−1, −1)⊤

31/43
Esempio 1: Un vincolo di eguaglianza

32/43
Esempio 1: Un vincolo di eguaglianza

32/43
Esempio 1: Un vincolo di eguaglianza

32/43
Esempio 1: Un vincolo di eguaglianza

Calcoliamo i gradienti delle funzioni

f(x) = x1 + x2 c1 (x) = x21 + x22 − 2


( ) ( )
1 2x1
∇f(x) = ∇c1 (x) =
1 2x2

La regione ammissibile è costituita dai punti della circonferenza di



raggio 2
Muovendosi da ciascun punto diverso da x∗ , rimanendo sulla
circonferenza, si può ottenere una discesa della funzione obiettivo
Dall’esame del grafico si nota che in corrispondenza di x∗ sono
paralleli ∇f(x∗ ) e ∇c1 (x∗ ), cioè esiste λ∗1 tale che

∇f(x∗ ) = λ∗1 ∇c1 (x∗ )

33/43
Esempio 1: Un vincolo di eguaglianza

34/43
Esempio 1: Un vincolo di eguaglianza

Nel punto x∗ = (−1, −1)⊤ si ha


( ) ( )
∗ 1 ∗ −2
∇f(x ) = ∇c1 (x ) =
1 −2

Quindi
( ) ( )
∗ 1 −2
∇f(x ) = λ∗1 ∇c1 (x∗ ) ⇐⇒ = λ∗1
1 −2

da cui segue che λ∗1 = − 21 .


Proviamo a dare una motivazione geometrica alla relazione

∇f(x∗ ) = λ∗1 ∇c1 (x∗ )

che sembra rappresentare una condizione necessaria di ottimalità.

35/43
Esempio 1: Un vincolo di eguaglianza

36/43
Esempio 1: Un vincolo di eguaglianza

Direzioni ammissibili
Consideriamo l’approssimazione del primo ordine della funzione di vincolo
c1 in un punto ammissibile x

c1 (x + s) = c1 (x) + ∇c1 (x)⊤ s

Gli spostamenti s che garantiscono la generazione di nuovi punti ammissibili


x + s devono soddisfare

0 = c1 (x + s) = c1 (x) + ∇c1 (x)⊤ s = ∇c1 (x)⊤ s

cioè
∇c1 (x)⊤ s = 0

Direzioni di discesa
D’altra parte una direzione s che soddisfi ∇f(x)⊤ s < 0 è una direzione lun-
go la quale è garantita la discesa della f, eventualmente per spostamenti
piccolissimi
37/43
Esempio 1: Un vincolo di eguaglianza

Direzioni ammissibili di discesa


L’esistenza di s ∈ Rn in un punto x che soddisfi

∇f(x)⊤ s < 0 ∇c1 (x)⊤ s = 0


s
indica che esiste d a norma unitaria (d = ∥s∥
) tale che

∇f(x)⊤ d < 0 ∇c1 (x)⊤ d = 0

Tale direzione è chiamata direzione ammissibile di discesa

Idea
In un punto di minimo locale non esistono direzioni ammissibili di disce-
sa, cioè non esistono d che formano un angolo ottuso con il gradiente del-
la funzione obiettivo e che siano ortogonali al gradiente della funzione di
vincolo:
∇f(x)⊤ d < 0 ∇c1 (x)⊤ d = 0

38/43
Esempio 1: Un vincolo di eguaglianza

Direzioni ammissibili di discesa


L’unica condizione che soddisfa la non esistenza di direzioni ammissibili di
discesa è legata al parallelismo di ∇f(x) e ∇c1 (x), cioè all’esistenza di uno
scalare λ1 tale che ∇f(x) = λ1 ∇c1 (x) .
In tutti gli altri casi esiste una direzione ammissibile di discesa. Per esempio,
se ∇f(x) e ∇c1 (x) non sono paralleli possiamo scrivere
( )2
∇f(x)⊤ ∇c1 (x) < k∇f(x)k2 k∇c1 (x)k2

cioè ( )2
∇f(x)⊤ ∇c1 (x)
< k∇f(x)k2
k∇c1 (x)k2
da cui segue

∇f(x)⊤ ∇c1 (x)∇c1 (x)⊤ ∇f(x)


−∇f(x)⊤ ∇f(x) + <0
k∇c1 (x)k2

39/43
Esempio 1: Un vincolo di eguaglianza

Direzioni ammissibili di discesa


Di conseguenza
( )
∇c1 (x)∇c1 (x)⊤
∇f(x)⊤ −I+ ∇f(x) < 0
k∇c1 (x)k2

Ponendo ( )
∇c1 (x)∇c1 (x)⊤
s= −I+ ∇f(x)
k∇c1 (x)k2
osserviamo che
∇c1 (x)⊤ ∇c1 (x)∇c1 (x)⊤
∇c1 (x)⊤ s = −∇c1 (x)⊤ ∇f(x) + ∇f(x) = 0
k∇c1 (x)k2
s
quindi d = ∥s∥
è anche una direzione ammissibile di discesa.

40/43
Esempio 1: Un vincolo di eguaglianza

41/43
Esempio 1: Un vincolo di eguaglianza

41/43
Esempio 1: Un vincolo di eguaglianza

41/43
Esempio 1: Un vincolo di eguaglianza

41/43
Esempio 1: Un vincolo di eguaglianza

41/43
Esempio 1: Un vincolo di eguaglianza

41/43
Esempio 1: Un vincolo di eguaglianza

41/43
Esempio 1: Un vincolo di eguaglianza

Funzione Lagrangiana
Indichiamo con L(x, λ1 ) una funzione definita come

L(x, λ1 ) = f(x) − λ1 c1 (x)

e detta funzione Lagrangiana.


Osserviamo che
∇x L(x, λ1 ) = ∇f(x) − λ1 ∇c1 (x)
pertanto la condizione di parallelismo tra ∇f(x) e ∇c1 (x) può essere espressa
mediante il gradiente della Lagrangiana.
In particolare, si potrebbe dire che in corrispondenza di un punto di minimo
locale x∗ esiste uno scalare λ∗1 che soddisfa

∇x L(x∗ , λ∗1 ) = 0

Lo scalare λ1 viene detto moltiplicatore di Lagrange associato al vincolo c1 (x).

42/43
Esempio 1: Un vincolo di eguaglianza

Funzione Lagrangiana e minimi locali


L’esistenza di un moltiplicatore di Lagrange che soddisfi

∇x L(x∗ , λ∗1 ) = 0

sembra essere solo una condizione necessaria, ma non sufficiente.


In effetti, si può verificare graficamente che essa è soddisfatta anche nel
punto di massimo x̄ = (1, 1)⊤ . Infatti, nel punto x̄ si ha
( ) ( )
1 2
∇f(x̄) = ∇c1 (x̄) =
1 2

Quindi ( ) ( )
1 2
∇f(x̄) = λ̄1 ∇c1 (x̄) ⇐⇒ = λ̄1
1 2
da cui segue che λ̄1 = 21 .
D’altra parte non ha alcun effetto imporre un vincolo di segno sul
moltiplicatore.
43/43

Potrebbero piacerti anche