la tua torre di pisa invece, essendo stata realizzata in cg, non risente di alcun effetto lente ed è come se lo spettatore fosse posizionato molto distante dal soggetto.
per questo motivo, facendo la ricostruzione dei tre elementi, ottieni all'interno della stessa immagine 3 campi differenti con necessariamente punti di fuga prospettici che fanno a cazzotti.
se ci fai caso, se guardi solo la torre è come se lo spettatore fosse posizionato molto distante e all'altezza della prima fascia marcapiano,
se invece guardi gli altri 2 monumenti, è come se lo spettatore fosse ad altezza normale e stesse guardando dal basso verso l'alto.
ora la soluzione quale potrebbe essere?
in teoria, dovresti posizionare la telecamera che riprende la torre molto più vicino di ora e per riprenderla tutta dovresti anche applicare una deformazione all'obbiettivo.

FOLLOW US