Methods for Flexible Representation and Coding of 2D and 3D Visual Information

Bibliographic Details
Main Author: Ferreira, Lino Miguel Moreira
Publication Date: 2016
Language: eng
Source: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Download full: https://hdl.handle.net/10316/31011
Summary: Tese de doutoramento em Engenharia Electrotécnica e de Computadores, na especialidade de Telecomunicações, apresentada ao Departamento de Engenharia Electrotécnica e de Computadores da Faculdade de Ciências e Tecnologia da Universidade de Coimbra
id RCAP_f74276ffc38570aba373dd48d18a248b
oai_identifier_str oai:estudogeral.uc.pt:10316/31011
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling Methods for Flexible Representation and Coding of 2D and 3D Visual InformationConteudo de vídeoRepresentação visualMétodos para calcular a saliência visualSumarização de vídeoRedimensionamento de vídeoCodificação de sumários de vídeoVideo contentVisual representationVisual saliency computational methodsVideo summary codingTese de doutoramento em Engenharia Electrotécnica e de Computadores, na especialidade de Telecomunicações, apresentada ao Departamento de Engenharia Electrotécnica e de Computadores da Faculdade de Ciências e Tecnologia da Universidade de CoimbraAtualmente existe uma grande diversidade e quantidade de conteúdos multimédia utilizados em diferentes aplicações que exigem ferramentas de gestão eficientes e flexíveis para diferentes fins, tais como adaptação, indexação e pesquisa. No entanto, os formatos de representação atuais são principalmente agnósticos em relação ao conteúdo visual contido nos sinais digitais. Consequentemente, o acesso e o processamento da informação visual com base em algum tipo de relevância para os utilizadores ficam bastante limitados, e as soluções mais eficientes para adaptação de conteúdos devido a restrições dos sistemas de comunicação heterogéneos podem não ser facilmente alcançadas. Neste contexto, o trabalho de investigação realizado nesta Tese é uma contribuição para aumentar a flexibilidade de representação da informação visual existente nos sinais de vídeo e expandir o estado-da-arte relativamente aos métodos associados. Esta dissertação é iniciada por uma revisão bibliográfica dos conceitos básicos utilizados na representação da informação visual, codificada e por codificar. Adicionalmente, apresenta-se uma revisão dos métodos usados para calcular saliências visuais em vídeo 2D/3D. Apresenta-se também um estudo exaustivo dos métodos de segmentação temporal e sumarização de vídeo 2D/3D e uma visão geral dos métodos de redimensionamento de vídeo. Adicionalmente, são descritos de forma global os conceitos básicos de codificação de vídeo incluindo um estudo mais aprofundado da codificação de vídeo escalável e das Regiões de Interesse. Neste trabalho foram desenvolvidos dois métodos para calcular mapas saliência visual em vídeo 3D. Estes métodos, baseiam-se na fusão de quatro mapas saliência intermédios (espaço-temporal, de profundidade e da saliência face), seguido por uma função de ponderação centre-bias, que é usada para modelar a tendência humana para observar objetos localizados no centro da cena. Os métodos propostos foram avaliados com mapas de densidade de fixação, obtidos a partir de experiências de eye-tracking. Os resultados experimentais mostram que os métodos propostos obtêm melhor desempenho do que outros descritos na literatura. Adicionalmente, e tendo em conta os resultados dos métodos de cálculo de mapas saliência visual propostos, foi desenvolvido e avaliado um método de redimensionamento espaço-temporal com base em regiões salientes. O método proposto redimensiona o vídeo original para o tamanho específico de ecrã do dispositivo terminal. A solução proposta de redimensionamento é comparada com outros métodos existentes na literatura e os resultados mostram que a solução proposta alcança resultados competitivos. A representação flexível de informação visual no domínio temporal foi investigada no âmbito sumarização de vídeo. Neste caso, foi estudado e proposto uma abordagem nova para obter versões reduzidas de uma sequência de vídeo de acordo com critérios previamente definidos. Esta abordagem é constituida por duas partes: a segmentação temporal e a extração das tramas-chave. A solução proposta suporta vários formatos de vídeo, podendo ser usados critérios diversos para segmentar o vídeo original e para extrair as tramas-chave, como por exemplo saliências visuais. Diferentes métricas e vídeos foram utilizadas para avaliar o desempenho do modelo. Os resultados demonstram que o modelo proposto supera os métodos semelhantes descritos na literatura. No geral, os temas investigados nesta tese e os resultados de desempenho obtidos a partir de simulações demonstram a validade do trabalho realizado e são motivadoras de novas investigações nestes tópicos.Nowadays, there is a great diversity and quantity of image and video content used in multimedia services and applications, which require efficient and flexible management tools for different purposes, such as adaptation, indexing, searching and browsing. However, the existing representation formats are mostly agnostic in regard to the visual content conveyed by the digital signals. As a consequence, the access and processing of the visual information based on user-driven parameters is rather limited and the most efficient solutions for adaptation and matching heterogeneous constraints in communication systems cannot be easily achieved. In this context, the research work carried out in this Thesis is a contribution to advance state-of-the-art methods capable of providing different types of additional flexibility in the representation of visual information. The Thesis starts with a review of the basic concepts used in representation of the visual information either in raw or coded format. Additionally, a review of visual saliency computation methods for 2D/3D video is presented, where the relevant methods regarding this issue are explained. A comprehensive study of temporal segmentation and video summarisation methods for 2D/3D is first realised. Then an overview of video retargeting methods is presented, describing different methods and including non-content-aware and content-aware retargeting methods. In addition, an overview of coding schemes that are able to cope with flexible representation of visual content is also described. After a brief review of the basic video coding concepts, the study is mainly focused on scalable and ROI video coding. This research work proposes two methods for computing visual saliency maps for 3D video. These, are based on the fusion of four intermediate saliency maps (spatio-temporal, depth and face saliency) followed by a centre-bias weighting function, which is used to model the human tendency to gaze at objects located in the centre of the visual scene. The proposed methods have been evaluated with diverse publicly available datasets which contain several videos and the respective fixation density maps, obtained from eye-tracking experiments. The experimental results show that the proposed methods achieve better performance than other state-of-the-art methods used here. Additionally, and taking into account the output of the proposed visual saliency computation methods, a spatio-temporal retargeting method based on salient regions was developed and evaluated. The proposed method resizes the original video for specific display size. Our retargeting solution is compared against state-of-the-art methods and the results show that the proposed approach achieves competitive results. A flexible representation of visual information in the temporal domain was also investigated in the field of video summarisation. Here, a computational framework to obtain compact versions of video sequences (video summary), according to meaningful criteria is presented. The proposed framework is composed by two modules namely, the temporal segmentation and the key-frame extraction. The proposed solution addresses various video types and formats, several meaningful criteria can be used to segment original video and to select the key-frames, such as visual saliency. Using different performance metrics and publicly available databases, the results demonstrate that the proposed framework outperforms similar state-of-the-art methods. Overall, the topics investigated in this Thesis and performance results obtained from simulations, demonstrate the validity of the work done and provide good insight to further research in these topics.FCT - SFRH/BD/37510/20072016-05-24doctoral thesisinfo:eu-repo/semantics/publishedVersionFERREIRA, Lino Miguel Moreira - Methods for flexible representation and coding of 2D and 3D visual information. Coimbra : [s.n.], 2016. Tese de doutoramento. Disponível na WWW: http://hdl.handle.net/10316/31011https://hdl.handle.net/10316/31011FERREIRA, Lino Miguel Moreira - Methods for flexible representation and coding of 2D and 3D visual information. Coimbra : [s.n.], 2016. Tese de doutoramento. Disponível na WWW: http://hdl.handle.net/10316/31011https://hdl.handle.net/10316/31011TID:101261977engFerreira, Lino Miguel Moreirainfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2020-05-25T12:22:39Zoai:estudogeral.uc.pt:10316/31011Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-29T05:19:25.708192Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv Methods for Flexible Representation and Coding of 2D and 3D Visual Information
title Methods for Flexible Representation and Coding of 2D and 3D Visual Information
spellingShingle Methods for Flexible Representation and Coding of 2D and 3D Visual Information
Ferreira, Lino Miguel Moreira
Conteudo de vídeo
Representação visual
Métodos para calcular a saliência visual
Sumarização de vídeo
Redimensionamento de vídeo
Codificação de sumários de vídeo
Video content
Visual representation
Visual saliency computational methods
Video summary coding
title_short Methods for Flexible Representation and Coding of 2D and 3D Visual Information
title_full Methods for Flexible Representation and Coding of 2D and 3D Visual Information
title_fullStr Methods for Flexible Representation and Coding of 2D and 3D Visual Information
title_full_unstemmed Methods for Flexible Representation and Coding of 2D and 3D Visual Information
title_sort Methods for Flexible Representation and Coding of 2D and 3D Visual Information
author Ferreira, Lino Miguel Moreira
author_facet Ferreira, Lino Miguel Moreira
author_role author
dc.contributor.author.fl_str_mv Ferreira, Lino Miguel Moreira
dc.subject.por.fl_str_mv Conteudo de vídeo
Representação visual
Métodos para calcular a saliência visual
Sumarização de vídeo
Redimensionamento de vídeo
Codificação de sumários de vídeo
Video content
Visual representation
Visual saliency computational methods
Video summary coding
topic Conteudo de vídeo
Representação visual
Métodos para calcular a saliência visual
Sumarização de vídeo
Redimensionamento de vídeo
Codificação de sumários de vídeo
Video content
Visual representation
Visual saliency computational methods
Video summary coding
description Tese de doutoramento em Engenharia Electrotécnica e de Computadores, na especialidade de Telecomunicações, apresentada ao Departamento de Engenharia Electrotécnica e de Computadores da Faculdade de Ciências e Tecnologia da Universidade de Coimbra
publishDate 2016
dc.date.none.fl_str_mv 2016-05-24
dc.type.driver.fl_str_mv doctoral thesis
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
status_str publishedVersion
dc.identifier.uri.fl_str_mv FERREIRA, Lino Miguel Moreira - Methods for flexible representation and coding of 2D and 3D visual information. Coimbra : [s.n.], 2016. Tese de doutoramento. Disponível na WWW: http://hdl.handle.net/10316/31011
https://hdl.handle.net/10316/31011
FERREIRA, Lino Miguel Moreira - Methods for flexible representation and coding of 2D and 3D visual information. Coimbra : [s.n.], 2016. Tese de doutoramento. Disponível na WWW: http://hdl.handle.net/10316/31011
https://hdl.handle.net/10316/31011
TID:101261977
identifier_str_mv FERREIRA, Lino Miguel Moreira - Methods for flexible representation and coding of 2D and 3D visual information. Coimbra : [s.n.], 2016. Tese de doutoramento. Disponível na WWW: http://hdl.handle.net/10316/31011
TID:101261977
url https://hdl.handle.net/10316/31011
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833602319746334720