Methods for Flexible Representation and Coding of 2D and 3D Visual Information

Ferreira, Lino Miguel Moreira

Methods for Flexible Representation and Coding of 2D and 3D Visual Information

Bibliographic Details
Main Author:	Ferreira, Lino Miguel Moreira
Publication Date:	2016
Language:	eng
Source:	Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Download full:	https://hdl.handle.net/10316/31011
Summary:	Tese de doutoramento em Engenharia Electrotécnica e de Computadores, na especialidade de Telecomunicações, apresentada ao Departamento de Engenharia Electrotécnica e de Computadores da Faculdade de Ciências e Tecnologia da Universidade de Coimbra

Item metadata

id	RCAP_f74276ffc38570aba373dd48d18a248b
oai_identifier_str	oai:estudogeral.uc.pt:10316/31011
network_acronym_str	RCAP
network_name_str	Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str	https://opendoar.ac.uk/repository/7160
spelling	Methods for Flexible Representation and Coding of 2D and 3D Visual InformationConteudo de vídeoRepresentação visualMétodos para calcular a saliência visualSumarização de vídeoRedimensionamento de vídeoCodificação de sumários de vídeoVideo contentVisual representationVisual saliency computational methodsVideo summary codingTese de doutoramento em Engenharia Electrotécnica e de Computadores, na especialidade de Telecomunicações, apresentada ao Departamento de Engenharia Electrotécnica e de Computadores da Faculdade de Ciências e Tecnologia da Universidade de CoimbraAtualmente existe uma grande diversidade e quantidade de conteúdos multimédia utilizados em diferentes aplicações que exigem ferramentas de gestão eficientes e flexíveis para diferentes fins, tais como adaptação, indexação e pesquisa. No entanto, os formatos de representação atuais são principalmente agnósticos em relação ao conteúdo visual contido nos sinais digitais. Consequentemente, o acesso e o processamento da informação visual com base em algum tipo de relevância para os utilizadores ficam bastante limitados, e as soluções mais eficientes para adaptação de conteúdos devido a restrições dos sistemas de comunicação heterogéneos podem não ser facilmente alcançadas. Neste contexto, o trabalho de investigação realizado nesta Tese é uma contribuição para aumentar a flexibilidade de representação da informação visual existente nos sinais de vídeo e expandir o estado-da-arte relativamente aos métodos associados. Esta dissertação é iniciada por uma revisão bibliográfica dos conceitos básicos utilizados na representação da informação visual, codificada e por codificar. Adicionalmente, apresenta-se uma revisão dos métodos usados para calcular saliências visuais em vídeo 2D/3D. Apresenta-se também um estudo exaustivo dos métodos de segmentação temporal e sumarização de vídeo 2D/3D e uma visão geral dos métodos de redimensionamento de vídeo. Adicionalmente, são descritos de forma global os conceitos básicos de codificação de vídeo incluindo um estudo mais aprofundado da codificação de vídeo escalável e das Regiões de Interesse. Neste trabalho foram desenvolvidos dois métodos para calcular mapas saliência visual em vídeo 3D. Estes métodos, baseiam-se na fusão de quatro mapas saliência intermédios (espaço-temporal, de profundidade e da saliência face), seguido por uma função de ponderação centre-bias, que é usada para modelar a tendência humana para observar objetos localizados no centro da cena. Os métodos propostos foram avaliados com mapas de densidade de fixação, obtidos a partir de experiências de eye-tracking. Os resultados experimentais mostram que os métodos propostos obtêm melhor desempenho do que outros descritos na literatura. Adicionalmente, e tendo em conta os resultados dos métodos de cálculo de mapas saliência visual propostos, foi desenvolvido e avaliado um método de redimensionamento espaço-temporal com base em regiões salientes. O método proposto redimensiona o vídeo original para o tamanho específico de ecrã do dispositivo terminal. A solução proposta de redimensionamento é comparada com outros métodos existentes na literatura e os resultados mostram que a solução proposta alcança resultados competitivos. A representação flexível de informação visual no domínio temporal foi investigada no âmbito sumarização de vídeo. Neste caso, foi estudado e proposto uma abordagem nova para obter versões reduzidas de uma sequência de vídeo de acordo com critérios previamente definidos. Esta abordagem é constituida por duas partes: a segmentação temporal e a extração das tramas-chave. A solução proposta suporta vários formatos de vídeo, podendo ser usados critérios diversos para segmentar o vídeo original e para extrair as tramas-chave, como por exemplo saliências visuais. Diferentes métricas e vídeos foram utilizadas para avaliar o desempenho do modelo. Os resultados demonstram que o modelo proposto supera os métodos semelhantes descritos na literatura. No geral, os temas investigados nesta tese e os resultados de desempenho obtidos a partir de simulações demonstram a validade do trabalho realizado e são motivadoras de novas investigações nestes tópicos.Nowadays, there is a great diversity and quantity of image and video content used in multimedia services and applications, which require efficient and flexible management tools for different purposes, such as adaptation, indexing, searching and browsing. However, the existing representation formats are mostly agnostic in regard to the visual content conveyed by the digital signals. As a consequence, the access and processing of the visual information based on user-driven parameters is rather limited and the most efficient solutions for adaptation and matching heterogeneous constraints in communication systems cannot be easily achieved. In this context, the research work carried out in this Thesis is a contribution to advance state-of-the-art methods capable of providing different types of additional flexibility in the representation of visual information. The Thesis starts with a review of the basic concepts used in representation of the visual information either in raw or coded format. Additionally, a review of visual saliency computation methods for 2D/3D video is presented, where the relevant methods regarding this issue are explained. A comprehensive study of temporal segmentation and video summarisation methods for 2D/3D is first realised. Then an overview of video retargeting methods is presented, describing different methods and including non-content-aware and content-aware retargeting methods. In addition, an overview of coding schemes that are able to cope with flexible representation of visual content is also described. After a brief review of the basic video coding concepts, the study is mainly focused on scalable and ROI video coding. This research work proposes two methods for computing visual saliency maps for 3D video. These, are based on the fusion of four intermediate saliency maps (spatio-temporal, depth and face saliency) followed by a centre-bias weighting function, which is used to model the human tendency to gaze at objects located in the centre of the visual scene. The proposed methods have been evaluated with diverse publicly available datasets which contain several videos and the respective fixation density maps, obtained from eye-tracking experiments. The experimental results show that the proposed methods achieve better performance than other state-of-the-art methods used here. Additionally, and taking into account the output of the proposed visual saliency computation methods, a spatio-temporal retargeting method based on salient regions was developed and evaluated. The proposed method resizes the original video for specific display size. Our retargeting solution is compared against state-of-the-art methods and the results show that the proposed approach achieves competitive results. A flexible representation of visual information in the temporal domain was also investigated in the field of video summarisation. Here, a computational framework to obtain compact versions of video sequences (video summary), according to meaningful criteria is presented. The proposed framework is composed by two modules namely, the temporal segmentation and the key-frame extraction. The proposed solution addresses various video types and formats, several meaningful criteria can be used to segment original video and to select the key-frames, such as visual saliency. Using different performance metrics and publicly available databases, the results demonstrate that the proposed framework outperforms similar state-of-the-art methods. Overall, the topics investigated in this Thesis and performance results obtained from simulations, demonstrate the validity of the work done and provide good insight to further research in these topics.FCT - SFRH/BD/37510/20072016-05-24doctoral thesisinfo:eu-repo/semantics/publishedVersionFERREIRA, Lino Miguel Moreira - Methods for flexible representation and coding of 2D and 3D visual information. Coimbra : [s.n.], 2016. Tese de doutoramento. Disponível na WWW: http://hdl.handle.net/10316/31011https://hdl.handle.net/10316/31011FERREIRA, Lino Miguel Moreira - Methods for flexible representation and coding of 2D and 3D visual information. Coimbra : [s.n.], 2016. Tese de doutoramento. Disponível na WWW: http://hdl.handle.net/10316/31011https://hdl.handle.net/10316/31011TID:101261977engFerreira, Lino Miguel Moreirainfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2020-05-25T12:22:39Zoai:estudogeral.uc.pt:10316/31011Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-29T05:19:25.708192Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv	Methods for Flexible Representation and Coding of 2D and 3D Visual Information
title	Methods for Flexible Representation and Coding of 2D and 3D Visual Information
spellingShingle	Methods for Flexible Representation and Coding of 2D and 3D Visual Information Ferreira, Lino Miguel Moreira Conteudo de vídeo Representação visual Métodos para calcular a saliência visual Sumarização de vídeo Redimensionamento de vídeo Codificação de sumários de vídeo Video content Visual representation Visual saliency computational methods Video summary coding
title_short	Methods for Flexible Representation and Coding of 2D and 3D Visual Information
title_full	Methods for Flexible Representation and Coding of 2D and 3D Visual Information
title_fullStr	Methods for Flexible Representation and Coding of 2D and 3D Visual Information
title_full_unstemmed	Methods for Flexible Representation and Coding of 2D and 3D Visual Information
title_sort	Methods for Flexible Representation and Coding of 2D and 3D Visual Information
author	Ferreira, Lino Miguel Moreira
author_facet	Ferreira, Lino Miguel Moreira
author_role	author
dc.contributor.author.fl_str_mv	Ferreira, Lino Miguel Moreira
dc.subject.por.fl_str_mv	Conteudo de vídeo Representação visual Métodos para calcular a saliência visual Sumarização de vídeo Redimensionamento de vídeo Codificação de sumários de vídeo Video content Visual representation Visual saliency computational methods Video summary coding
topic	Conteudo de vídeo Representação visual Métodos para calcular a saliência visual Sumarização de vídeo Redimensionamento de vídeo Codificação de sumários de vídeo Video content Visual representation Visual saliency computational methods Video summary coding
description	Tese de doutoramento em Engenharia Electrotécnica e de Computadores, na especialidade de Telecomunicações, apresentada ao Departamento de Engenharia Electrotécnica e de Computadores da Faculdade de Ciências e Tecnologia da Universidade de Coimbra
publishDate	2016
dc.date.none.fl_str_mv	2016-05-24
dc.type.driver.fl_str_mv	doctoral thesis
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	FERREIRA, Lino Miguel Moreira - Methods for flexible representation and coding of 2D and 3D visual information. Coimbra : [s.n.], 2016. Tese de doutoramento. Disponível na WWW: http://hdl.handle.net/10316/31011 https://hdl.handle.net/10316/31011 FERREIRA, Lino Miguel Moreira - Methods for flexible representation and coding of 2D and 3D visual information. Coimbra : [s.n.], 2016. Tese de doutoramento. Disponível na WWW: http://hdl.handle.net/10316/31011 https://hdl.handle.net/10316/31011 TID:101261977
identifier_str_mv	FERREIRA, Lino Miguel Moreira - Methods for flexible representation and coding of 2D and 3D visual information. Coimbra : [s.n.], 2016. Tese de doutoramento. Disponível na WWW: http://hdl.handle.net/10316/31011 TID:101261977
url	https://hdl.handle.net/10316/31011
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.source.none.fl_str_mv	reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia instacron:RCAAP
instname_str	FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection	Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv	Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv	info@rcaap.pt
_version_	1833602319746334720

Methods for Flexible Representation and Coding of 2D and 3D Visual Information

Similar Items