Detalhes bibliográficos
Ano de defesa: |
2017 |
Autor(a) principal: |
BRANCO, Diogo Philippini Pontual |
Orientador(a): |
CARVALHO, Francisco de Assis Tenório de |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Federal de Pernambuco
|
Programa de Pós-Graduação: |
Programa de Pos Graduacao em Ciencia da Computacao
|
Departamento: |
Não Informado pela instituição
|
País: |
Brasil
|
Palavras-chave em Português: |
|
Link de acesso: |
https://repositorio.ufpe.br/handle/123456789/27527
|
Resumo: |
Técnicas de agrupamento de dados geralmente operam em objetos que podem estar descritos pelos seus atributos (feature data) ou por dados relacionais. Em dados relacionais apenas a informação que representa o grau de relacionamento entre os pares de objetos está disponível. O caso mais comum de dados relacionais é quando se tem uma matriz de dissimilaridade () entre objetos e cada célula da matriz tem a informação do grau de relacionamento entre um par de objetos. Esses dados relacionais podem ser (e geralmente são) complexos, tais como objetos multimídia, o que faz com que o relacionamento entre objetos possa ser descrito por múltiplas matrizes de (dis)similaridade. Cada matriz é chamada de visão e dados descritos desta forma são ditos multi-view. Há três principais abordagens para administrar dados multi-view em análise de agrupamento no estado da arte: abordagem de concatenação (fusão de dados), abordagem distribuída e abordagem centralizada. Na abordagem centralizada, se utiliza as múltiplas visões de forma simultânea para encontrar padrões escondidos nos dados; representa um desafio importante pois requer uma modificação profunda do processo de particionamento. Em compensação, essa abordagem geralmente tem uma qualidade dos resultados superior em relação às outras duas abordagens. Agrupamento de dados é uma tarefa difícil, especialmente quando se trata de dados complexos, relacionais, de alta dimensionalidade e com múltiplas visões. Para facilitar o processo, não é incomum utilizar os rótulos dos objetos, contudo, dados rotulados geralmente são escassos; por isso é comum o uso de supervisão parcial, que necessita apenas o rótulo de alguns objetos de um dado conjunto. Este trabalho introduz o algoritmo SS-MVFCVSMdd (Semi-Supervised Multi-View Fuzzy Clustering Vector Set-Medoids), baseado no MVFCVSMdd e com funcionamento parecido com o SSMVFCSMdd. O SS-MVFCVSMdd é um algoritmo particional do tipo fuzzy c-medoids vectors semi-supervisionado de dados relacionais representados por múltiplas matrizes de dissimilaridade. O SS-MVFCVSMdd utiliza restrições par-a-par (must-link e cannot-link) entre objetos como supervisão parcial e é capaz de inferir representantes e pesos de relevância para cada visão. Experimentos são realizados em vários conjuntos de dados comparando seu desempenho com algoritmos de características similares ao SS-MVFCVSMdd. Os resultados apontam que o SS-MVFCVSMdd teve uma qualidade similar ou superior em relação aos outros algoritmos. |