Modelo baseado em redes neurais profundas com unidades recorrentes bloqueadas para legendagem de imagens por referências
dc.contributor.advisor-co1 | Vinhal, Cássio Dener Noronha | |
dc.contributor.advisor-co1Lattes | http://lattes.cnpq.br/9791117638583664 | pt_BR |
dc.contributor.advisor1 | Cruz Júnior, Gélson da | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/4370555454162131 | pt_BR |
dc.contributor.referee1 | Cruz Júnior, Gélson da | |
dc.contributor.referee2 | Ferreira, Deller James | |
dc.contributor.referee3 | Santos, Gilberto Antonio Marcon dos | |
dc.contributor.referee4 | Vinhal, Cássio Dener Noronha | |
dc.contributor.referee5 | Lemos, Rodrigo Pinto | |
dc.creator | Nogueira, Tiago do Carmo | |
dc.creator.Lattes | http://lattes.cnpq.br/3522572013466053 | pt_BR |
dc.date.accessioned | 2020-10-26T11:36:00Z | |
dc.date.available | 2020-10-26T11:36:00Z | |
dc.date.issued | 2020-09-28 | |
dc.description.abstract | Describing images using natural language has become a challenging task for computer vision. Image captioning can automatically create descriptions through deep learning architectures that use convolutional neural networks (CNNs) and recurrent neural networks (RNNs). Image captioning has several applications, such as object descriptions in scenes to help blind people walk in unknown environments, and medical image descriptions for early diagnosis of diseases. However, architectures supported by traditional RNNs, in addition to problems of exploding and fading gradients, can generate non-descriptive sentences. To solve these difficulties, this study proposes a model based on the encoder-decoder structure using CNNs to extract the image characteristics and multimodal gated recurrent units (GRU) to generate the descriptions. The part-of-speech (PoS) and the likelihood function are used to generate weights in the GRU. The proposed method performs knowledge transfer in the validation phase using the k-nearest neighbors (kNN) technique. The experimental results in the Flickr30k and MS-COCO data sets demonstrate that the proposed PoS-based model is statistically superior to the leading models. It provides more descriptive captions that are similar to the expected captions, both in the predicted and kNN-selected captions. These results indicate an automatic improvement of the image descriptions, benefitting several applications, such as medical image captioning for early diagnosis of diseases. | eng |
dc.description.provenance | Submitted by Luciana Ferreira (lucgeral@gmail.com) on 2020-10-23T10:59:17Z No. of bitstreams: 2 license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Tese - Tiago do Carmo Nogueira - 2020.pdf: 7773935 bytes, checksum: 8a80bf4ead5dc797a82ed8fc69c14ae7 (MD5) | en |
dc.description.provenance | Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2020-10-26T11:35:59Z (GMT) No. of bitstreams: 2 license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Tese - Tiago do Carmo Nogueira - 2020.pdf: 7773935 bytes, checksum: 8a80bf4ead5dc797a82ed8fc69c14ae7 (MD5) | en |
dc.description.provenance | Made available in DSpace on 2020-10-26T11:36:00Z (GMT). No. of bitstreams: 2 license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Tese - Tiago do Carmo Nogueira - 2020.pdf: 7773935 bytes, checksum: 8a80bf4ead5dc797a82ed8fc69c14ae7 (MD5) Previous issue date: 2020-09-28 | en |
dc.description.resumo | Descrever imagens por meio da linguagem natural se tornou uma tarefa desafiadora para a visão computacional. A legendagem de imagem é capaz de criar descrições de forma automática, pelas arquiteturas de aprendizado profundo, que utilizam redes neurais convolucionais (CNNs) e redes neurais recorrentes (RNNs). Dessa forma, a tarefa de legendagem de imagem possui várias aplicabilidades, como, por exemplo, nas descrições de objetos em cenas para a locomoção de pessoas cegas em ambientes desconhecidos e nas descrições de imagens médicas para o diagnóstico precoce de doenças. No entanto, arquiteturas apoiadas em RNNs tradicionais, além de ter problemas com o gradiente explodindo e desvanecendo, sofrem com as gerações de sentenças não descritivas. Para solucionar tais dificuldades, propõe-se, neste trabalho, um modelo baseado na estrutura codificador-decodificador, utilizando CNNs para extrair as características das imagens e as unidades recorrentes bloqueadas (GRU) multimodais para realizar as descrições. Além disso, aplicou-se a parte-do-discurso (PoS) e a função de verossimilhança para a geração dos pesos na GRU. O método proposto realiza a transferência de conhecimento na fase de validação pela técnica k-vizinhos mais próximos (kNN). Assim, os resultados experimentais nos conjuntos de dados Flickr30k e MS-COCO demonstram que o modelo proposto baseado na PoS apresenta pontuações significativas quando comparados aos modelos de ponta, prevendo legendas mais descritivas, aproximando-se das legendas esperadas, tanto na legenda de predição quanto nas selecionadas pela kNN. Esses resultados corroboram para a melhoria nas descrições das imagens de forma automática, podendo beneficiar várias aplicações, como, por exemplo, os modelos de legendagem de imagens médicas para o diagnóstico precoce de doenças. | pt_BR |
dc.identifier.citation | NOGUEIRA, T. C. Modelo baseado em redes neurais profundas com unidades recorrentes bloqueadas para legendagem de imagens por referências. 2020. 122 f. Tese (Doutorado em Engenharia Elétrica e da Computação) - Universidade Federal de Goiás, Goiânia, 2020. | pt_BR |
dc.identifier.uri | http://repositorio.bc.ufg.br/tede/handle/tede/10884 | |
dc.language | por | pt_BR |
dc.publisher | Universidade Federal de Goiás | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.publisher.department | Escola de Engenharia Elétrica, Mecânica e de Computação - EMC (RG) | pt_BR |
dc.publisher.initials | UFG | pt_BR |
dc.publisher.program | Programa de Pós-graduação em Engenharia Elétrica e da Computação (EMC) | pt_BR |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 International | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.subject | Aprendizado profundo | por |
dc.subject | Rede neural convolucional | por |
dc.subject | Unidades recorrentes bloqueadas | por |
dc.subject | Legendagem de imagens | por |
dc.subject | Parte do discurso | por |
dc.subject | Verossimilhança | por |
dc.subject | Deep learning | eng |
dc.subject | Convolutional neural network | eng |
dc.subject | Gated recurrent units | eng |
dc.subject | Image captioning | eng |
dc.subject | Part-of-speech | eng |
dc.subject | Likelihood | eng |
dc.subject.cnpq | ENGENHARIAS::ENGENHARIA ELETRICA | pt_BR |
dc.title | Modelo baseado em redes neurais profundas com unidades recorrentes bloqueadas para legendagem de imagens por referências | pt_BR |
dc.title.alternative | Based-model on deep neural networks using gated recurrent units for image captioning by references | eng |
dc.type | Tese | pt_BR |
Arquivos
Pacote Original
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- Tese - Tiago do Carmo Nogueira - 2020.pdf
- Tamanho:
- 7.41 MB
- Formato:
- Adobe Portable Document Format
- Descrição:
Licença do Pacote
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- license.txt
- Tamanho:
- 1.71 KB
- Formato:
- Item-specific license agreed upon to submission
- Descrição: