Modelo baseado em redes neurais profundas com unidades recorrentes bloqueadas para legendagem de imagens por referências

dc.contributor.advisor-co1Vinhal, Cássio Dener Noronha
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/9791117638583664pt_BR
dc.contributor.advisor1Cruz Júnior, Gélson da
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/4370555454162131pt_BR
dc.contributor.referee1Cruz Júnior, Gélson da
dc.contributor.referee2Ferreira, Deller James
dc.contributor.referee3Santos, Gilberto Antonio Marcon dos
dc.contributor.referee4Vinhal, Cássio Dener Noronha
dc.contributor.referee5Lemos, Rodrigo Pinto
dc.creatorNogueira, Tiago do Carmo
dc.creator.Latteshttp://lattes.cnpq.br/3522572013466053pt_BR
dc.date.accessioned2020-10-26T11:36:00Z
dc.date.available2020-10-26T11:36:00Z
dc.date.issued2020-09-28
dc.description.abstractDescribing images using natural language has become a challenging task for computer vision. Image captioning can automatically create descriptions through deep learning architectures that use convolutional neural networks (CNNs) and recurrent neural networks (RNNs). Image captioning has several applications, such as object descriptions in scenes to help blind people walk in unknown environments, and medical image descriptions for early diagnosis of diseases. However, architectures supported by traditional RNNs, in addition to problems of exploding and fading gradients, can generate non-descriptive sentences. To solve these difficulties, this study proposes a model based on the encoder-decoder structure using CNNs to extract the image characteristics and multimodal gated recurrent units (GRU) to generate the descriptions. The part-of-speech (PoS) and the likelihood function are used to generate weights in the GRU. The proposed method performs knowledge transfer in the validation phase using the k-nearest neighbors (kNN) technique. The experimental results in the Flickr30k and MS-COCO data sets demonstrate that the proposed PoS-based model is statistically superior to the leading models. It provides more descriptive captions that are similar to the expected captions, both in the predicted and kNN-selected captions. These results indicate an automatic improvement of the image descriptions, benefitting several applications, such as medical image captioning for early diagnosis of diseases.eng
dc.description.provenanceSubmitted by Luciana Ferreira (lucgeral@gmail.com) on 2020-10-23T10:59:17Z No. of bitstreams: 2 license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Tese - Tiago do Carmo Nogueira - 2020.pdf: 7773935 bytes, checksum: 8a80bf4ead5dc797a82ed8fc69c14ae7 (MD5)en
dc.description.provenanceApproved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2020-10-26T11:35:59Z (GMT) No. of bitstreams: 2 license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Tese - Tiago do Carmo Nogueira - 2020.pdf: 7773935 bytes, checksum: 8a80bf4ead5dc797a82ed8fc69c14ae7 (MD5)en
dc.description.provenanceMade available in DSpace on 2020-10-26T11:36:00Z (GMT). No. of bitstreams: 2 license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Tese - Tiago do Carmo Nogueira - 2020.pdf: 7773935 bytes, checksum: 8a80bf4ead5dc797a82ed8fc69c14ae7 (MD5) Previous issue date: 2020-09-28en
dc.description.resumoDescrever imagens por meio da linguagem natural se tornou uma tarefa desafiadora para a visão computacional. A legendagem de imagem é capaz de criar descrições de forma automática, pelas arquiteturas de aprendizado profundo, que utilizam redes neurais convolucionais (CNNs) e redes neurais recorrentes (RNNs). Dessa forma, a tarefa de legendagem de imagem possui várias aplicabilidades, como, por exemplo, nas descrições de objetos em cenas para a locomoção de pessoas cegas em ambientes desconhecidos e nas descrições de imagens médicas para o diagnóstico precoce de doenças. No entanto, arquiteturas apoiadas em RNNs tradicionais, além de ter problemas com o gradiente explodindo e desvanecendo, sofrem com as gerações de sentenças não descritivas. Para solucionar tais dificuldades, propõe-se, neste trabalho, um modelo baseado na estrutura codificador-decodificador, utilizando CNNs para extrair as características das imagens e as unidades recorrentes bloqueadas (GRU) multimodais para realizar as descrições. Além disso, aplicou-se a parte-do-discurso (PoS) e a função de verossimilhança para a geração dos pesos na GRU. O método proposto realiza a transferência de conhecimento na fase de validação pela técnica k-vizinhos mais próximos (kNN). Assim, os resultados experimentais nos conjuntos de dados Flickr30k e MS-COCO demonstram que o modelo proposto baseado na PoS apresenta pontuações significativas quando comparados aos modelos de ponta, prevendo legendas mais descritivas, aproximando-se das legendas esperadas, tanto na legenda de predição quanto nas selecionadas pela kNN. Esses resultados corroboram para a melhoria nas descrições das imagens de forma automática, podendo beneficiar várias aplicações, como, por exemplo, os modelos de legendagem de imagens médicas para o diagnóstico precoce de doenças.pt_BR
dc.identifier.citationNOGUEIRA, T. C. Modelo baseado em redes neurais profundas com unidades recorrentes bloqueadas para legendagem de imagens por referências. 2020. 122 f. Tese (Doutorado em Engenharia Elétrica e da Computação) - Universidade Federal de Goiás, Goiânia, 2020.pt_BR
dc.identifier.urihttp://repositorio.bc.ufg.br/tede/handle/tede/10884
dc.languageporpt_BR
dc.publisherUniversidade Federal de Goiáspt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentEscola de Engenharia Elétrica, Mecânica e de Computação - EMC (RG)pt_BR
dc.publisher.initialsUFGpt_BR
dc.publisher.programPrograma de Pós-graduação em Engenharia Elétrica e da Computação (EMC)pt_BR
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 International*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectAprendizado profundopor
dc.subjectRede neural convolucionalpor
dc.subjectUnidades recorrentes bloqueadaspor
dc.subjectLegendagem de imagenspor
dc.subjectParte do discursopor
dc.subjectVerossimilhançapor
dc.subjectDeep learningeng
dc.subjectConvolutional neural networkeng
dc.subjectGated recurrent unitseng
dc.subjectImage captioningeng
dc.subjectPart-of-speecheng
dc.subjectLikelihoodeng
dc.subject.cnpqENGENHARIAS::ENGENHARIA ELETRICApt_BR
dc.titleModelo baseado em redes neurais profundas com unidades recorrentes bloqueadas para legendagem de imagens por referênciaspt_BR
dc.title.alternativeBased-model on deep neural networks using gated recurrent units for image captioning by referenceseng
dc.typeTesept_BR

Arquivos

Pacote Original
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
Tese - Tiago do Carmo Nogueira - 2020.pdf
Tamanho:
7.41 MB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: