Classificação das despesas com pessoal no contexto dos Tribunais de Contas
dc.contributor.advisor-co1 | Silva, Nadia Félix Felipe da | |
dc.contributor.advisor-co1Lattes | http://lattes.cnpq.br/7864834001694765 | |
dc.contributor.advisor1 | Salvini, Rogerio Lopes | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/5009392667450875 | |
dc.contributor.referee1 | Salvini, Rogerio Lopes | |
dc.contributor.referee2 | Silva, Nadia Félix Felipe da | |
dc.contributor.referee3 | Fernandes, Deborah Silva Alves | |
dc.contributor.referee4 | Costa, Nattane Luíza da | |
dc.creator | Teixeira, Pedro Henrique | |
dc.creator.Lattes | http://lattes.cnpq.br/0560435807923097 | |
dc.date.accessioned | 2023-10-18T16:59:24Z | |
dc.date.available | 2023-10-18T16:59:24Z | |
dc.date.issued | 2023-08-22 | |
dc.description.abstract | The Court of Accounts of the Municipalities of the State of Goiás (TCMGO) uses the expenditure data received monthly from the municipalities of Goiás to check the expenditure related to personnel expenses, as determined by LRF. However, there are indications that the classification of expenses sent by the municipal manager may contain inconsistencies arising from fiscal tricks, creative accounting or material errors, leading TCMGO to make decisions based on incorrect reports, resulting in serious consequences for the inspection process. As a way of dealing with this problem, this work used text classification techniques to identify, based on the description of the expense and instead of the code provided by the municipality, the class of a personnel expense. For this, a corpus was built with 17,116 expense records labeled by domain experts, using binary and multi-class approaches. Data processing procedures were applied to extract attributes from the textual description, as well as assign numerical values to each instance of the data set with the TF-IDF algorithm. In the modeling stage, the algorithms Multinomial Naïve Bayes, Logistic Regression and Support Vector Machine (SVM) were used in supervised classification. SVM proved to be the best algorithm, with F-Score of 0.92 and 0.97, respectively, on the multi-class and binary corpus. However, it was found that the labeling process carried out by human experts is complex, time-consuming and expensive. Therefore, this work developed a method to classify personnel expenses using only 235 labeled samples, improved by unlabeled instances, based on the adaptation of the Self-Training algorithm, producing very promising results, with an average F-Score between 0.86 and 0.89. | eng |
dc.description.provenance | Submitted by Marlene Santos (marlene.bc.ufg@gmail.com) on 2023-10-17T19:49:32Z workflow start=Step: editstep - action:claimaction No. of bitstreams: 2 Dissertação - Pedro Henrique Teixeira - 2023.pdf: 2541644 bytes, checksum: 9280b7818c27ff4567b4d0756e875e68 (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) | en |
dc.description.provenance | Step: editstep - action:editaction Approved for entry into archive by Luciana Ferreira(lucgeral@gmail.com) on 2023-10-18T16:59:24Z (GMT) | en |
dc.description.provenance | Made available in DSpace on 2023-10-18T16:59:24Z (GMT). No. of bitstreams: 2 Dissertação - Pedro Henrique Teixeira - 2023.pdf: 2541644 bytes, checksum: 9280b7818c27ff4567b4d0756e875e68 (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Previous issue date: 2023-08-22 | en |
dc.description.resumo | O Tribunal de Contas dos Municípios do Estado de Goiás (TCMGO) utiliza os dados de despesas recebidos mensalmente dos municípios goianos para fiscalizar os gastos com pessoal, conforme determina a LRF. No entanto, há indícios de que a classificação das despesas enviadas pelo gestor municipal pode conter incongruências oriundas de truques fiscais, contabilidade criativa ou de erros materiais, induzindo o TCMGO a tomar decisões baseadas em relatórios incorretos, e, consequentemente, resultando em graves problemas ao processo de fiscalização. Como forma de tratar esse problema, este trabalho utilizou técnicas de classificação de texto para identificar, a partir da descrição da despesa e em detrimento do código de classificação informado pelo município, a classe de uma despesa de pessoal. Para isto, foi construído um corpus com 17.116 registros de despesas rotulados por especialistas no domínio, nas abordagens binária e multi-classe. Foram aplicados procedimentos de tratamento dos dados para a extração de atributos a partir da descrição textual, assim como a atribuição de valores numéricos para cada instância do conjunto de dados com o algoritmo TF-IDF. Na etapa de modelagem foram utilizados os algoritmos Multinomial Naïve Bayes, Logistic Regression e Support Vector Machine (SVM) para classificação supervisionada. O SVM provou ser o melhor algoritmo com F-Score de 0,92 no corpus multi-classe e 0,97 no binário. Entretanto, considerando que o processo de rotulação realizado pelos especialistas humanos é complexo, demorado e caro, este trabalho desenvolveu um método para classificar a despesa de pessoal utilizando apenas 235 amostras rotuladas, somadas a outras instâncias não rotuladas, a partir da adaptação do algoritmo Self-Training produzindo resultados bastante promissores, com F-Score médio entre 0,86 e 0,89. | |
dc.identifier.citation | TEIXEIRA, P. H. Classificação das despesas com pessoal no contexto dos Tribunais de Contas. 2023. 111 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2023. | |
dc.identifier.uri | http://repositorio.bc.ufg.br/tede/handle/tede/13074 | |
dc.language | por | |
dc.publisher | Universidade Federal de Goiás | |
dc.publisher.country | Brasil | |
dc.publisher.department | Instituto de Informática - INF (RG) | |
dc.publisher.initials | UFG | |
dc.publisher.program | Programa de Pós-graduação em Ciência da Computação (INF) | |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 International | en |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
dc.subject | Auditoria | por |
dc.subject | Despesa pública | por |
dc.subject | Aprendizado de máquina | por |
dc.subject | Semi-supervisionado | por |
dc.subject | Classificação de texto | por |
dc.subject | Audit | eng |
dc.subject | Public expense | eng |
dc.subject | Machine learning | eng |
dc.subject | Semi-supervised | eng |
dc.subject | Text classification | eng |
dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | |
dc.title | Classificação das despesas com pessoal no contexto dos Tribunais de Contas | |
dc.title.alternative | Classification of personnel expenses in the context of the Courts of Accounts | eng |
dc.type | Dissertação |
Arquivos
Pacote Original
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- Dissertação - Pedro Henrique Teixeira - 2023.pdf
- Tamanho:
- 2.42 MB
- Formato:
- Adobe Portable Document Format
Licença do Pacote
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- license.txt
- Tamanho:
- 1.71 KB
- Formato:
- Item-specific license agreed upon to submission
- Descrição: