Classificação das despesas com pessoal no contexto dos Tribunais de Contas

dc.contributor.advisor-co1Silva, Nadia Félix Felipe da
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/7864834001694765
dc.contributor.advisor1Salvini, Rogerio Lopes
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/5009392667450875
dc.contributor.referee1Salvini, Rogerio Lopes
dc.contributor.referee2Silva, Nadia Félix Felipe da
dc.contributor.referee3Fernandes, Deborah Silva Alves
dc.contributor.referee4Costa, Nattane Luíza da
dc.creatorTeixeira, Pedro Henrique
dc.creator.Latteshttp://lattes.cnpq.br/0560435807923097
dc.date.accessioned2023-10-18T16:59:24Z
dc.date.available2023-10-18T16:59:24Z
dc.date.issued2023-08-22
dc.description.abstractThe Court of Accounts of the Municipalities of the State of Goiás (TCMGO) uses the expenditure data received monthly from the municipalities of Goiás to check the expenditure related to personnel expenses, as determined by LRF. However, there are indications that the classification of expenses sent by the municipal manager may contain inconsistencies arising from fiscal tricks, creative accounting or material errors, leading TCMGO to make decisions based on incorrect reports, resulting in serious consequences for the inspection process. As a way of dealing with this problem, this work used text classification techniques to identify, based on the description of the expense and instead of the code provided by the municipality, the class of a personnel expense. For this, a corpus was built with 17,116 expense records labeled by domain experts, using binary and multi-class approaches. Data processing procedures were applied to extract attributes from the textual description, as well as assign numerical values to each instance of the data set with the TF-IDF algorithm. In the modeling stage, the algorithms Multinomial Naïve Bayes, Logistic Regression and Support Vector Machine (SVM) were used in supervised classification. SVM proved to be the best algorithm, with F-Score of 0.92 and 0.97, respectively, on the multi-class and binary corpus. However, it was found that the labeling process carried out by human experts is complex, time-consuming and expensive. Therefore, this work developed a method to classify personnel expenses using only 235 labeled samples, improved by unlabeled instances, based on the adaptation of the Self-Training algorithm, producing very promising results, with an average F-Score between 0.86 and 0.89.eng
dc.description.provenanceSubmitted by Marlene Santos (marlene.bc.ufg@gmail.com) on 2023-10-17T19:49:32Z workflow start=Step: editstep - action:claimaction No. of bitstreams: 2 Dissertação - Pedro Henrique Teixeira - 2023.pdf: 2541644 bytes, checksum: 9280b7818c27ff4567b4d0756e875e68 (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5)en
dc.description.provenanceStep: editstep - action:editaction Approved for entry into archive by Luciana Ferreira(lucgeral@gmail.com) on 2023-10-18T16:59:24Z (GMT)en
dc.description.provenanceMade available in DSpace on 2023-10-18T16:59:24Z (GMT). No. of bitstreams: 2 Dissertação - Pedro Henrique Teixeira - 2023.pdf: 2541644 bytes, checksum: 9280b7818c27ff4567b4d0756e875e68 (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Previous issue date: 2023-08-22en
dc.description.resumoO Tribunal de Contas dos Municípios do Estado de Goiás (TCMGO) utiliza os dados de despesas recebidos mensalmente dos municípios goianos para fiscalizar os gastos com pessoal, conforme determina a LRF. No entanto, há indícios de que a classificação das despesas enviadas pelo gestor municipal pode conter incongruências oriundas de truques fiscais, contabilidade criativa ou de erros materiais, induzindo o TCMGO a tomar decisões baseadas em relatórios incorretos, e, consequentemente, resultando em graves problemas ao processo de fiscalização. Como forma de tratar esse problema, este trabalho utilizou técnicas de classificação de texto para identificar, a partir da descrição da despesa e em detrimento do código de classificação informado pelo município, a classe de uma despesa de pessoal. Para isto, foi construído um corpus com 17.116 registros de despesas rotulados por especialistas no domínio, nas abordagens binária e multi-classe. Foram aplicados procedimentos de tratamento dos dados para a extração de atributos a partir da descrição textual, assim como a atribuição de valores numéricos para cada instância do conjunto de dados com o algoritmo TF-IDF. Na etapa de modelagem foram utilizados os algoritmos Multinomial Naïve Bayes, Logistic Regression e Support Vector Machine (SVM) para classificação supervisionada. O SVM provou ser o melhor algoritmo com F-Score de 0,92 no corpus multi-classe e 0,97 no binário. Entretanto, considerando que o processo de rotulação realizado pelos especialistas humanos é complexo, demorado e caro, este trabalho desenvolveu um método para classificar a despesa de pessoal utilizando apenas 235 amostras rotuladas, somadas a outras instâncias não rotuladas, a partir da adaptação do algoritmo Self-Training produzindo resultados bastante promissores, com F-Score médio entre 0,86 e 0,89.
dc.identifier.citationTEIXEIRA, P. H. Classificação das despesas com pessoal no contexto dos Tribunais de Contas. 2023. 111 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2023.
dc.identifier.urihttp://repositorio.bc.ufg.br/tede/handle/tede/13074
dc.languagepor
dc.publisherUniversidade Federal de Goiás
dc.publisher.countryBrasil
dc.publisher.departmentInstituto de Informática - INF (RG)
dc.publisher.initialsUFG
dc.publisher.programPrograma de Pós-graduação em Ciência da Computação (INF)
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internationalen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectAuditoriapor
dc.subjectDespesa públicapor
dc.subjectAprendizado de máquinapor
dc.subjectSemi-supervisionadopor
dc.subjectClassificação de textopor
dc.subjectAuditeng
dc.subjectPublic expenseeng
dc.subjectMachine learningeng
dc.subjectSemi-supervisedeng
dc.subjectText classificationeng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.titleClassificação das despesas com pessoal no contexto dos Tribunais de Contas
dc.title.alternativeClassification of personnel expenses in the context of the Courts of Accountseng
dc.typeDissertação

Arquivos

Pacote Original
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
Dissertação - Pedro Henrique Teixeira - 2023.pdf
Tamanho:
2.42 MB
Formato:
Adobe Portable Document Format
Licença do Pacote
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: