STUDY OF WORD EMBEDDING RULES AND MACHINE LEARNING BASED TEXT CLASSIFICATION

thumbnail.default.placeholder
Date
2022-01-26
Authors
AUBAID, Asmaa
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
With the growth of online information and the sudden growth in the number of electronic documents provided on the Web and in digital libraries, there is difficulty in categorizing text documents. Therefore, embedding, rule-based and machine learning approaches are the best solutions to this problem as the rule-based approach is considered to be one of the most flexible methods by which the black box of the process of the text classification technique can be shown. The details of a process of classification can be seen and it can add some tools or new instructions to obtain good results. This approach has high value for information retrieval, e-governments, information filtering, text databases, digital libraries, and other applications. The problem of the embedding technique and generating rule-based is very significant for text categorization. The general idea of any embedding technique is to determine the importance of keywords using a technique that can keep informative words and remove non-informative words, which can then help the text-categorization engine to categorize a document into a category. This thesis deals with the rule-based approach using the embedding technique for the word to vector (word2vec) and document to vector (doc2vec) approaches. It will use these two techniques to prepare keywords depending on the computation of similarity. After that, we use those keywords to apply the rule-based approach for a classifier to achieve to the best performance of the system by computing performance evaluation measures such as accuracy, recall, precision, and F-Measures. Experiments were performed on the Reuter 21578 and 20 Newsgroups datasets to classify the top ten categories of Reuter 21578 and 20 Newsgroups datasets. The Python language was used to create a rule-based approach followed by the overall effectiveness of the approach being measured with the F-Measure score, error rate, and accuracy. The results of rule-based with the embedding technique using the doc2vec model (d2vRule) in the case of the Reuter 21578 dataset were 79% precision, 75% recall, 76.75% F-Measures, 9.28% error rate and 90.72% accuracy measurements. For the 20 Newsgroups dataset, the results were 76% precision, 66.64% recall, 70.98% F-Measures, 9.93% error rate and 90.07% accuracy measurement. In addition, when the machine learning algorithms J-RIPPER (JRip), One Rule (OneR) and ZeroR were applied to the Reuter 21578 dataset, we obtained F-Measures and accuracy metrics of 0.713 − 0.752, 0.506 − 0.598 and 0.219 − 0.39 for JRip, One R and ZeroR, respectively. In addition, when applying those algorithms to our dataset, there was agreement and it appeared that our algorithm (d2vRule) performed better than these three algorithms mentioned above. Moreover, it provides a good classification process according to the evaluation metrics. On the other hand, when using the embedding technique with the word2vec model, it is predictable that these results depended on precision, recall and F-Measures approaches. Finally, it is clear that our rule-based approach is better than the results of machine learning, namely Naïve Bayes, Naive Bayes Updateable, Rules.DecisionTable, Lazy. IBL and Lazy.IBK. When it is validated for our rule-based (w2vRule), it can be seen that the rule-based (RB) classifier of a certain reference has the highest accuracy with 82.19% of correctly classified instances, while Decision Tree (DT), Support Vector Machine (SVM), Random Forest (RF), and Bayes Net (BN) have accuracies of 81.72%, 81.49%, 81.19%, and 77.85%, respectively, and the Temporal Specificity Score (TSS) classifier correctly classified 77.19% of instances referenced. However, our word-to-vector rule-based classifier (w2vRule) has an observed level of measurements in the case of the Reuter 21578 dataset were 73% precision, 77.71% recall, 75.09% F-Measures, 10.09% error rate and 89.91% accuracy. Therefore, it achieved the best result when we compared it with previous rule-based and machine learning classifiers.
Description
KELİME GÖMME KURALLARI VE METİN SINIFLANDIRMASI TABANLI MAKİNE ÖĞRENME ÜZERİNE BİR ÇALIŞMA
ÖZ: Çevrimiçi bilgilerin, internet üzerinden temin edilebilen elektronik belgelerin ve dijital kütüphanelerin sayısındaki ani artış ile beraber metin belgelerinin kategorize edilmesinde zorluklar oluşmaya başlamıştır. Metin sınıflandırması teknik sürecinin kara kutusunun gösterilebileceği en esnek yöntemlerden birisi olarak görülen kural tabanlı yaklaşımlar olarak gömme, kural tabanlı ve makine öğrenme yaklaşımı bu problemin bu nedenle en iyi çözümleridir. Sınıflandırma sürecinin detayları görülebilir ve iyi sonuçlar elde etmek için bazı araçlar ve yeni talimatlar eklenebilir. Bu yaklaşımın bilgi alma, e-devlet, bilgi süzme, metin veri tabanları, dijital kütüphaneler ve diğer uygulamalar için değeri yüksektir. Gömme tekniği ve kural tabanlı oluşturma problemi metin kategorizasyonunda çok belirgin bir öneme sahiptir. Gömme tekniğinin ana fikri, metin kategorizasyon motoruna bir belgeyi bir kategoriye dönüştürmesinde yardımcı olabilecek bilgilendirici ve bilgilendirici olmayan kelimeleri tutabilecek bir teknik kullanarak anahtar kelimelerin önemini tespit etmektir. Bu tez, kelimeden vektöre (word2vec) ve belgeden vektöre (doc2vec) yaklaşımları için gömme tekniği kullanan kural tabanlı yaklaşımı ele almaktadır. Benzerlik hesabına bağlı olarak anahtar kelimeler hazırlamada bu iki teknik kullanılacaktır. Bunun ardından, doğruluk, geri çağırma, hassasiyet ve F-Ölçümleri gibi performans değerlendirme ölçütlerini hesaplayarak sistemin en iyi performansını gerçekleştirecek bir sınıflandırıcı için kural tabanlı yaklaşımı uygulamada bu anahtar kelimeleri kullanırız. Reuters 21578 ve 20 haber grupları veri kümeleri üzerinde Reuters 21578 ve 20 haber grupları veri kümelerinin ilk on kategorisini tasnif etmek için deneyler yapılmıştır. Python dili; F-M Skoru, Hata oranı ve Doğruluk ile ölçülmekte olan yaklaşımın genel etkinliği ile izlenen kural tabanlı bir yaklaşımı meydana getirmek için kullanılmıştı. Reuters 21578 veri kümesi durumunda doc2vec (d2vRule) kullanan gömme tekniği ile kural tabanlı sonuçları; doğruluk % 79, geri çağırma % 75, F-Ölçümleri % 76.75, hata oranı % 9.28 ve doğruluk ölçümleri % 90.72 olarak bulunmuştur. 20 Haber Grubu veri seti için sonuçlar; hassasiyet % 76, geri çağırma % 66,64, F-Ölçümü % 70,98, hata oranı % 9,99 ve doğruluk ölçümü % 90,07 olarak bulunmuştur. Ayrıca, makine öğrenme algoritmaları J-RIPPER (JRip), One Rule (OneR) ve ZeroR, Reuter 21578 veri setine uygulandığında, JRip, OneR ve ZeroR için sırasıyla 0.713 - 0.752, 0.506 - 0.598 ve 0.219 - 0.39 F-Ölçümleri ve doğruluk ölçümleri elde ettik. . Buna ilaveten, bu algoritmaları veri kümemize uyguladığımızda, mutabakat sağlandı ve algoritmamızın (d2vRule) yukarıda belirtilen bu üç algoritmadan daha iyi performans gösterdiği ortaya çıktı. Bundan başka, değerlendirme ölçütlerine göre iyi bir sınıflandırma süreci sağlamaktadır. Diğer taraftan, gömme tekniğini word2vec modeliyle kullanırken, bu sonuçların hassasiyet, geri çağırma ve F-Ölçüm yaklaşımlarına bağlı olduğu tahmin edilebilir. Son olarak, kural tabanlı yaklaşımızın makine öğrenme sonuçlarından yani Naïve-Bayes, Naive Bayes Updateable, Rules.DecisionTable, Lazy. IBL ve Lazy.IBK. yaklaşımlarının sonuçlarından daha iyi olduğu açıktır. Kural-tabanlı (w2cRule) yaklaşımımız için geçerliliği denetlendiğinde, belirli bir referansın kural-tabanlı (RB) sınıflandırıcısının doğru sınıflandırılmış örneklerin % 82.19'u ile en yüksek doğruluğa sahip olduğu görülürken, Karar Ağacı (DT) Destek Vektör Makinesinin (SVM), Rastgele Orman (RF) ve Bayes Net (BN) sırasıyla % 81.72, % 81.49, % 81.19 ve % 77.85 doğruluk oranlarına sahiptirler ve Geçici Spesifiklik Skoru (TSS) sınıflandırıcısı referans alınan örneklerin % 77.19'unu doğru bir biçimde sınıflandırmıştır. Bununla beraber, kelimeden vektöre kural tabanlı sınıflandırıcımız (w2vRule) Reuter 21578 veri kümesi durumunda % 73 hassasiyet, % 77.61 geri çağırma, % 75.09 F-Ölçümü, % 10.09 hata oranı ve % 89.91 doğruluk ölçüm seviyeleri gözlemlenmiştir. Bundan dolayı, önceki kural tabanlı ve makine öğrenme sınıflandırıcıları ile kıyasladığımızda en iyi sonuçları vermiştir.
Keywords
engineering systems
Citation