Publication: Disambuguation of stemming in Turkish words in a text
Abstract
TÜRKÇE KELİMELERDE METNE GÖRE KÖK BULMA BELİRSİZLİĞİNİN GİDERİLMESİ Kök bulma (stemming) bilgi erişimi(information retrieval), arama motorları gibi popüler olan uygulamalar için bir ihtiyaçtır. Çoğu kelimenin yapı eklerinin birleştirilmesiyle oluşturulduğu çekimli dillerde uygulanabilen çeşitli kök bulma algoritmaları mevcuttur. Kök bulma algoritmaları gerçeklenip uygulandıktan sonra birden fazla çözüme ulaşılabilir. Bu çözümlerin bazıları aynı kök ile farklı ek kombinasyonları olabileceği gibi bazıları da farklı kök ve eklerden oluşabilir. Kök bulma asıl olarak kelimelerin gerçek köklerini bulmak amacıyla gerçekleştirildiği için, bu çalışmada da sadece ayrı kök çözümlemeleri üzerindeki kök bulma belirsizliğinin giderilmesi ile ilgilenilmiştir. Kök bulma algoritmalarının çoğu bu belirsizlik giderme problemine çözüm getirmeye çalışır. Çözümler genellikle dile bağımlı, kurala dayalı veya istatistiksel yöntemlerden oluşmaktadır. Özellikle kurala dayalı yöntemler dil üzerinde büyük bilgi gerektirmektedir. Bu çalışmada, kök bulma belirsizliğinin giderilmesinde güdümsüz öğrenme (unsupervised learning) üzerine bir yöntem sunulmaktadır. Bir kök bulucunun (stemmer) kök çözümleri, kök bağlantıları sözlüğü oluşturmak için kullanılır. Bu sözlük herhangi bir cümle öğesi (part-of-speech) olan kelimenin kök bulma belirsizliğini gidermede kullanılır. Temel olarak kelimelerdeki kök bulma belirsizliğinin giderilmesi bu kelimeleri çevreleyen kökler kullanılarak sağlanır. bulma belirsizliğini giderme, kök bağlantıları sözlüğü, doğal dil işleme NLP
DISAMBIGUATION OF STEMMING IN TURKISH WORDS IN A TEXT Stemming is a need for popular applications like information retrieval, search engines etc. There are several stemming algorithms which can be applied on most of the agglutinative languages, in which most words are formed by joining morphemes together. After implementing and applying the stemming algorithms to words, there may be more than one solution. Some of the solutions may be same root with different suffix combinations and some may be different roots with suffixes. Since stemming is mainly implemented to retrieve the real roots of words, this study is concerned with the stemming disambiguation of distinct root solutions. Most of stemming algorithms try to give a solution for this disambiguation problem. The solutions are mainly rule-based and stochastic methods and dependent to the language. Especially rule-based methods need great knowledge of the language. In this study, an unsupervised learning method of stemming disambiguation implementation is presented. Root solutions of a stemmer are used in forming a dictionary of root relations. The stemmer is run over a large corpus with n-gram analyzes to form the dictionary of root relations. This dictionary is accessed to solve any ambiguity on part-of-speech (POS) word stemming solutions. Basically the stemming disambiguation of words will be obtained using the roots surrounding them. stemming disambiguation, root relevance dictionary, natural language processing NLP
DISAMBIGUATION OF STEMMING IN TURKISH WORDS IN A TEXT Stemming is a need for popular applications like information retrieval, search engines etc. There are several stemming algorithms which can be applied on most of the agglutinative languages, in which most words are formed by joining morphemes together. After implementing and applying the stemming algorithms to words, there may be more than one solution. Some of the solutions may be same root with different suffix combinations and some may be different roots with suffixes. Since stemming is mainly implemented to retrieve the real roots of words, this study is concerned with the stemming disambiguation of distinct root solutions. Most of stemming algorithms try to give a solution for this disambiguation problem. The solutions are mainly rule-based and stochastic methods and dependent to the language. Especially rule-based methods need great knowledge of the language. In this study, an unsupervised learning method of stemming disambiguation implementation is presented. Root solutions of a stemmer are used in forming a dictionary of root relations. The stemmer is run over a large corpus with n-gram analyzes to form the dictionary of root relations. This dictionary is accessed to solve any ambiguity on part-of-speech (POS) word stemming solutions. Basically the stemming disambiguation of words will be obtained using the roots surrounding them. stemming disambiguation, root relevance dictionary, natural language processing NLP
