Metin Madenciliği (Text Mining) Nedir? Örneklerle Anlatım

Günümüzde şirketlerinin elinde pek çok veri vardır. Ancak bu verilerin birçoğu yapılandırılmamış veridir. Bu yapılandırılmamış verilere blog makaleleri, sosyal medya paylaşımları, geri bildirim formları ve anketler gibi pek çok örnek verebiliriz.

Yapılandırılmamış veriler aslında şirketlerin kullanabileceği ve ihtiyacı olan birçok bilgiyi içinde barındırır. Örneğin; tüketici duyarlılıklarını tespit etmek, metindeki ilişkileri belirlemek ve yeni doğacak trendleri önceden tahmin etmek gibi farklı nedenlerden dolayı şirketler metinlerden bazı veriler toplamak ve bu veriler doğrultusunda geleceğe yönelik adım atmak isterler. Burada unutulmaması gereken ise bu metin yığınlarının içinde aynı zamanda şirketler için gereksiz çok fazla içerik bulunmasıdır. Bu yüzden metinlerin analiz edilerek ihtiyaç duyulan verilerin alınması gerekir. Metinlerin içinden gerekli verilerin alınması ise ancak metin madenciliği ile gerçekleşebilir.

Bu yazımızda sizler metin madenciliği (text mining) nedir sorusuna cevap verip, metin madenciliği projelerinden bahsedeceğiz.

Metin Madenciliği (Text Mining) Nedir?

Metin madenciliği ya da İngilizce olarak text mining için belirli bir formatta olmayan, yazı tipindeki veriler içerisinde gizli olan nitelikli bilginin çıkarılması, düzensiz haldeki verinin yapılandırılması sürecidir diyebiliriz.

Metin madenciliği; metinlerin sınıflandırılması, kümelendirilmesi, metinlerden konu çıkarılması, duygusal analiz ve metin özetleme gibi çalışmaları hedefler. Baktığımızda veri madenciliğinde kullanılan yöntemlerin birçoğu metin madenciliğinde de kullanılmaktadır.

Metin Madenciliği Projeleri

Metin madenciliği projelerinde genellikle yapısal olmayan veriler üzerinde işlem yapılması gerekir. Yapısal olmayan verilerden anlam çıkartmak için verilerin işlenebilir hale getirilmesi gerekiyor. Verilerin işlenebilir hale getirilmesi için yapılan işlemlerden bazıları şunlardır;

Removing punctuation and digits: Metin içerisindeki noktalama işaretleri ve sayıların çıkartılması.

Tokezination: Metni istenilen şekilde parçalayarak dizilere kaydetmek. Genellikle metinler kelime kelime parçalanır.

Removing stop words: Metin içerisinde geçen, anlamda herhangi bir değişiklik yapmayan kelimelerin atılması. Örneğin; bazı, ya, da gibi kelimeler.

Normalization: Metinlerin farklı formatlardaki ve hatalı söylemlerinin kononik (standart) bir formata dönüştürülmesi işlemidir.

Stemming: Metinde geçen kelimelerdeki eklerin atılarak kelime köklerinin kaydedilmesi. Bu işlem sonucunda ortaya çıkan kök anlamsal olarak karşılık bulmayabilir ama şeklen kelimenin varyasyonları arasındaki ortak kararkter dizilimine tekabül eder.

Bunlar gibi daha birçok işlem örneği verilebilir.

Bu yazımızda sizler metin madenciliği (text mining) nedir sorusuna cevap verdik ve metin madenciliği projelerinden bahsettik.

İlginizi çekebilir: Müşteri Deneyimi | Artiwise

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>