Son zamanların en popüler konuları arasında yer alan veriler günden güne akıl almaz bir hızla artmaya devam ediyor. Bu verileri değerli bilgiler haline dönüştürmek için geçirdiğimiz sürece ise veri bilimi diyoruz. Şimdi konuyu biraz daha derinlemesine ele alalım ve kendine özgü adımları olan bu süreci Veri Mühendisliği altında beraber inceleyelim.
Özgün bir sürecin söz konusu olduğu aşikâr. Farklı kaynaklardan elde ettiğimiz veriyi temizledikten sonra makine öğrenimi ve görselleştirme gibi araçlarla entegre ediyoruz. Lakin veriler beklediğimizden daha çeşitli biçimlere sahip. Bundan dolayı Veri Mühendisliği üzerine eğilmeden önce verinin yapısına değinelim.
Verinin Yapısı
Verilerin muhtelif biçimde olduğundan söz etmiştik. Biz ise yüksek biçimdeki verileri ele alalım.
Veriler yüksek düzeyde üç kategoriye ayrılır:
- Yapılandırılmış
- Yarı yapılandırılmış
- Yapılandırılmamış
1-Yapılandırılmamış Veriler
Bu tarzdaki veriler, önceden tanımlanmış bir veri modeline sahip olmayan verilerdir. Herhangi bir içerik bakımından yoksundurlar. Bir diğer deyişle önceden tanımlanmış bir vaziyette düzenlenmemiş olan datalardır. Bu datalar bir ses kaydı veyahut doğal dilde bir metin olabilir. Keza yapılandırılmamış bilgiler olarak adlandırıyor olsak da çoğunun aslında bir yapısı vardır. Bu ise genellikle içerik için meta veri niteliği söz konusu olduğunda metindir. Ancak tarihler, sayılar ve etiketlere sahip bir belge niteliği taşıyabilir. Tüm bunların ardından yapılandırılmamış kabul edilmesinin sebebiyse içeriğin kendisinin bir yapıya sahip olmamasıdır. Bundan ötürü de hemen kullanılmaz.
2-Yarı Yapılandırılmış Veriler
Yarı yapılandırılmış veriler ise düşük seviyeli içeriklere sahip olduğu takdirde faydalı olması adına bazı işlemlerden geçmesi gereken kümelerdir. Buna ek olarak ilişkisel veri tabanları veya diğer veri tablosu biçimleriyle ilişkili veri modellerinin tablo yapısına uymayan versiyonudur. Ancak yine de anlamsal öğeleri ayırmak, kayıtların ve alanların hiyerarşilerini zorlamak için etiketler veya başka işaretler içeren yapılandırılmış bir veri biçimidir.
3-Yapılandırılmış Veriler
Yapılandırılmış veriler, biçimlendirilmiş bir havuzda ya da bir diğer ifadeyle organize edilmiş bir veri tabanında tutulan verilerdir. Böylece öğeleri daha etkili işleme ve analiz için adreslenebilir hale getirilebiliriz. Bu verilerin formatına gelecek olursak sorgulamalar ve hesaplamalar için uygun bir biçimdedir. Keza yapılandırılmış veriler kolay erişilebilir bir yapıya sahiptir. Bununla beraber anında işlenebilir olmasıyla en kullanışlı veri biçimidir. Lakin genel olarak baktığımız takdirde bütün verilerin yalnızca %20’si yapılandırılmıştır.
Veri Mühendisliği
Veri bilimciler zamanlarının %80’inini verileri toplamak, temizlemek ve hazırlamak için makine öğreniminde harcıyor. Buna ek olarak kalan vakitlerini ise algoritmaları baz alarak veri madenciliği ve modellemesi için kullanıyorlar.
Peki veriler üzerine çalışan Veri Mühendisleri ne yapıyor?
Veri Mühendisleri üç ana başlık altında çalışıyorlar:
- Veri Derleme
- Veri Temizleme
- Veri hazırlama
Veri Derleme
Elimizdeki ham verileri yararlı hale getirmek için bazı süreçlerden geçirmemiz gerekir. Bu verileri faydalı hale getirmek adına işlememiz ise aslında veri analitiği veyahut makine öğrenimi modeli eğitme gayemize bağlı. Bu noktada veri derleme süreciyle veri kaynağından gelen verilerin:
- Birleştirilmesi
- Veri setinin gerekli verilere indirgenmesi
- Normalizasyon
- Verilerin bazı yapılara ayrıştırılması
- Daha sonra kullanım için depolanması
gibi hareketler dizisinden oluşmakta.
Öyleyse farklı veri kaynakları ne olabilir?
- Bir otomatik tablo
- Bir web sitesinde yer alan yorumlar
Bir diğer ifadeyle önemli olan nokta ortak bir format oluşturulması. Keza meydana gelen data setin bir son işleme sürecine tabi tutulması gerekebilir. Velsahıl veri derleme aslında:
- Veri temizleme için hazırlık aşaması
- Bir veya daha fazla veri setinin tanımlanmasını içeren
- Bu verilerin toplandığı, birleştirildiği ve ön işlemeden geçirildiği süreçtir.
Veri Temizleme
Veri kümelerini toplayıp birleştirdikten sonraki adım veri temizlemedir. Doğal veri kümeleri genel olarak sorun barındırır. Bu sorunlar:
- Eksik veyahut çok fazla değere sahip olması
- Verileri ayıran işaretlerde kötü ya da yanlış sınırlayıcılar olması
- Tutarsız kayıtlar ve yetersiz parametreler olması
gibi bazı durumlarda onarılamaz ve kaldırılması gerekecek durumlar mevcut. Aksi takdirde manuel veya otomatik düzeltmeler mümkün. Lakin böyle durumlarda veri kümemiz söz dizimsel olarak doğruysa bizim için önemli olan adım semantik olarak doğru olduğundan emin olmaktır. Bu ifadeyi biraz daha açmamız gerekirse:
- Örneğin sayısal veriler içeren bir veri kümesinde aykırı değerler yer alabilir.
- Negatif öğrenci notu
- 310 cm insan boyu
- Fakat bu aykırı değerleri keşfetmenin de bir yolu var. İstatiksel analiz yöntemiyle beraber bu saptamaları yapabiliriz.
- – Mesela ortalama veyahut standart sapmaya bakabiliriz.
- – Aykırı değeri aramak bu noktada verilerin tek tip ve doğru olmasını sağlamak adına ikincil temizleme yöntemidir.
Veri Hazırlama
Veri Mühendisliği bazında son adıma değinmemiz gerekirse, bu aşama veri hazırlama ya da başka bir ifadeyle ön işleme sürecidir. Bu etapta temizlenmiş bir veri kümesi söz konusudur. Fakat bir makine öğrenimi algoritması adına işlenmek için uygun değildir. Buna ek olarak bu sürecin uygulanabileceği birkaç yönteme değinelim:
- Yer yer verilerin normalleştirilmesi faydalı olabiliyor.
- Normalleştirmeyi kullanarak verileri eşit bir şekilde makine algoritması için makul bir aralığa dağıtabiliriz.
- Ek olarak veri normalleştirmeyle yapay sinir ağı eğitimi süresince yerel optimada sıkışıp kalmaktan kaçınmamız adına etkili bir yöntem olabilir.
Veri hazırlamada gerekli olan bir diğer teknik,
- Kategorik verileri sayısal değerlere dönüştürmek de bir diğer önemli adım.
Verilerle iç içe olduğumuz bu süreci aslında makine öğrenimi adına gerçekleştirdiğimize değinmiştik. Öyleyse makine öğrenim aşamasına değinerek konumuzu toparlayalım.
Makine Öğrenmesi
Bu aşamada geldiğimiz takdirde bir makine öğrenim modeli oluşturarak doğruluyoruz. Bazı noktalarda bu model sınıflandırma ya da tahmin gibi uygulama bazlı yetenekleri sağlamak için dağıtılan bir yöntem. Aksi takdirde ise bu algoritma sadece amaca yönelik bir araç işlevine sahip. Ancak bu tarz durumlarda ürün artık ürettiğimiz veriler oluyor.
Bu öğrenim sürecinde düzenin önemli kısmıysa veri işleme adımıdır. Bir diğer ifadeyle Model Öğrenimi dediğimiz bu adımda, algoritma verileri işleyerek yeni bir veri ürünü çıkarabilir. Buna ek olarak ise geliştirdiğimiz model, değer katmak veyahut anlamlı bilgi sağlamak için dağıttığımız ürünün kendisi de olabilir.
Bahsetmiş olduğumuz makine öğrenimi sürecinde üç çeşit öğrenme türü mecvut,
- Denetimli Öğrenme
- Denetimsiz Öğrenme
- Pekiştirmeli Öğrenme
Denetimli Öğrenme
Bağımlı bir değişken içeren veri kümesine sahip olduğumuzda, algoritmayı doğru sınıfı üretmesi için eğitiriz. Bununla beraber doğru sınıf üretimini yapamadığı takdirde modeli değiştirmesi için de eğitiriz. Yani modeli belli bir doğruluk düzeyine ulaşana kadar eğitiyoruz.
Denetimsiz Öğrenme
Aslında denetimsiz öğrenmenin spesifik bir sınıfı yoktur. Buna nazaran verileri inceleriz. Ve verilerin içinde gizli olan yapılara göre gruplandırmalar yaparız. Örnek vermek gerekirse müşterileri görüntüleme ya da satın alma geçmişine göre gruplayarak bu tür algoritmaları öneri sistemlerine entegre edebiliriz.
Pekiştirmeli Öğrenme
Bir diğer deyişle yarı denetimli öğrenme algoritması olduğunu söyleyebiliriz. Bu algoritmada eğer model tatmin edici sonuçlara giden kararlar veriyorsa ödüllendirilir. Genellikle bu tarz modelleri ise bazı durum veya eylem alanlarında rasyonel olarak hareket eden ajanlar oluşturmak için kullanırız.
Sonuçlandırmamız gerekirse verileri makine öğrenimi için işleyen Veri Bilimcilere ek olarak Veri Mühendisleri bunu model geçerliliği bazında genel bir entegrasyonla ilerletiyor. Bir diğer ifadeyle ardışık düzenlerinin nihai amacını ifade eden operasyonlarla modelin uygulanması ve görselleştirilmesi adına oldukça önemli aşamalarda verileri işlemekteler.