Veri Mühendisliği Nedir?

Mart 20, 2021 Okuma süresi: 7dk, 28sn

Son zamanların en popüler konuları arasında yer alan veriler günden güne akıl almaz bir hızla artmaya devam ediyor. Bu verileri değerli bilgiler haline dönüştürmek için geçirdiğimiz sürece ise veri bilimi diyoruz. Şimdi konuyu biraz daha derinlemesine ele alalım ve kendine özgü adımları olan bu süreci Veri Mühendisliği altında beraber inceleyelim.

Özgün bir sürecin söz konusu olduğu aşikâr. Farklı kaynaklardan elde ettiğimiz veriyi temizledikten sonra makine öğrenimi ve görselleştirme gibi araçlarla entegre ediyoruz. Lakin veriler beklediğimizden daha çeşitli biçimlere sahip. Bundan dolayı Veri Mühendisliği üzerine eğilmeden önce verinin yapısına değinelim.

veri yapısı

Verinin Yapısı

Verilerin muhtelif biçimde olduğundan söz etmiştik. Biz ise yüksek biçimdeki verileri ele alalım.

Veriler yüksek düzeyde üç kategoriye ayrılır:

Yapılandırılmış
Yarı yapılandırılmış
Yapılandırılmamış

1-Yapılandırılmamış Veriler

Bu tarzdaki veriler, önceden tanımlanmış bir veri modeline sahip olmayan verilerdir. Herhangi bir içerik bakımından yoksundurlar. Bir diğer deyişle önceden tanımlanmış bir vaziyette düzenlenmemiş olan datalardır. Bu datalar bir ses kaydı veyahut doğal dilde bir metin olabilir. Keza yapılandırılmamış bilgiler olarak adlandırıyor olsak da çoğunun aslında bir yapısı vardır. Bu ise genellikle içerik için meta veri niteliği söz konusu olduğunda metindir. Ancak tarihler, sayılar ve etiketlere sahip bir belge niteliği taşıyabilir. Tüm bunların ardından yapılandırılmamış kabul edilmesinin sebebiyse içeriğin kendisinin bir yapıya sahip olmamasıdır. Bundan ötürü de hemen kullanılmaz.

yapılandırılmamış veriler

2-Yarı Yapılandırılmış Veriler

Yarı yapılandırılmış veriler ise düşük seviyeli içeriklere sahip olduğu takdirde faydalı olması adına bazı işlemlerden geçmesi gereken kümelerdir. Buna ek olarak ilişkisel veri tabanları veya diğer veri tablosu biçimleriyle ilişkili veri modellerinin tablo yapısına uymayan versiyonudur. Ancak yine de anlamsal öğeleri ayırmak, kayıtların ve alanların hiyerarşilerini zorlamak için etiketler veya başka işaretler içeren yapılandırılmış bir veri biçimidir.

3-Yapılandırılmış Veriler

Yapılandırılmış veriler, biçimlendirilmiş bir havuzda ya da bir diğer ifadeyle organize edilmiş bir veri tabanında tutulan verilerdir. Böylece öğeleri daha etkili işleme ve analiz için adreslenebilir hale getirilebiliriz. Bu verilerin formatına gelecek olursak sorgulamalar ve hesaplamalar için uygun bir biçimdedir. Keza yapılandırılmış veriler kolay erişilebilir bir yapıya sahiptir. Bununla beraber anında işlenebilir olmasıyla en kullanışlı veri biçimidir. Lakin genel olarak baktığımız takdirde bütün verilerin yalnızca %20’si yapılandırılmıştır.

yarı yapılandırılmış ve yapılandırılmış

Veri Mühendisliği

Veri bilimciler zamanlarının %80’inini verileri toplamak, temizlemek ve hazırlamak için makine öğreniminde harcıyor. Buna ek olarak kalan vakitlerini ise algoritmaları baz alarak veri madenciliği ve modellemesi için kullanıyorlar.

Peki veriler üzerine çalışan Veri Mühendisleri ne yapıyor?

Veri Mühendisleri üç ana başlık altında çalışıyorlar:

Veri Derleme
Veri Temizleme
Veri hazırlama

Veri Derleme

Elimizdeki ham verileri yararlı hale getirmek için bazı süreçlerden geçirmemiz gerekir. Bu verileri faydalı hale getirmek adına işlememiz ise aslında veri analitiği veyahut makine öğrenimi modeli eğitme gayemize bağlı. Bu noktada veri derleme süreciyle veri kaynağından gelen verilerin:

Birleştirilmesi
Veri setinin gerekli verilere indirgenmesi
Normalizasyon
Verilerin bazı yapılara ayrıştırılması
Daha sonra kullanım için depolanması

gibi hareketler dizisinden oluşmakta.

derleme

Öyleyse farklı veri kaynakları ne olabilir?

Bir otomatik tablo
Bir web sitesinde yer alan yorumlar

Bir diğer ifadeyle önemli olan nokta ortak bir format oluşturulması. Keza meydana gelen data setin bir son işleme sürecine tabi tutulması gerekebilir. Velsahıl veri derleme aslında:

Veri temizleme için hazırlık aşaması
Bir veya daha fazla veri setinin tanımlanmasını içeren
Bu verilerin toplandığı, birleştirildiği ve ön işlemeden geçirildiği süreçtir.

Veri Temizleme

Veri kümelerini toplayıp birleştirdikten sonraki adım veri temizlemedir. Doğal veri kümeleri genel olarak sorun barındırır. Bu sorunlar:

Eksik veyahut çok fazla değere sahip olması
Verileri ayıran işaretlerde kötü ya da yanlış sınırlayıcılar olması
Tutarsız kayıtlar ve yetersiz parametreler olması

gibi bazı durumlarda onarılamaz ve kaldırılması gerekecek durumlar mevcut. Aksi takdirde manuel veya otomatik düzeltmeler mümkün. Lakin böyle durumlarda veri kümemiz söz dizimsel olarak doğruysa bizim için önemli olan adım semantik olarak doğru olduğundan emin olmaktır. Bu ifadeyi biraz daha açmamız gerekirse:

Örneğin sayısal veriler içeren bir veri kümesinde aykırı değerler yer alabilir.
Negatif öğrenci notu
310 cm insan boyu
Fakat bu aykırı değerleri keşfetmenin de bir yolu var. İstatiksel analiz yöntemiyle beraber bu saptamaları yapabiliriz.

– Mesela ortalama veyahut standart sapmaya bakabiliriz.
– Aykırı değeri aramak bu noktada verilerin tek tip ve doğru olmasını sağlamak adına ikincil temizleme yöntemidir.

Veri Hazırlama

Veri Mühendisliği bazında son adıma değinmemiz gerekirse, bu aşama veri hazırlama ya da başka bir ifadeyle ön işleme sürecidir. Bu etapta temizlenmiş bir veri kümesi söz konusudur. Fakat bir makine öğrenimi algoritması adına işlenmek için uygun değildir. Buna ek olarak bu sürecin uygulanabileceği birkaç yönteme değinelim:

Yer yer verilerin normalleştirilmesi faydalı olabiliyor.
Normalleştirmeyi kullanarak verileri eşit bir şekilde makine algoritması için makul bir aralığa dağıtabiliriz.
Ek olarak veri normalleştirmeyle yapay sinir ağı eğitimi süresince yerel optimada sıkışıp kalmaktan kaçınmamız adına etkili bir yöntem olabilir.

Veri hazırlamada gerekli olan bir diğer teknik,

Kategorik verileri sayısal değerlere dönüştürmek de bir diğer önemli adım.

Verilerle iç içe olduğumuz bu süreci aslında makine öğrenimi adına gerçekleştirdiğimize değinmiştik. Öyleyse makine öğrenim aşamasına değinerek konumuzu toparlayalım.

hazırlama

Makine Öğrenmesi

Bu aşamada geldiğimiz takdirde bir makine öğrenim modeli oluşturarak doğruluyoruz. Bazı noktalarda bu model sınıflandırma ya da tahmin gibi uygulama bazlı yetenekleri sağlamak için dağıtılan bir yöntem. Aksi takdirde ise bu algoritma sadece amaca yönelik bir araç işlevine sahip. Ancak bu tarz durumlarda ürün artık ürettiğimiz veriler oluyor.

Bu öğrenim sürecinde düzenin önemli kısmıysa veri işleme adımıdır. Bir diğer ifadeyle Model Öğrenimi dediğimiz bu adımda, algoritma verileri işleyerek yeni bir veri ürünü çıkarabilir. Buna ek olarak ise geliştirdiğimiz model, değer katmak veyahut anlamlı bilgi sağlamak için dağıttığımız ürünün kendisi de olabilir.

Bahsetmiş olduğumuz makine öğrenimi sürecinde üç çeşit öğrenme türü mecvut,

Denetimli Öğrenme
Denetimsiz Öğrenme
Pekiştirmeli Öğrenme

Denetimli Öğrenme

Bağımlı bir değişken içeren veri kümesine sahip olduğumuzda, algoritmayı doğru sınıfı üretmesi için eğitiriz. Bununla beraber doğru sınıf üretimini yapamadığı takdirde modeli değiştirmesi için de eğitiriz. Yani modeli belli bir doğruluk düzeyine ulaşana kadar eğitiyoruz.

Denetimsiz Öğrenme

Aslında denetimsiz öğrenmenin spesifik bir sınıfı yoktur. Buna nazaran verileri inceleriz. Ve verilerin içinde gizli olan yapılara göre gruplandırmalar yaparız. Örnek vermek gerekirse müşterileri görüntüleme ya da satın alma geçmişine göre gruplayarak bu tür algoritmaları öneri sistemlerine entegre edebiliriz.

Pekiştirmeli Öğrenme

Bir diğer deyişle yarı denetimli öğrenme algoritması olduğunu söyleyebiliriz. Bu algoritmada eğer model tatmin edici sonuçlara giden kararlar veriyorsa ödüllendirilir. Genellikle bu tarz modelleri ise bazı durum veya eylem alanlarında rasyonel olarak hareket eden ajanlar oluşturmak için kullanırız.

veri

Sonuçlandırmamız gerekirse verileri makine öğrenimi için işleyen Veri Bilimcilere ek olarak Veri Mühendisleri bunu model geçerliliği bazında genel bir entegrasyonla ilerletiyor. Bir diğer ifadeyle ardışık düzenlerinin nihai amacını ifade eden operasyonlarla modelin uygulanması ve görselleştirilmesi adına oldukça önemli aşamalarda verileri işlemekteler.

Ne Düşünüyorsun?