Veri Görselleştirme Nedir?

Fatih Es tarafından

Mayıs 15, 2021 Okuma süresi: 4dk, 16sn

Her gün, dünyanın her yerinden insanlar farklı amaçlar için terabaytlarca dijital veri topluyor. Bu veriler konulara ve boyuta göre değişiklik göstermektedir. Basit bir örnek vermek gerekirse bir pazarlamacı için veriler, kullanıcıların çevrimiçi bir platformla nasıl etkileşimde bulunduğunda ilişkin ölçütler olarak tanımlanabilir. Bir astrofizikçiye göre ise evrendeki farklı cisimlerin sayısal değerini temsil ediyor gibi düşünülebilir.

Veriler doğası gereği farklılık gösterirler. Bu veriler işlenmemiş dahi olsa bizi yeni anlayışlara götüren kaynaklar olarak düşünebiliriz. Bununla birlikte ham yani işlenmemiş veriler gürültü içerebilir. Gürültüyü basitçe eksik veya aykırı veriler olarak tanımlayabiliriz.

Veri görselleştirme, ilişkileri ve kalıpları keşfetmek için verileri işleme, analiz etme ve grafik oluşturma sürecidir. Veri bilimi alanında giderek daha da popüler hale gelen bir programlama dili olan Python veri görselleştirme de kullanılabilir.

Veri Görselleştirme Süreci

İşlenmemiş veriler, insan gözüne bir yığın sayıdan oluşan bir saçmalık gibi gelebilir. Çoğu zaman veri setleri onlarca sütun ve binlerce satırdan yani kayıttan oluşur. Bir bakışta, bu formattaki veriler neredeyse işimize yaramayacak seviyededir. Görselleştirme, verilerdeki kalıpları ve ilişkileri hızlı ve basit bir şekilde görmemize imkan sağlar. Bir veri görselleştirme süreci temelde üç ana aşamadan oluşur:

Verilerin işlenmesi
Verilerin görselleştirilmesi
Görselleştirilen tabloların şekillendirilmesi

Gelin bu aşamalara sırayla bakalım.

Verinin İşlenmesi (Formatlanması)

Veri görselleştirme sürecindeki ilk adım, verileri temizlemek ve hazırlamaktır. Bu adım, veri formatının türüne veya görselleştirilmek istenen dosyaya göre farklılık gösterebilir. Veriler, farklı amaçlar için farklı formatlarda saklanmaktadır.

Python listeleri, virgülle ayrılmış ve köşeli parantez içine alınmış öğeler koleksiyonudur.

['Veri1', 'Veri2, 'Veri3']

CSV ise yalnızca metin içeren elektronik tablo dosyalarıdır. Comma Separated Values kelime grubunun kısaltmasıdır yani Türkçe karşılığı olarak “Virgülle Ayrılmış Değerler” olarak tanımlanır.
Pandas dataframe bir diğer veri saklama formatıdır. Pandas, python programlama dilinin veri analizi kitaplığından bir veri yapısıdır.

Verinin Görselleştirilmesi

Sürecin ikinci aşaması verilerin görselleştirilmesidir. Verilerdeki belirli ilişkileri iletmek için farklı türlerde çizelge ve grafiklerin oluşturulmasıdır. Python programlama dili veri görselleştirme açısından iki popüler kütüphaneye sahiptir. Kütüphaneler (library) başkalarının da kullanması için yazılan ve yayınlanan yeniden kullanılabilir kodlar olarak düşünülebilir. Bu iki kütüphanemiz ise: Matplotlib ve Searborn kütüphaneleridir.

Görselleştirilen Tabloların Şekillendirilmesi

Sürecin üçüncü ve son adımı ise şekillendirmedir. Verilerinizi görselleştirdikten sonra hepsini bir araya getirmenin ve analiz edilen veri hakkında düşünmenin zamanı gelmiştir. Şekillendirme, vermek istediğiniz mesajı geliştirir ve hedeflediğin kitleye ulaşmanıza yardımcı olur. Doğru bir şekillendirme için şu iki başlığa odaklanmamız gerekebilir:

Çerçeveleme: Veri görselleştirme, verilerle ilgili bir dizi ilk bakış sorusuna yanıt verebiliyor mu? Veriler daha fazla cevapsız soru ortaya çıkarıyor mu?
Tasarım: Görselleştirmenizin tasarımı temiz mi? Renkler anlam ifade ediyor mu? Yazı tipiniz etiketlerin okunmasını kolaylaştırıyor mu?

Elbette sorulabilecek çok daha fazla soru bulunabilir. Verilerinizi görselleştirmek için doğru grafiği seçtiniz mi? Grafiğinizdeki renklerin kontrastı okunaklı mı? Unutmamalıyız ki harika bir görselleştirme ile kafa karıştırıcı okunamayan bir grafik arasında dağlar kadar fark vardır.

Veri Sorumluluğu Nedir?

Veri analizi endüstrisinde, şu soruyu duymanız muhtemeldir: Rakamlar bize ne anlatıyor?

Bu yolda, bu soru yerine “Sayıları nasıl yorumlarız?” sorusunda odaklanılmalıdır. Bir veri görselleştirme süreci içerisinde iken verileri oluştururken kullanılan tüm varsayımların farkında olmak önemlidir. Örnek vermek gerekirse 1050’lerde bir ekip, araba hava yastıkları tasarlarken, prototipleri bir erkek manken ile özel olarak test ettiler. Sonuç olarak, hava yastıklarının nasıl yapıldığına dair topladıkları veriler yetişkin bir erkeğe göre hesaplanmıştı. Peki bu işin sonucunda ne oldu? Orijinal hava yastığının kadın ve çocuklarla kullanıldığında ölümcül sonuçlara neden olabilir hale geldi. Bu durum zayıf veri toplama ve yorumlamaya bir örnek olarak düşünülebilir. Veri toplama sırasında mevcut olan varsayımlar ve bunların sonucunda ortaya çıkan veri kümeleri genellikle gözden kaçar ve zayıf karar vermeye yol açar.

Ne Düşünüyorsun?