Açık Veri Setleri
Açık veri setleri, herkesin erişebileceği ve kullanabileceği veri koleksiyonlarıdır. Bu veri setleri, bilimsel araştırma, makine öğrenmesi, yapay zekâ, veri analizi ve görselleştirme gibi çeşitli amaçlar için kullanılabilir. Açık veri setleri, farklı kaynaklardan elde edilebilir. Bu kaynaklardan bazıları şunlardır:
- Devletlerin Veri Setleri: Bu veri setleri, devlet kurumları veya hükümetler tarafından kamu yararına sunulan verilerdir. Bu veri setleri, ekonomi, sağlık, eğitim, çevre, ulaşım, güvenlik, kültür gibi farklı alanlarda veri içerir. Örneğin, ABD devlet kurumları açık veri setleri, Birleşik Krallık hükümeti açık veri setleri, Avrupa Birliği açık veri setleri, İstanbul Büyükşehir Belediyesi açık veri setleri, Türkiye İstatistik Kurumu açık veri setleri gibi kaynaklar devletlerin veri setlerine örnek olarak verilebilir. - UCI Makine Öğrenmesi Deposu: Bu depo, Kaliforniya Üniversitesi Irvine (UCI) tarafından makine öğrenmesi ve yapay zekâ uygulamaları için yaygın olarak kullanılan veri setlerini barındıran bir veri seti koleksiyonudur. Bu depo, sınıflandırma, regresyon, kümeleme, zaman serisi analizi, doğal dil işleme, görüntü işleme gibi farklı makine öğrenmesi problemleri için uygun veri setleri içerir. UCI makine öğrenmesi deposuna bağlantı adresi ile erişilebilir. - Kaggle: Bu, veri bilimcileri, makine öğrenmesi uzmanları ve yapay zekâ geliştiricileri için bir platformdur. Kaggle, hem veri setlerini hem de veri ile ilgili projeleri paylaşmak için bir ortam sağlar. Kaggle veri setleri, istatistiksel veriler, metin, ses ve bilgisayar görüşü gibi farklı türlerde veriler içerir. Kaggle veri setlerine bağlantı adresi ile erişilebilir. - AWS Veri Setleri: Bu, Amazon Web Services (AWS) tarafından sunulan bir veri seti deposudur. AWS veri setleri, herkese açık olan veri setlerini aramak, erişmek, paylaşmak ve indirmek için bir platform sağlar. AWS veri setleri, biyoloji, kimya, fizik, astronomi, coğrafya, sosyoloji, ekonomi gibi farklı disiplinlerden veriler içerir. AWS veri setlerine bağlantı adresi ile erişilebilir. - Google Dataset Search: Bu, Google tarafından sunulan bir veri seti arama motorudur. Kullanıcıların web üzerinde binlerce veri havuzuna yüklenen çok çeşitli veri setlerinden arama yapmasına olanak tanır. Arama motorunda bulunan tüm veriler istediğiniz amaç için kullanılamaz, bu nedenle lisansları ve kullanım kısıtlamaları kontrol edilmelidir. Google veri seti arama motoruna bağlantı adresi ile erişilebilir. - Microsoft Research Open Data: Bu, Microsoft tarafından ücretsiz sunulan bir veri seti deposudur. Bu depo içinde görüntü işleme, doğal dil işleme ve veri bilimi için kullanılacak çeşitli veri setleri bulunur. Microsoft tarafından sunulan veri setlerini kullanmak ve indirmek için bağlantı adresi kullanılır. 4. UYGULAMA Kaggle Notebook uygulaması, veri bilimi ve makine öğrenmesi projeleri için bir web tabanlı ortam sağlayan bir uygulamadır. Kaggle Notebook uygulamasını kullanmak için şu adımları izleyebilirsiniz: - 1. Adım: Kaggle web sitesine girmek için web tarayıcınızda www.kaggle.com adresini yazın. - 2. Adım: Yeni bir Notebook oluşturmak için Code sekmesine ve ardından New Notebook butonuna tıklayın. Bu şekilde, Kaggle size bulut tabanlı bir Notebook ortamı sunacaktır. - 3. Adım: Notebook’unuza bir isim vermek için Notebook sayfasının sol üst köşesindeki varsayılan isme tıklayın ve istediğiniz ismi yazın. - 4. Adım: Notebook’unuzu başkalarıyla paylaşmak için Share butonuna tıklayın. Bu buton, Notebook sayfasının sağ üst köşesinde bulunur. - 5. Adım: Notebook’unuzu herkese açık veya özel olarak paylaşmak için Public veya Private seçeneklerinden birini seçin. Private seçerseniz, Add collaborators seçeneği ile Notebook’unuza erişebilecek kişileri belirleyebilirsiniz. 5. UYGULAMA Kaggle veri setleri, Kaggle platformunda bulunan ve farklı konu, tür ve boyutlarda veriler içeren veri koleksiyonlarıdır. Kaggle veri setlerine erişmek, aramak ve Notebook’lara eklemek için şu adımları izleyebilirsiniz: - 1. Adım: Bir veri seti aramak için Kaggle web sitesinde Datasets sekmesine tıklayın. Bu sekme, web sitesinin üst kısmında bulunur. Ardından, aramak istediğiniz anahtar kelimeleri arama kutusuna yazın. Örneğin, "covid-19" yazarak covid-19 ile ilgili veri setlerini arayabilirsiniz. - 2. Adım: Arama sonuçlarını filtrelemek için arama kutusunun yanındaki Filters butonuna tıklayın. Bu buton, arama kutusunun sağ tarafında bulunur. Açılan pencerede, veri setlerini boyut, format, lisans, etiket, güncelleme tarihi gibi kriterlere göre filtreleyebilirsiniz. Örneğin, sadece CSV formatındaki veri setlerini görmek için File types seçeneğinden CSV’yi seçebilirsiniz. - 3. Adım: Veri setleri listesinden ilginizi çeken bir veri seti seçin. Seçtiğiniz veri setinin sayfasında Data Explorer bölümüne gidin. Bu bölüm, sayfanın sol tarafında bulunur. Burada, veri setinin içerdiği dosyaları, tabloları, sütunları, satırları ve değerleri görebilir ve inceleyebilirsiniz. Ayrıca, veri setinin istatistiksel özelliklerini, dağılımlarını ve grafiklerini de görebilirsiniz. - 4. Adım: Seçtiğiniz veri setini bilgisayarınıza indirmek için Download butonuna tıklayın. Bu buton, veri setinin sayfasının sağ üst köşesinde bulunur. Seçtiğiniz veri setini Kaggle Notebook içinde kullanmak için önce bir Notebook oluşturun. Notebook oluşturmak için Code sekmesine ve ardından New Notebook butonuna tıklayın. Notebook sayfasında Add data butonuna tıklayarak veri setini Notebook’unuza ekleyebilirsiniz. Bu buton, Notebook sayfasının sağ üst köşesinde bulunur. |