Python Web Scraping – I

Python

Python ile tanışmamız yaklaşık 7 ay önce web scraping konusunda arayış içerisinde olduğum bir döneme rastladı. Python ile kısa bir sürede web scraping konusunda çok güzel sonuçlar elde edeceğimi ben de beklemiyordum. Uzunca bir zaman önce Java’da JSoup ile buna benzer bir konuda çalışma yapmıştım ama nedense Python bu iş için biçilmiş bir kaftan gibi geldi bana.

Python’u öğrenmek kolay olduğu kullanmak ta oldukça eğlenceli. Kütüphane olarak oldukça zengin. Hızlı bir şekilde amacınıza ulaşmanıza sağlayan scripting bir dil python. Python ile program yazabilmemiz için bu programlama dilinin bilgisayarımızda kurulu olması gerekiyor. Bu programlama dilini kurmanızın gerekip gerekmediği, kullandığınız işletim sistemine bağlıdır.

Bu kısa girişten sonra basit bir scraping için ihtiyacımız olan bileşenlerden bahsetmekte fayda var. Hemen hemen bütün GNU/Linux dağıtımlarında Python programlama dili kurulu olarak gelirken Windows için kurulumu bizim yapmamız gerekiyor. Windows’ta kurulum yapmak için bu adresi kullanabilirsiniz.  Windows için kurulum oldukça basit. Kurulum sihirbazındaki yönergeleri izlemek yeterli (Install launcher for all users (recommended), Add Python X.x to PATH. Burada ilk kutucuk zaten seçilidir. Bunu bu şekilde bırakabilirsiniz. İkinci kutucuk ise Python’ı default path’e  eklememizi ve böylelikle yalnızca  pythonkomutu vererek Python’ı başlatabilmemizi sağlıyor. Bu nedenle ikinci kutucuğu da işaretliyoruz. Sonrasında ise  “Install Now” seçeneği ile kurulumu tamamlayabiliriz.

Linux dağıtımlarının bir çoğunda Python default olarak yüklü geldiğinden belirli bir versiyona ihtiyaç duymadığınız sürece direk olarak kullanabilirsiniz. Halihazırdaki versiyon bilgisini python -V komutuyla görebilirsiniz. Belirli bir versiyona ihtiyacınız olması durumunda ise kullandığınız linux dağıtımına göre “apt-get install … ”  ya da “yum install … ” seçenekleri ile paket dağıtım depolarına başvurmanızda yarar var. Bu işlem daha detaylı olduğundan başka bir yazının konusu olabilir.

Konumuzu web scraping olduğundan Python’un sistemimize başarılı bir şekilde kurulduğunu varsayarak devam ediyoruz. Tercih ettiğimiz herhangi bir editör vasıtasıyla kodlarımızı yazacağız. Bana sorarsanız Sublime Text’i tavsiye edebilirim.

İhtiyacımız olan şeyleri listeleyelim :

  1. Requests kütüphanesi ( sayfaları download edebilmek için)
  2. BeatifulSoup kütüphanesi ( download ettiğimiz sayfaları parse edebilmek için)
  3. Geliştirici Araçlarına sahip herhangi bir web tarayıcısı (Chrome DevTools vb.)

Artık örnek kodumuzu yazmaya başlayabiliriz. Bir sonraki yazıda görüşmek üzere…

Bir Cevap Yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir