Python ile PDF Okuma
PDF (Taşınabilir Belge Biçimi), belgeleri dijital olarak saklamak ve paylaşmak için kullanılan bir dosya biçimidir. PDF dosyaları, farklı platformlarda ve cihazlarda görüntülenebilir ve yazdırılabilir. Python, PDF dosyalarını okumak ve işlemek için çeşitli kütüphaneler sunar. Bu makalede, Python ile PDF dosyalarını nasıl okuyacağınızı öğreneceksiniz.
1. Gerekli Kütüphaneleri Yükleyin
PDF dosyalarını okumak için öncelikle gerekli kütüphaneleri yüklemeniz gerekir. Bu kütüphaneler şunlardır:
- PyPDF2
- PyMuPDF
- pdfminer.six
Bu kütüphaneleri aşağıdaki komutları kullanarak yükleyebilirsiniz:
pip install PyPDF2
pip install PyMuPDF
pip install pdfminer.six
2. PDF Dosyasını Açın
PDF dosyasını okumak için öncelikle dosyayı açmanız gerekir. Bunu yapmak için open()
fonksiyonunu kullanabilirsiniz. Örneğin, dosya.pdf
adlı bir PDF dosyasını açmak için aşağıdaki kodu kullanabilirsiniz:
with open("dosya.pdf", "rb") as f:
pdf_dosyasi = f.read()
3. PDF Dosyasını Okuyun
PDF dosyasını açtıktan sonra, dosyayı okumak için çeşitli yöntemler kullanabilirsiniz. Bu yöntemler şunlardır:
PyPDF2
kütüphanesi ile PDF dosyasını okumak içinPdfFileReader()
sınıfını kullanabilirsiniz. Örneğin,dosya.pdf
adlı bir PDF dosyasını okumak için aşağıdaki kodu kullanabilirsiniz:
“`
import PyPDF2
pdf_dosyasi = open(“dosya.pdf”, “rb”).read()
pdf_oku = PyPDF2.PdfFileReader(pdf_dosyasi)
“`
PyMuPDF
kütüphanesi ile PDF dosyasını okumak içinPdfDocument()
sınıfını kullanabilirsiniz. Örneğin,dosya.pdf
adlı bir PDF dosyasını okumak için aşağıdaki kodu kullanabilirsiniz:
“`
import PyMuPDF
pdf_dosyasi = open(“dosya.pdf”, “rb”).read()
pdf_oku = PyMuPDF.PdfDocument(pdf_dosyasi)
“`
pdfminer.six
kütüphanesi ile PDF dosyasını okumak içinPDFDocument()
sınıfını kullanabilirsiniz. Örneğin,dosya.pdf
adlı bir PDF dosyasını okumak için aşağıdaki kodu kullanabilirsiniz:
“`
import pdfminer.six
pdf_dosyasi = open(“dosya.pdf”, “rb”).read()
pdf_oku = pdfminer.six.PDFDocument(pdf_dosyasi)
“`
4. PDF Dosyasından Veri Ayıklayın
PDF dosyasını okuduktan sonra, dosyadan veri ayıklayabilirsiniz. Bu veri, metin, resim, tablo veya grafik olabilir. Veriyi ayıklamak için çeşitli yöntemler kullanabilirsiniz. Bu yöntemler şunlardır:
PyPDF2
kütüphanesi ile PDF dosyasından metin ayıklamak içingetPage()
veextractText()
yöntemlerini kullanabilirsiniz. Örneğin,dosya.pdf
adlı bir PDF dosyasından metin ayıklamak için aşağıdaki kodu kullanabilirsiniz:
“`
import PyPDF2
pdf_dosyasi = open(“dosya.pdf”, “rb”).read()
pdf_oku = PyPDF2.PdfFileReader(pdf_dosyasi)
sayfa = pdf_oku.getPage(0)
metin = sayfa.extractText()
“`
PyMuPDF
kütüphanesi ile PDF dosyasından metin ayıklamak içingetPage()
vegetText()
yöntemlerini kullanabilirsiniz. Örneğin,dosya.pdf
adlı bir PDF dosyasından metin ayıklamak için aşağıdaki kodu kullanabilirsiniz:
“`
import PyMuPDF
pdf_dosyasi = open(“dosya.pdf”, “rb”).read()
pdf_oku = PyMuPDF.PdfDocument(pdf_dosyasi)
sayfa = pdf_oku.getPage(0)
metin = sayfa.getText()
“`
pdfminer.six
kütüphanesi ile PDF dosyasından metin ayıklamak içingetPage()
vegetText()
yöntemlerini kullanabilirsiniz. Örneğin,dosya.pdf
adlı bir PDF dosyasından metin ayıklamak için aşağıdaki kodu kullanabilirsiniz:
“`
import pdfminer.six
pdf_dosyasi = open(“dosya.pdf”, “rb”).read()
pdf_oku = pdfminer.six.PDFDocument(pdf_dosyasi)
sayfa = pdf_oku.getPage(0)
metin = sayfa.getText()
“`
5. PDF Dosyasını Kaydedin
PDF dosyasını okuduktan ve verileri ayıkladıktan sonra, dosyayı kaydedebilirsiniz. Bunu yapmak için save()
veya write()
yöntemlerini kullanabilirsiniz. Örneğin, dosya.pdf
adlı bir PDF dosyasını kaydetmek için aşağıdaki kodu kullanabilirsiniz:
pdf_dosyasi.save("yeni_dosya.pdf")
Faydalı Siteler ve Dosyalar
Önemli Not: Bu yazı Google Gemini yapay zekası tarafından otomatik olarak oluşturulmuştur ve hatalı bilgiler içerebilir. Düzeltmek için iletişim sayfamızdaki formdan veya yine iletişim sayfamızda bulunan eposta adresi yoluyla bizimle iletişime geçebilirsiniz. Hata varsa hemen düzeltilmektedir.