Python Read Pdf

Python ile PDF Okuma

PDF (Taşınabilir Belge Biçimi), belgeleri dijital olarak saklamak ve paylaşmak için kullanılan bir dosya biçimidir. PDF dosyaları, farklı platformlarda ve cihazlarda görüntülenebilir ve yazdırılabilir. Python, PDF dosyalarını okumak ve işlemek için çeşitli kütüphaneler sunar. Bu makalede, Python ile PDF dosyalarını nasıl okuyacağınızı öğreneceksiniz.

1. Gerekli Kütüphaneleri Yükleyin

PDF dosyalarını okumak için öncelikle gerekli kütüphaneleri yüklemeniz gerekir. Bu kütüphaneler şunlardır:

  • PyPDF2
  • PyMuPDF
  • pdfminer.six

Bu kütüphaneleri aşağıdaki komutları kullanarak yükleyebilirsiniz:

pip install PyPDF2
pip install PyMuPDF
pip install pdfminer.six

2. PDF Dosyasını Açın

PDF dosyasını okumak için öncelikle dosyayı açmanız gerekir. Bunu yapmak için open() fonksiyonunu kullanabilirsiniz. Örneğin, dosya.pdf adlı bir PDF dosyasını açmak için aşağıdaki kodu kullanabilirsiniz:

with open("dosya.pdf", "rb") as f:
pdf_dosyasi = f.read()

3. PDF Dosyasını Okuyun

PDF dosyasını açtıktan sonra, dosyayı okumak için çeşitli yöntemler kullanabilirsiniz. Bu yöntemler şunlardır:

  • PyPDF2 kütüphanesi ile PDF dosyasını okumak için PdfFileReader() sınıfını kullanabilirsiniz. Örneğin, dosya.pdf adlı bir PDF dosyasını okumak için aşağıdaki kodu kullanabilirsiniz:

“`
import PyPDF2

pdf_dosyasi = open(“dosya.pdf”, “rb”).read()
pdf_oku = PyPDF2.PdfFileReader(pdf_dosyasi)
“`

  • PyMuPDF kütüphanesi ile PDF dosyasını okumak için PdfDocument() sınıfını kullanabilirsiniz. Örneğin, dosya.pdf adlı bir PDF dosyasını okumak için aşağıdaki kodu kullanabilirsiniz:

“`
import PyMuPDF

pdf_dosyasi = open(“dosya.pdf”, “rb”).read()
pdf_oku = PyMuPDF.PdfDocument(pdf_dosyasi)
“`

  • pdfminer.six kütüphanesi ile PDF dosyasını okumak için PDFDocument() sınıfını kullanabilirsiniz. Örneğin, dosya.pdf adlı bir PDF dosyasını okumak için aşağıdaki kodu kullanabilirsiniz:

“`
import pdfminer.six

pdf_dosyasi = open(“dosya.pdf”, “rb”).read()
pdf_oku = pdfminer.six.PDFDocument(pdf_dosyasi)
“`

4. PDF Dosyasından Veri Ayıklayın

PDF dosyasını okuduktan sonra, dosyadan veri ayıklayabilirsiniz. Bu veri, metin, resim, tablo veya grafik olabilir. Veriyi ayıklamak için çeşitli yöntemler kullanabilirsiniz. Bu yöntemler şunlardır:

  • PyPDF2 kütüphanesi ile PDF dosyasından metin ayıklamak için getPage() ve extractText() yöntemlerini kullanabilirsiniz. Örneğin, dosya.pdf adlı bir PDF dosyasından metin ayıklamak için aşağıdaki kodu kullanabilirsiniz:

“`
import PyPDF2

pdf_dosyasi = open(“dosya.pdf”, “rb”).read()
pdf_oku = PyPDF2.PdfFileReader(pdf_dosyasi)
sayfa = pdf_oku.getPage(0)
metin = sayfa.extractText()
“`

  • PyMuPDF kütüphanesi ile PDF dosyasından metin ayıklamak için getPage() ve getText() yöntemlerini kullanabilirsiniz. Örneğin, dosya.pdf adlı bir PDF dosyasından metin ayıklamak için aşağıdaki kodu kullanabilirsiniz:

“`
import PyMuPDF

pdf_dosyasi = open(“dosya.pdf”, “rb”).read()
pdf_oku = PyMuPDF.PdfDocument(pdf_dosyasi)
sayfa = pdf_oku.getPage(0)
metin = sayfa.getText()
“`

  • pdfminer.six kütüphanesi ile PDF dosyasından metin ayıklamak için getPage() ve getText() yöntemlerini kullanabilirsiniz. Örneğin, dosya.pdf adlı bir PDF dosyasından metin ayıklamak için aşağıdaki kodu kullanabilirsiniz:

“`
import pdfminer.six

pdf_dosyasi = open(“dosya.pdf”, “rb”).read()
pdf_oku = pdfminer.six.PDFDocument(pdf_dosyasi)
sayfa = pdf_oku.getPage(0)
metin = sayfa.getText()
“`

5. PDF Dosyasını Kaydedin

PDF dosyasını okuduktan ve verileri ayıkladıktan sonra, dosyayı kaydedebilirsiniz. Bunu yapmak için save() veya write() yöntemlerini kullanabilirsiniz. Örneğin, dosya.pdf adlı bir PDF dosyasını kaydetmek için aşağıdaki kodu kullanabilirsiniz:

pdf_dosyasi.save("yeni_dosya.pdf")

Faydalı Siteler ve Dosyalar


Yayımlandı

kategorisi