Thứ Tư, 10 tháng 12, 2025

Hướng dẫn sử dụng thư viện pdfplumber để trích xuất dữ liệu PDF phục vụ Phân tích dữ liệu

 iới thiệu

pdfplumber là một thư viện Python cho phép chúng ta có thể trích xuất Text, Data từ Pdf, rất hữu ích trong phân tích dữ liệu cũng như thực hiện các tác vụ tự động


Bước 1: Để bắt đầu, bạn cần cài đặt thư viện pdfplumber. Thực hiện câu lệnh sau để cài đặt:

pip install pdfplumber


Bước 2: Import thư viện vào scripts python của bạn để sử dụng: 

import pdfplumber


Bước 3: Mở file PDF
Để mở file PDF, bạn cần tạo một đối tượng pdfplumber.PDF bằng cách sử dụng hàm open(). Ví dụ:

with pdfplumber.open("/duong/dan/toi/file/pdf") as pdf:


Bước 4: Trích xuất text
pdfplumber cung cấp các phương thức để trích xuất text từ một file PDF. Phương thức đơn giản nhất là extract_text() sẽ trả về string chứa tất các text trong file PDF.

Ví dụ:

text = pdf.extract_text()
print(text)


Bước 5: Trích xuất dữ liệu
pdfplumber cung cấp các phương thức để trích xuất dữ liệu từ một file PDF. Phương thức hay dùng nhất là extract_table() sẽ trả về list chứa dữ liệu của các bảng trong file PDF. Ví dụ: 

tables = pdf.extract_table()
print(tables)


Bước 5: Trích xuất ảnh

pdfplumber cho phép bạn trích xuất ảnh từ PDF. Chúng ta có thể sử dụng hàm get_image() để lấy dữ liệu ảnh và meta-data. Ví dụ:

images = pdf.get_image()
print(images)



Chúng ta có code hoàn thiện ví dụ như sau:

import pdfplumber
 
# Open the PDF
with pdfplumber.open("path/to/pdf") as pdf:
    # Extract the text
    text = pdf.extract_text()
    print(text)
 
    # Extract the data
    tables = pdf.extract_table()
    for table in tables:
        print(table)
 
    # Extract the images
    images = pdf.get_images()
    for image in images:
        print(image["page_number"])
        with open(f"image_{image['page_number']}.jpg""wb") as f:
            f.write(image["data"])


Tổng kết:

Bài viết đã hướng dẫn cơ bản nhất về việc sử dụng thư viện pdfplumber để xử lý dữ liệu. Với pdfplumber, bạn có thể dễ dàng trích xuất văn bản, dữ liệu và hình ảnh từ PDF, khiến nó trở thành một công cụ hữu ích cho công tác phân tích dữ liệu và tự động hóa. Nâng cao hơn bản có thể sử dụng RegEx để tìm văn bản hoặc chuỗi cụ thể từ dữ liệu đã trích xuất.

Thông tin tham khảo: https://github.com/jsvine/pdfplumber

Share This!


Không có nhận xét nào:

Đăng nhận xét