استخراج اطلاعات سایت ketab.ir

پخش
کارفرما

کارفرمای پروژه

محرمانه

تاریخ

تاریخ و مدت

30 آبان 1402  |  5

این پروژه یک نرم‌افزار استخراج داده‌های کتاب از سایت ketab.ir است که با استفاده از زبان برنامه‌نویسی پایتون توسعه داده شده است. هدف اصلی این نرم‌افزار، استخراج اطلاعات دقیق کتاب‌های موجود در سایت ketab.ir برای مشتری بود. این نرم‌افزار دارای چهار عملکرد اصلی است که در ادامه به توضیح هر کدام پرداخته شده است.

ویژگی‌ها و امکانات نرم‌افزار استخراج دیتا از ketab.ir:

  1. خارج کردن لینک‌های جدید بر اساس زمان‌بندی انتخابی برای انتشار:
    • شناسایی و استخراج لینک‌های جدید کتاب‌ها براساس زمان‌بندی مشخص شده برای انتشار.
    • امکان تنظیم بازه‌های زمانی مختلف برای استخراج لینک‌ها به منظور دستیابی به آخرین کتاب‌های منتشر شده.
  2. خارج کردن دیتای دقیق هر محصول به همراه موجودی:
    • استخراج اطلاعات دقیق هر کتاب از جمله عنوان، نویسنده، قیمت، توضیحات و سایر جزئیات.
    • بررسی و ثبت موجودی هر کتاب در دیتابیس.
  3. گرفتن عکس محصول و نام‌گذاری با کد شابک:
    • دانلود تصاویر کتاب‌ها و نام‌گذاری آن‌ها براساس کد شابک (ISBN).
    • اطمینان از دقیق بودن و مرتبط بودن تصاویر با محصولات.
  4. ذخیره‌سازی دیتای محصولات در قالب JSON:
    • ذخیره‌سازی اطلاعات استخراج شده از هر کتاب به صورت فایل‌های JSON.
    • ارائه ساختاری قابل حمل و مناسب برای استفاده‌های بعدی در تحلیل و نمایش اطلاعات.

چالش‌ها و راه‌حل‌ها:

  1. محدودیت‌های سایت ketab.ir:
    • سایت ketab.ir در صورت دریافت تعداد زیادی درخواست، ریکوئست‌ها را بلاک می‌کرد.
    • برای دور زدن این محدودیت، از تکنیک‌های مختلف مانند استفاده از پراکسی‌های چرخشی، تغییر هدرهای HTTP و نرخ‌بندی درخواست‌ها استفاده شد.