استخراج اطلاعات از دیجی کالا و آپلود

پخش
کارفرما

کارفرمای پروژه

محرمانه

تاریخ

تاریخ و مدت

14 آذر 1402  |  10

این پروژه یک نرم‌افزار استخراج داده‌های محصول از سایت دیجی‌کالا است که با استفاده از زبان برنامه‌نویسی پایتون توسعه داده شده است. هدف اصلی این نرم‌افزار، استخراج اطلاعات دقیق کتاب‌های موجود در دیجی‌کالا برای مشتری بود. این نرم‌افزار دارای چهار عملکرد اصلی است که در ادامه به توضیح هر کدام پرداخته شده است.

ویژگی‌ها و امکانات نرم‌افزار استخراج دیتا از دیجی‌کالا:

  1. خارج کردن لینک‌های جدید دسته‌بندی محصولات:
    • شناسایی دسته‌بندی‌های مختلف محصولات در دیجی‌کالا.
    • استخراج لینک‌های جدید مربوط به دسته‌بندی محصولات مورد نظر.
  2. خارج کردن دیتای دقیق هر محصول به همراه موجودی:
    • استخراج اطلاعات دقیق هر محصول از جمله نام، قیمت، توضیحات، نظرات کاربران و سایر جزئیات.
    • بررسی موجودی هر محصول و ثبت آن در دیتابیس.
  3. بررسی روزانه تغییر قیمت و یا تغییر موجودی محصول:
    • بررسی روزانه تغییرات قیمت و موجودی محصولات.
    • ثبت و نگهداری تغییرات در دیتابیس برای تحلیل‌های بعدی.
  4. آپدیت و بارگذاری کردن دیتای جدید بر روی سایت مشتری:
    • به‌روزرسانی دیتای استخراج شده و بارگذاری اطلاعات جدید بر روی سایت مشتری.
    • اطمینان از دقیق بودن و به‌روز بودن اطلاعات نمایش داده شده.

چالش‌ها و راه‌حل‌ها:

  1. محدودیت‌های دیجی‌کالا:
    • دیجی‌کالا دسترسی به صفحات 100 به بعد هر دسته‌بندی را محدود می‌کند.
    • برای دور زدن این محدودیت، از تکنیک‌های مختلف مانند پراکسی‌های چرخشی و تغییر هدرهای HTTP استفاده شد تا بتوان به صفحات بیشتری دسترسی پیدا کرد.