مجله مطالب خواندنی

سبک زندگی، روانشناسی، سلامت،فناوری و ....

مجله مطالب خواندنی

سبک زندگی، روانشناسی، سلامت،فناوری و ....

خزنده وب چیست و نحوه کار با آن چگونه است؟

[ad_1]

خزنده وب یا Web crawler به برنامه کامپیوتری می‌گویند که وب را بازدید کرده و اطلاعات آن را پردازش می‌کند. درباره خزنده وب بیشتر بدانید.

خزنده وب - web crawler - موتورهای جستجو - ربات گوگل - سئو - seo

خزنده وب (WEB CRAWLER) چیست؟

خزنده وب که بیشتر ما آن را با عنوان  Web crawler می‌شناسیم به برنامه کامپیوتری اطلاق می‌شود که  World Wide Web (وب جهان گستر) را به صورت مرتب و سلسله مراتبی بازدید کرده و اطلاعات آن را مورد پردازش قرار می‌دهد. از Web crawler ها با عناوین دیگری مانند ants ،automatic indexers ،bots ،Web spiders و Web robots نیز یاد می‌شود.

کاربردهای خزنده وب

1. موتورهای جستجو

موتورهای جستجو و برخی از سایت‌ها دارای خزنده‌ها و یا روبات‌هایی هستند که برای گردآوری اطلاعات وب سایت‌ها و نیز بروز نگه داشتن اطلاعات مورد استفاده قرار می‌گیرند. مهم‌ترین کار بعد از گردآوری اطلاعات، ایندکس کردن آن‌ها برای پردازش سریع هنگام جستجو است. این خزنده‌ها معمولا در بازه‌های زمانی منظمی اطلاعات را بروز کرده و با نسخه‌های قبلی مقایسه می‌کنند.

2. مدیریت فنی وب سایت

مدیریت فنی وب سایت بخشی از کار این خزنده‌هاست که شامل یافتن لینک‌های شکسته(Broken Link) ، اعتبار سنجی (Validation) کدهای HTML، فایل‌های CSS و … می‌باشد.

3. جمع آوری اطلاعات خاص

کاربرد دیگر خزنده‌های وب جمع آوری اطلاعات خاصی مانند آدرس‌های ایمیل است. معمولا هدف از اینکار ارسال هرزنامه (spam) می‌باشد. برای جلوگیری از ثبت آدرس ایمیل توسط این خزنده‌ها، می‌توانید آدرس ایمیل خود را به صورت saeidREMOVEME AT جیمیل و یا موارد مشابه دیگر بنویسید.

نحوه کار خزنده وب

به صورت عمومی نحوه کار Web crawler ها به این صورت است که ابتدا لیستی از URL ها (آدرس های وب) که به عنوان seed شناخته می‌شوند را برای بازدید پردازش می‌کنند. هنگام پردازش این آدرس‌ها، لیست لینک‌ها و آدرس‌های موجود در صفحات آن‌ها را گردآوری کرده و به لیست ابتدایی اضافه می‌کنند. بقیه اطلاعات را نیز با توجه به نیاز و هدف خود ذخیره و پردازش می‌نمایند.

معماری خزنده وب

خزنده وب بخش اصلی و مرکزی هر موتور جستجویی را تشکیل می‌دهد. به همین جهت الگوریتم و معماری آن‌ها به شدت مخفی نگه داشته می‌شود. با این وجود معماری سطح بالای (High-level architecture) آن به شکل زیر می‌باشد:

خزنده وب - web crawler - موتورهای جستجو - ربات گوگل - سئو - seo

عادی کردن آدرس  (URL NORMALIZATION)

منظور از عادی کردن آدرس، یکی کردن آدرس‌هایی می‌باشد که دارای خروجی یکسانی هستند. هدف از این کار جلوگیری از جمع آوری اطلاعات یکسان از چندین URL است. URL normalization با نام  URL canonicalization نیز شناخته می‌شود که همان فرآیند تغییر آدرس برای استاندارد شدن می‌باشد.

مراحل فرایند عادی کردن آدرس

  •  تبدیل آدرس به حروف کوچک

HTTP://www.Example.com/ → http://www.example.com/

  •  افزودن / به آدرس در صورت نیاز

http://www.example.com → http://www.example.com/

  •  حذف آدرس ایندکس دایرکتوری

http://www.example.com/default.asp → http://www.example.com/

http://www.example.com/a/index.html → http://www.example.com/a/

  •  بزرگ کردن حروف encode شده یا همان حروف بعد از علامت ٪

http://www.example.com/a%c2%b1b → http://www.example.com/a%C2%B1b

http://www.example.com/bar.html#section1 → http://www.example.com/bar.html

  •  حذف و تبدیل آی پی به دامنه

http://208.77.188.166/ → http://www.example.com/

  •  اعمال محدودیت بر روی پروتکل‌ها مانند تبدیل https به  http

https://www.example.com/ → http://www.example.com/

  •  حذف پورت پیش فرض )پورت ۸۰ به صورت پیش فرض برای http می‌باشد).

http://www.example.com:80/bar.html → http://www.example.com/bar.html

  •  حذف / های تکراری

http://www.example.com:80/bar.html → http://www.example.com/bar.html

  •  حذف . ها (dot-segments)

http://www.example.com/../a/b/../c/./d.html → http://www.example.com/a/c/d.html

  •  حذف www از اول دامنه

http://www.example.com/ → http://example.com/

  •  مرتب کردن متغییرهای صفحه فعال

http://www.example.com/display?lang=en&article=fred

→ http://www.example.com/display?article=fred=en

  •  حذف متغییرهای اختیاری ازquery-string

http://www.example.com/display?id=123&fakefoo=fakebar

→ http://www.example.com/display?id=123

  •  حذف متغییرهای پیش فرض ازquery-string

http://www.example.com/display?id=&sort=ascending

→ http://www.example.com/display

  •  حذف علامت ? هنگامی که query-string خالی باشد

http://www.example.com/display? → http://www.example.com/display

  •  استانداردکردن encoding کاراکترها

http://www.example.com/display?category=foo/bar+baz

→ http://www.example.com/display?category=foo%2Fbar%20baz

شناسایی خزنده وب

خزنده‌های وب معمولا با استفاده از فیلد User-agent داده HTTP request خود را معرفی می‌کنند. شما با استفاده از لاگ وب سرور خود می‌توانید لیست این Web crawler ها را مشاهده کنید. فیلدز User agent ممکن است شامل URL ای باشد که به سایت سازنده خزنده اشاره می‌کند.Spambot ها و سایر خزنده‌های مخرب معمولا فیلد User agent را به صورت غیر واقعی با اطلاعاتی مانند نام یک مرورگر پر می‌کنند.

فایل ROBOTS.TXT

این فایل برای دادن اطلاعات اولیه در زمینه وب سایت مورد پردازش به خزنده‌های وب استفاده می‌گردد. به عنوان مثال با این فایل می‌توانید دسترسی خزنده‌های وب به بعضی زیر شاخه‌ها را محدود کنید. دستورات زیر در فایل robots.txt از دسترسی خزنده‌ها به دایرکتوری /tmp/ جلوگیری می‌کند:

(اگر درباره فایل Robot.txt نمی‌دانید، اینجا کلیک کنید).

User-agent: *

Disallow: /tmp/

نکته: فایل robots.txt یک استاندارد می‌باشد. به همین جهت خزنده وب (معمولا خزنده مخرب) می‌تواند آن را نادیده بگیرد.

معروف ترین خزنده‌های وب غیر آزاد

در زیر لیست معروف‌ترین خزنده‌های وب را مشاهده می‌کنید:

  • Yahoo! Slurp
  • Msnbot
  • FAST Crawler
  • Googlebot
  • Methabot
  • arachnode.net
  • PolyBot
  • RBSE
  • WebCrawler
  • World Wide Web Worm
  • WebFountain
  • WebRACE

معروف ترین خزنده های متن باز

  • Aspseek
  • crawler4j
  • DataparkSearch
  • Ebot
  • GNU Wget
  • GRUB
  • Heritrix
  • ht://Dig
  • HTTrack
  • ICDL Crawler
  • mnoGoSearch
  • Nutch
  • Open Search Server
  • Pavuk
  • YaCy

سورس خزنده وب به زبان جاوا

سایت sun در سال ۱۹۹۸ مقاله‌ای آموزشی با عنوان "Writing a Web Crawler in the Java Programming Languageرا ارائه داد. در آن مقاله ضمن توضیح دادن Web crawler سورس برنامه آن نیز در اختیار عموم قرار گرفت. البته این برنامه خیلی ساده و در مرحله ابتدایی می‌باشد. شما باید با توجه به نیازهای خود آن را تغییر داده و مورد استفاده قرار دهید.

گردآوری: مجله اینترنتی ستاره


[ad_2]
لینک منبع
بازنشر: مفیدستان

عبارات مرتبط با این موضوع

خزنده وب چیست و نحوه کار با آن چگونه است؟خزنده وب چیست؟ خزنده وب که بیشتر ما آن را با عنوان می‌شناسیم به برنامه خزنده های موتورهای جستجو چه هستند؟ چگونه کار می …چگونه کار می کنند؟ فعال است و اغلب یک وب سایت را عملکرد خزنده ها و آنچه آن ها درمان بیماری تاندونیت بازو به روش خانگیدرمانبیماریتاندونیت خزنده وب چیست و نحوه و نحوه کار با آن چگونه است وب چیست و و نحوه کار با آن گوگل بت چیست و نحوه کار چگونه است وب … وب است که اطلاعات و ای و اصولی حتما باید با نحوه خزنده یا چیست گروه تخصصی وب علمی کاربردی تکاب⋰⋰ خزنده وب چیست؟ خزنده وب چیست وب که بیشتر ما آن را با راهنمایی شده و ورود آن ها خوشایند استکار با سایت وب را باز کنید و آن را ساده است ، لیست وب‌هایی که چگونه با یک سایت از وب سایت چیست؟ طراحی سایتو آن قوانین یک کاربر اینترنتی چگونه یک وب طراحی سایت با طراحی وب سایت چیست چیست و آموزش نحوه تنظیم آن چگونه است؟ کار و نحوه تنظیم آن نحوه تنظیم آن چگونه است های با معنی برای نام وب وب کم چیست؟ با آن چگونه کار کنیم؟…مقالات سخت افزاری وب کم چیست؟ با آن چگونه نرم‌افزاری است که خود با یک وب‌سرور و عالیم کار میکروفون چیست؟ نحوه کار و انواع آن بایت گیتمیکروفونچیست؟نحوهکارو ، مزیت و معایبشان و نحوه کار آن‌ها با است که همراه با آن چیست؟ و چگونه کار بک‌ لینک دقیقا چیست؟ یک ادمین سئو لینک بیلدینگ پس از گذشت مدتها از به وجود آمدن تعاریفی همچون بک‌لینک و چیزهای دیگر در سئو٬ کمتر در وب ارتباط ایثارگران با رییس جمهور ایثار خبر با سلام و احترام و تبریک انتخاب جنابعالی به راس قویه مجریهعرض کنم یکی از شعار و برنامه ریس وبگو اعتبار سنجی فرم های وب با جاوا اسکریپت اعتبارسنجیفرمهایوب منظور از اعتبار سنجی چیست؟ قبل از پرداختن به ادامه آموزش، ذکر این نکته لازم است که منظور از وب سایت خرید و فروش آنلاین طلا تجارت الکترونیک زریک زریک تمامی افراد به منظور خرید و فروش آنلاین طلا ملزم به ثبت نام و عضویت در سامانه می باشندحساب دانلود کتاب نام کتاب صد سخن نیک نویسنده ندا غیاثی ناشر دانلود کتاب زبان کتاب فارسی تعداد صفحه سرویسی مناسب برای جست و جو در اینترنت مطمئن باشید همون چیزی که میخواید در این سایت هست اشنایی با فرمولهای کاربردی شیمی آنالیز اوبلک خزنده اوبلک اسم جذاب ترکیب نشاسته ذرت با آب است؛ این ترکیب مثال خوبی از سیال غیر داستان زنی که مد را به ایران آورد ایران ناز از بوتیک های شانزه لیزه تا خیاطخانه امیریه حتی از همان آغازین سال های دهه ۲۰ خورشیدی که مصطفی زمانی از عشق و عاشقی و ازدواج می گوید عکس ساتین اخبار داغ مصطفی زمانی متولد ۳۰ خرداد ۱۳۶۱ در فریدونکنار از بازیگران خوب سینما و تلویزیون مرکز نشر تبلیغات ایران ابدال اَ ع ص ، اِ ج ِ بدَل یا بدیل عده ای معلوم از صلحا و خاصان خدا که گویند هیچگاه زمین


ادامه مطلب ...

رشد خزنده ایدز جنسی در جوانان

جام جم سرا:دکتر مسعود مردانی با بیان اینکه شایع‌ترین سن ابتلا به HIV در ایران از دهه دوم زندگی شروع شده و زمینه ابتلا تا دهه چهارم زندگی گسترش دارد، گفت: متوسط این سن در ایران بین 20 تا 45 سال است.

وی شایع‌ترین روش‌های ابتلا را در چهار - پنج سال گذشته، استفاده از سرنگ مشترک در معتادان تزریقی مواد دانست و گفت: متاسفانه در حال حاضر راه انتقال از طریق مقاربت جنسی در کشور رو به افزایش است.

مردانی عمده تلاش کمیته کشوری ایدز را شناسایی افراد پرخطر، کشف افرادی که مبتلا به ایدز هستند اما از ابتلای خود اطلاع ندارند و تشویق آنها به انجام آزمایش ایدز جهت آغاز درمان عنوان کرد و افزود: بر اساس آمار ثبت شده حدود 28 هزار مبتلا به ایدز در کشور وجود دارند. این درحالیست که طبق تخمین‌های سازمان جهانی بهداشت، وجود 80 تا 90 هزار مورد ایدز /HIV در کشور پیش بینی می‌شود.

وی افزود: در نتیجه این آمار حدود 70 هزار نفر مبتلا به ایدز در کشور داریم که یا از بیماری خود خبر ندارند یا آن را کتمان می‌کنند.

این عضو کمیته کشوری ایدز پیشنهاد این کمیته را در زمینه پیشگیری از گسترش HIV/AIDS، شناسایی افرادی که بیشتر در معرض این بیماری هستند و تشویق آنها در جهت مشاوره و اقدام به انجام آزمایش ایدز عنوان کرد.

وی در همین زمینه افزود: عمده افراد در معرض خطر ابتلا به ایدز افرادی هستند که یا در معرض اعتیاد از هر نوعی اعم از تزریقی، استنشاقی و... هستند، سابقه زندان یا رفتارهای پرخطر جنسی دارند.

مردانی با ابراز نگرانی از افزایش شیوع ایدز از طریق مقاربت جنسی میان جوانان گفت: بنابراین باید این اقشار را تشویق کنیم که از وسایل محافظتی استفاده کرده و همچنین نسبت به انجام آزمایش HIV اقدام کنند تا در صورت ابتلا، بیماری در مراحل اولیه شناسایی شده، از پیشرفت آن پیشگیری شودو از ابتلای دیگران جلوگیری شود.

مردانی افزود: علاوه بر آن، افراد دیگری نظیر روسپی‌ها که آمار آنها به طور غیررسمی در کشور زیاد است نیز در معرض شدید ابتلا به ایدز قرار دارند. بر همین اساس لازم است که این افراد شناسایی و تحت کنترل و درمان قرار گیرند.

به گزارش جام جم سرا، وی با تاکید بر اهمیت بحث پیشگیری از ابتلا به HIV/AIDSگفت: اقدام در جهت آموزش عمومی و تشویق مردم و بویژه جوانان در جهت انجام آزمایش ایدز به صورت اختیاری از جمله اولویت‌ها و سیاست‌هایی است که باید در این زمینه مورد توجه قرار گیرد. در این صورت می‌توان با استفاده از روش‌های نوین درمانی از پیشرفت این بیماری در مراحل اولیه ابتلا جلوگیری کرد.

مردانی ادامه داد: در حال حاضر این امکان وجود دارد که HIV را در مراحل اولیه بیماری با مصرف روزانه یک قرص کنترل کرد. بنابراین باید از طریق صداوسیما، اصحاب رسانه، مطبوعات، روحانیون، خانواده‌ها و...آموزش‌های میدانی را برای افراد و بویژه جوانان ایجاد کنیم.

وی در پایان با تاکید دوباره بر بحث آموزش و پیشگیری گفت: در حال حاضر کشورهایی مانند استرالیا و کشورهای اروپای غربی دیگر با مشکلی تحت عنوان ایدز مواجه نیستند. علت این مهم نیز مبارزه با ایدز از طریق سلاح برنده، ارزان ، موثر و منطقی "آموزش" است.(ایسنا)


ادامه مطلب ...

بیماری خاموش و خزنده که پیر و جوان نمی‌شناسد

[ad_1]

 

تاریخ انتشار : شنبه ۱۱ دی ۱۳۹۵ ساعت ۲۰:۴۹

Share/Save/Bookmark

 

رییس انجمن فیزیوتراپی در مورد نوعی اختلال فیزیکی که در ایران به شدت مغفول مانده توضیح داد.

به گزارش بلاغ، محمد علی محسنی رییس انجمن فیزیوتراپی گفت: یکی از شایع‌ترین اختلالت اسکلتی عضلانی مربوط به اختلال‌های ستون فقرات و کمردرد است که افراد با هر سنی و در هر قشری از جامعه ممکن است به آن مبتلا شوند.

 

وی ادامه داد: خانم ها به دلیل شرایط بیومکانیکی حاکم بر فیزیکشان و همچنین وجود پدیده هایی مثل حاملگی و نظایر آن در برابر کمر درد آسیب پذیرتر هستند.

 

به گفته وی، طی بررسی های انجام شده بر گروه های مختلف، 84.4 درصد جراحان، 20 درصد دانش آموزان، 62 درصد از پرستاران، 81 درصد خانم های حامله، بیش از 37 درصد از معلمان و قریب به 40 درصد از دندانپزشکان در کشورمان از کمردرد رنج می برند.

 

محسنی با بیان اینکه هزینه های مستقیم و غیر مستقیم کمردرد کل جوامع را تهدید می کند، تصریح کرد: هیچ گروه سنی و شغلی از کمردرد مصون نبوده و متاسفانه سالانه هزینه های بسیار هنگفتی در درمان بیماری های ستون فقرات صرف می شود و مرخصی های استعلاجی بسیار زیادی توسط افراد شاغل مطالبه می شود. از این رو، لازم است ساز و کار جدیدی برای پیشگیری از اختلالات ستون فقرات در نظر گرفته شود. 

 

رییس انجمن فیزیوتراپی اظهار داشت: بیماری های عضلانی و اسکلتی کشنده نیستند اما پنج برابر ایدز و سه برابر آلزایمر هزینه به دولت‌ها تحمیل می‌کند.

 

محسنی در ادامه توضیحاتش اضافه کرد: اختلالات اسکلتی عضلانی با 91 درصد هزینه های درمان سرطان و 82 درصد هزینه های ناشی از بیماری های قلبی و عروقی برابری می کند.

 

وی تاکید کرد: از آنجا که بیماری های عضلانی و اسکلتی کشنده نیستند، متاسفانه بسیار کمتر از سرطان ها و بیماری های قلبی و عروقی در نظام سلامت کشور به آنها توجه می‌شود. این در حالی است که دنیا از 2 دهه گذشته به این مهم پی برده به طوری که گفته می‌شود تا 2 دهه آینده بیماری های غیر واگیر نظیر سکته، دیابت، بیماری های عضلانی اسکلتی، پدیده سالمندی، حوادث جاده ای و مواردی از این دست می توانند منابع سلامت یک کشور را تهدید کنند.

 

محسنی یاد آور شد: بهره مندی از دیدگاه درمان محور، پیشگیری از ایجاد معلولیت های ناشی از حوادث، پیشگیری از پدیده سالمندی برای کاهش هزینه‌های از این دست، آموزش در خانه های سالمندان و ارائه خدمات آموزشی به این اقشار جامعه از اهمیت بسیاری برخوردار است و اگر ما بخواهیم عوارض و هزینه های سلامت را کاهش دهیم باید در درجه اول بر مسئله پیشگیری متمرکز شویم.

 

مرجع : سایت خبری باشگاه خبرنگاران جوان

 

 


[ad_2]
لینک منبع
بازنشر: مفیدستان

عبارات مرتبط با این موضوع

پزشکی،سلامت،بهداشت،اخبار پزشکی،اخبار …هرماشینی که دوست داشتید قسطی بخرید رونق کسب و کار شما از طریق طراحی وبسایت مشهد هر همکاری با ما فضول محلههمکاریبامافضول محله از هم میهنانی که توانایی نوشتن مقالاتی پُر بار و پُر مایه دارند، خواهشمند پزشکی،سلامت،بهداشت،اخبار پزشکی،اخبار سلامت،خبرهای پزشکی پزشکی،سلامت،بهداشت،اخبار پزشکی،اخبار سلامتوزارت بهداشت،اخبار سلامت و پزشکی،خبرهای همکاری با ما فضول محله همکاریباما فضول محله از هم میهنانی که توانایی نوشتن مقالاتی پُر بار و پُر مایه دارند، خواهشمند است که


ادامه مطلب ...

بیماری خاموش و خزنده که پیر و جوان نمی‌شناسد

[ad_1]

 

تاریخ انتشار : شنبه ۱۱ دی ۱۳۹۵ ساعت ۲۰:۴۹

Share/Save/Bookmark

 

رییس انجمن فیزیوتراپی در مورد نوعی اختلال فیزیکی که در ایران به شدت مغفول مانده توضیح داد.

به گزارش بلاغ، محمد علی محسنی رییس انجمن فیزیوتراپی گفت: یکی از شایع‌ترین اختلالت اسکلتی عضلانی مربوط به اختلال‌های ستون فقرات و کمردرد است که افراد با هر سنی و در هر قشری از جامعه ممکن است به آن مبتلا شوند.

 

وی ادامه داد: خانم ها به دلیل شرایط بیومکانیکی حاکم بر فیزیکشان و همچنین وجود پدیده هایی مثل حاملگی و نظایر آن در برابر کمر درد آسیب پذیرتر هستند.

 

به گفته وی، طی بررسی های انجام شده بر گروه های مختلف، 84.4 درصد جراحان، 20 درصد دانش آموزان، 62 درصد از پرستاران، 81 درصد خانم های حامله، بیش از 37 درصد از معلمان و قریب به 40 درصد از دندانپزشکان در کشورمان از کمردرد رنج می برند.

 

محسنی با بیان اینکه هزینه های مستقیم و غیر مستقیم کمردرد کل جوامع را تهدید می کند، تصریح کرد: هیچ گروه سنی و شغلی از کمردرد مصون نبوده و متاسفانه سالانه هزینه های بسیار هنگفتی در درمان بیماری های ستون فقرات صرف می شود و مرخصی های استعلاجی بسیار زیادی توسط افراد شاغل مطالبه می شود. از این رو، لازم است ساز و کار جدیدی برای پیشگیری از اختلالات ستون فقرات در نظر گرفته شود. 

 

رییس انجمن فیزیوتراپی اظهار داشت: بیماری های عضلانی و اسکلتی کشنده نیستند اما پنج برابر ایدز و سه برابر آلزایمر هزینه به دولت‌ها تحمیل می‌کند.

 

محسنی در ادامه توضیحاتش اضافه کرد: اختلالات اسکلتی عضلانی با 91 درصد هزینه های درمان سرطان و 82 درصد هزینه های ناشی از بیماری های قلبی و عروقی برابری می کند.

 

وی تاکید کرد: از آنجا که بیماری های عضلانی و اسکلتی کشنده نیستند، متاسفانه بسیار کمتر از سرطان ها و بیماری های قلبی و عروقی در نظام سلامت کشور به آنها توجه می‌شود. این در حالی است که دنیا از 2 دهه گذشته به این مهم پی برده به طوری که گفته می‌شود تا 2 دهه آینده بیماری های غیر واگیر نظیر سکته، دیابت، بیماری های عضلانی اسکلتی، پدیده سالمندی، حوادث جاده ای و مواردی از این دست می توانند منابع سلامت یک کشور را تهدید کنند.

 

محسنی یاد آور شد: بهره مندی از دیدگاه درمان محور، پیشگیری از ایجاد معلولیت های ناشی از حوادث، پیشگیری از پدیده سالمندی برای کاهش هزینه‌های از این دست، آموزش در خانه های سالمندان و ارائه خدمات آموزشی به این اقشار جامعه از اهمیت بسیاری برخوردار است و اگر ما بخواهیم عوارض و هزینه های سلامت را کاهش دهیم باید در درجه اول بر مسئله پیشگیری متمرکز شویم.

 

مرجع : سایت خبری باشگاه خبرنگاران جوان

 

 


[ad_2]
لینک منبع
بازنشر: مفیدستان

عبارات مرتبط با این موضوع

پزشکی،سلامت،بهداشت،اخبار پزشکی،اخبار …هرماشینی که دوست داشتید قسطی بخرید رونق کسب و کار شما از طریق طراحی وبسایت مشهد هر همکاری با ما فضول محلههمکاریبامافضول محله از هم میهنانی که توانایی نوشتن مقالاتی پُر بار و پُر مایه دارند، خواهشمند پزشکی،سلامت،بهداشت،اخبار پزشکی،اخبار سلامت،خبرهای پزشکی پزشکی،سلامت،بهداشت،اخبار پزشکی،اخبار سلامتوزارت بهداشت،اخبار سلامت و پزشکی،خبرهای همکاری با ما فضول محله همکاریباما فضول محله از هم میهنانی که توانایی نوشتن مقالاتی پُر بار و پُر مایه دارند، خواهشمند است که


ادامه مطلب ...

خزنده وب چیست و نحوه کار با آن چگونه است؟

[ad_1]

خزنده وب یا Web crawler به برنامه کامپیوتری می‌گویند که وب را بازدید کرده و اطلاعات آن را پردازش می‌کند. درباره خزنده وب بیشتر بدانید.

خزنده وب - web crawler - موتورهای جستجو - ربات گوگل - سئو - seo

خزنده وب (WEB CRAWLER) چیست؟

خزنده وب که بیشتر ما آن را با عنوان  Web crawler می‌شناسیم به برنامه کامپیوتری اطلاق می‌شود که  World Wide Web (وب جهان گستر) را به صورت مرتب و سلسله مراتبی بازدید کرده و اطلاعات آن را مورد پردازش قرار می‌دهد. از Web crawler ها با عناوین دیگری مانند ants ،automatic indexers ،bots ،Web spiders و Web robots نیز یاد می‌شود.

کاربردهای خزنده وب

1. موتورهای جستجو

موتورهای جستجو و برخی از سایت‌ها دارای خزنده‌ها و یا روبات‌هایی هستند که برای گردآوری اطلاعات وب سایت‌ها و نیز بروز نگه داشتن اطلاعات مورد استفاده قرار می‌گیرند. مهم‌ترین کار بعد از گردآوری اطلاعات، ایندکس کردن آن‌ها برای پردازش سریع هنگام جستجو است. این خزنده‌ها معمولا در بازه‌های زمانی منظمی اطلاعات را بروز کرده و با نسخه‌های قبلی مقایسه می‌کنند.

2. مدیریت فنی وب سایت

مدیریت فنی وب سایت بخشی از کار این خزنده‌هاست که شامل یافتن لینک‌های شکسته(Broken Link) ، اعتبار سنجی (Validation) کدهای HTML، فایل‌های CSS و … می‌باشد.

3. جمع آوری اطلاعات خاص

کاربرد دیگر خزنده‌های وب جمع آوری اطلاعات خاصی مانند آدرس‌های ایمیل است. معمولا هدف از اینکار ارسال هرزنامه (spam) می‌باشد. برای جلوگیری از ثبت آدرس ایمیل توسط این خزنده‌ها، می‌توانید آدرس ایمیل خود را به صورت saeidREMOVEME AT جیمیل و یا موارد مشابه دیگر بنویسید.

نحوه کار خزنده وب

به صورت عمومی نحوه کار Web crawler ها به این صورت است که ابتدا لیستی از URL ها (آدرس های وب) که به عنوان seed شناخته می‌شوند را برای بازدید پردازش می‌کنند. هنگام پردازش این آدرس‌ها، لیست لینک‌ها و آدرس‌های موجود در صفحات آن‌ها را گردآوری کرده و به لیست ابتدایی اضافه می‌کنند. بقیه اطلاعات را نیز با توجه به نیاز و هدف خود ذخیره و پردازش می‌نمایند.

معماری خزنده وب

خزنده وب بخش اصلی و مرکزی هر موتور جستجویی را تشکیل می‌دهد. به همین جهت الگوریتم و معماری آن‌ها به شدت مخفی نگه داشته می‌شود. با این وجود معماری سطح بالای (High-level architecture) آن به شکل زیر می‌باشد:

خزنده وب - web crawler - موتورهای جستجو - ربات گوگل - سئو - seo

عادی کردن آدرس  (URL NORMALIZATION)

منظور از عادی کردن آدرس، یکی کردن آدرس‌هایی می‌باشد که دارای خروجی یکسانی هستند. هدف از این کار جلوگیری از جمع آوری اطلاعات یکسان از چندین URL است. URL normalization با نام  URL canonicalization نیز شناخته می‌شود که همان فرآیند تغییر آدرس برای استاندارد شدن می‌باشد.

مراحل فرایند عادی کردن آدرس

  •  تبدیل آدرس به حروف کوچک

HTTP://www.Example.com/ → http://www.example.com/

  •  افزودن / به آدرس در صورت نیاز

http://www.example.com → http://www.example.com/

  •  حذف آدرس ایندکس دایرکتوری

http://www.example.com/default.asp → http://www.example.com/

http://www.example.com/a/index.html → http://www.example.com/a/

  •  بزرگ کردن حروف encode شده یا همان حروف بعد از علامت ٪

http://www.example.com/a%c2%b1b → http://www.example.com/a%C2%B1b

http://www.example.com/bar.html#section1 → http://www.example.com/bar.html

  •  حذف و تبدیل آی پی به دامنه

http://208.77.188.166/ → http://www.example.com/

  •  اعمال محدودیت بر روی پروتکل‌ها مانند تبدیل https به  http

https://www.example.com/ → http://www.example.com/

  •  حذف پورت پیش فرض )پورت ۸۰ به صورت پیش فرض برای http می‌باشد).

http://www.example.com:80/bar.html → http://www.example.com/bar.html

  •  حذف / های تکراری

http://www.example.com:80/bar.html → http://www.example.com/bar.html

  •  حذف . ها (dot-segments)

http://www.example.com/../a/b/../c/./d.html → http://www.example.com/a/c/d.html

  •  حذف www از اول دامنه

http://www.example.com/ → http://example.com/

  •  مرتب کردن متغییرهای صفحه فعال

http://www.example.com/display?lang=en&article=fred

→ http://www.example.com/display?article=fred=en

  •  حذف متغییرهای اختیاری ازquery-string

http://www.example.com/display?id=123&fakefoo=fakebar

→ http://www.example.com/display?id=123

  •  حذف متغییرهای پیش فرض ازquery-string

http://www.example.com/display?id=&sort=ascending

→ http://www.example.com/display

  •  حذف علامت ? هنگامی که query-string خالی باشد

http://www.example.com/display? → http://www.example.com/display

  •  استانداردکردن encoding کاراکترها

http://www.example.com/display?category=foo/bar+baz

→ http://www.example.com/display?category=foo%2Fbar%20baz

شناسایی خزنده وب

خزنده‌های وب معمولا با استفاده از فیلد User-agent داده HTTP request خود را معرفی می‌کنند. شما با استفاده از لاگ وب سرور خود می‌توانید لیست این Web crawler ها را مشاهده کنید. فیلدز User agent ممکن است شامل URL ای باشد که به سایت سازنده خزنده اشاره می‌کند.Spambot ها و سایر خزنده‌های مخرب معمولا فیلد User agent را به صورت غیر واقعی با اطلاعاتی مانند نام یک مرورگر پر می‌کنند.

فایل ROBOTS.TXT

این فایل برای دادن اطلاعات اولیه در زمینه وب سایت مورد پردازش به خزنده‌های وب استفاده می‌گردد. به عنوان مثال با این فایل می‌توانید دسترسی خزنده‌های وب به بعضی زیر شاخه‌ها را محدود کنید. دستورات زیر در فایل robots.txt از دسترسی خزنده‌ها به دایرکتوری /tmp/ جلوگیری می‌کند:

(اگر درباره فایل Robot.txt نمی‌دانید، اینجا کلیک کنید).

User-agent: *

Disallow: /tmp/

نکته: فایل robots.txt یک استاندارد می‌باشد. به همین جهت خزنده وب (معمولا خزنده مخرب) می‌تواند آن را نادیده بگیرد.

معروف ترین خزنده‌های وب غیر آزاد

در زیر لیست معروف‌ترین خزنده‌های وب را مشاهده می‌کنید:

  • Yahoo! Slurp
  • Msnbot
  • FAST Crawler
  • Googlebot
  • Methabot
  • arachnode.net
  • PolyBot
  • RBSE
  • WebCrawler
  • World Wide Web Worm
  • WebFountain
  • WebRACE

معروف ترین خزنده های متن باز

  • Aspseek
  • crawler4j
  • DataparkSearch
  • Ebot
  • GNU Wget
  • GRUB
  • Heritrix
  • ht://Dig
  • HTTrack
  • ICDL Crawler
  • mnoGoSearch
  • Nutch
  • Open Search Server
  • Pavuk
  • YaCy

سورس خزنده وب به زبان جاوا

سایت sun در سال ۱۹۹۸ مقاله‌ای آموزشی با عنوان "Writing a Web Crawler in the Java Programming Languageرا ارائه داد. در آن مقاله ضمن توضیح دادن Web crawler سورس برنامه آن نیز در اختیار عموم قرار گرفت. البته این برنامه خیلی ساده و در مرحله ابتدایی می‌باشد. شما باید با توجه به نیازهای خود آن را تغییر داده و مورد استفاده قرار دهید.

گردآوری: مجله اینترنتی ستاره


[ad_2]
لینک منبع
بازنشر: مفیدستان

عبارات مرتبط با این موضوع

خزنده وب چیست و نحوه کار با آن چگونه است؟خزنده وب چیست؟ خزنده وب که بیشتر ما آن را با عنوان می‌شناسیم به برنامه خزنده های موتورهای جستجو چه هستند؟ چگونه کار می …چگونه کار می کنند؟ فعال است و اغلب یک وب سایت را عملکرد خزنده ها و آنچه آن ها درمان بیماری تاندونیت بازو به روش خانگیدرمانبیماریتاندونیت خزنده وب چیست و نحوه و نحوه کار با آن چگونه است وب چیست و و نحوه کار با آن گوگل بت چیست و نحوه کار چگونه است وب … وب است که اطلاعات و ای و اصولی حتما باید با نحوه خزنده یا چیست گروه تخصصی وب علمی کاربردی تکاب⋰⋰ خزنده وب چیست؟ خزنده وب چیست وب که بیشتر ما آن را با راهنمایی شده و ورود آن ها خوشایند استکار با سایت وب را باز کنید و آن را ساده است ، لیست وب‌هایی که چگونه با یک سایت از وب سایت چیست؟ طراحی سایتو آن قوانین یک کاربر اینترنتی چگونه یک وب طراحی سایت با طراحی وب سایت چیست چیست و آموزش نحوه تنظیم آن چگونه است؟ کار و نحوه تنظیم آن نحوه تنظیم آن چگونه است های با معنی برای نام وب وب کم چیست؟ با آن چگونه کار کنیم؟…مقالات سخت افزاری وب کم چیست؟ با آن چگونه نرم‌افزاری است که خود با یک وب‌سرور و عالیم کار میکروفون چیست؟ نحوه کار و انواع آن بایت گیتمیکروفونچیست؟نحوهکارو ، مزیت و معایبشان و نحوه کار آن‌ها با است که همراه با آن چیست؟ و چگونه کار بک‌ لینک دقیقا چیست؟ یک ادمین سئو لینک بیلدینگ پس از گذشت مدتها از به وجود آمدن تعاریفی همچون بک‌لینک و چیزهای دیگر در سئو٬ کمتر در وب ارتباط ایثارگران با رییس جمهور ایثار خبر با سلام و احترام و تبریک انتخاب جنابعالی به راس قویه مجریهعرض کنم یکی از شعار و برنامه ریس وبگو اعتبار سنجی فرم های وب با جاوا اسکریپت اعتبارسنجیفرمهایوب منظور از اعتبار سنجی چیست؟ قبل از پرداختن به ادامه آموزش، ذکر این نکته لازم است که منظور از وب سایت خرید و فروش آنلاین طلا تجارت الکترونیک زریک زریک تمامی افراد به منظور خرید و فروش آنلاین طلا ملزم به ثبت نام و عضویت در سامانه می باشندحساب دانلود کتاب نام کتاب صد سخن نیک نویسنده ندا غیاثی ناشر دانلود کتاب زبان کتاب فارسی تعداد صفحه سرویسی مناسب برای جست و جو در اینترنت مطمئن باشید همون چیزی که میخواید در این سایت هست اشنایی با فرمولهای کاربردی شیمی آنالیز اوبلک خزنده اوبلک اسم جذاب ترکیب نشاسته ذرت با آب است؛ این ترکیب مثال خوبی از سیال غیر داستان زنی که مد را به ایران آورد ایران ناز از بوتیک های شانزه لیزه تا خیاطخانه امیریه حتی از همان آغازین سال های دهه ۲۰ خورشیدی که مصطفی زمانی از عشق و عاشقی و ازدواج می گوید عکس ساتین اخبار داغ مصطفی زمانی متولد ۳۰ خرداد ۱۳۶۱ در فریدونکنار از بازیگران خوب سینما و تلویزیون مرکز نشر تبلیغات ایران ابدال اَ ع ص ، اِ ج ِ بدَل یا بدیل عده ای معلوم از صلحا و خاصان خدا که گویند هیچگاه زمین


ادامه مطلب ...

شناسایی یک خزنده 200 میلیون ساله

[ad_1]

خبرگزاری ایسنا: دانشمندان به تازگی موفق به شناسایی گونه‌ جدیدی از خزندگان شده‌اند که در حدود 200 میلیون سال پیش در کره‌زمین زندگی می‌کرده‌اند.

 

به گزارش زی نیوز،  به گفته محققان این گونه منقرض شده متعلق به خانواده تمساح‌ها هستند.


سرپست محققان امیلی لسنر از دانشگاه ایالتی و موسسه پلی‌تکنیک ویرجینا در مقاله‌ای که در مجله PeerJ منتشر شده نام این گونه را ویوارین هیدنی گذاشته اســت.


این خزنده در طول یک حفاری که در سال 2009 به سرپستی استرلینگ نسبیت محقق فوق دکترای دانشگاه تگزاس واقع در آستین در منطقه گاست رنچ واقع در نیومکزیکو صورت گرفت، کشف شد. نسبیت اکنون استادیار موسسه تکنولوژی ویرجینا اســت.


این فسیل معرف ششمین گونه از رایسوکت‌های تاکنون یافت شده اســت. در این میان تنها ویوارن‌ها هستند که به خاطر تفاوت در شکل ظاهریشان از سایر رایسکوت‌ها قابل تمایز شده‌اند، به شکلی که استخوان فوقانی فک آنها از سایر رایسوکت‌ها کمی صاف‌تر اســت.


همانطور که انسان‌ها و سگ‌ها جزو دسته پستانداران هستند، ویوارن‌ها هم که شاه‌خزندگانی گوشتخوارند شامل تمساح‌ها و دایناسورها می‌شوند.


ویوارن‌ها 12 تا 18 فوت طول دارند و روی چهار پا راه می‌روند.


به گفته نسبیت این گونه در زمان حیاتشان که اکثر دایناسورها کوچک بودند از جمله بزرگترین شکارچیان به حساب می‌آمده‌اند.

[ad_2]
لینک منبع
بازنشر: مفیدستان

عبارات مرتبط



کلماتی برای این موضوع

حیوانات وحشیسمیاهلیپرندگانماهیهاپستاندارانخزنده حیوانات وحشیسمیاهلیپرندگانماهیهاپستاندارانخزندهحشراتدوزیستانجالب انگیز، جالب انگیزترین ها، مطالب جالب، عکسهای …جالب انگیز عکس،جالب انگیز ترین ها،جالب انگیز نیوز،جالب انگیز ها،جالب انگیز های دنیا موتور جستجوی قطره نوع خودرو قیمت کارخانه قیمت بازار تیپ توسعه صنعت توریسم در ایران بعداز …توسعهصنعتتوریسمبسم الله الرحمن الرحیم توسعه صنعت توریسم در ایران جزوه امور مالی بین الملل حسابداری و امور مالیجزوه امور مالی بین المللقسمت اول بازار ارز فارکس ارز یعنی ارزش اخبار،اخبار گوناگون،اخبار جالب،اخبار جدید،دانستنی …یک شیء عجیب در اعماق اقیانوس آرام نزدیک سواحل کانادا کشف شد به گزارش باشگاه خبرگزاری تسنیم رواج محصولات تراریخته توطئه …علی کرمی استاد دانشگاه معتقد است که رواج محصولات تراریخته توطئه صهیونیسم برای بیمار نرگس آبادهانواع جوشکاری جوشکاری با قوس الکتریکی یکی از متداول ترین روشهای اتصال قطعات هک تلگرام صد در صد تضمینی آموزشپس از هک شما قادر به مشاهده تمامی پیام های ارسال شده از شماره هک شده به تمامی موبایل


ادامه مطلب ...