خزنده وب یا Web crawler به برنامه کامپیوتری میگویند که وب را بازدید کرده و اطلاعات آن را پردازش میکند. درباره خزنده وب بیشتر بدانید.
خزنده وب (WEB CRAWLER) چیست؟
خزنده وب که بیشتر ما آن را با عنوان Web crawler میشناسیم به برنامه کامپیوتری اطلاق میشود که World Wide Web (وب جهان گستر) را به صورت مرتب و سلسله مراتبی بازدید کرده و اطلاعات آن را مورد پردازش قرار میدهد. از Web crawler ها با عناوین دیگری مانند ants ،automatic indexers ،bots ،Web spiders و Web robots نیز یاد میشود.
کاربردهای خزنده وب
1. موتورهای جستجو
موتورهای جستجو و برخی از سایتها دارای خزندهها و یا روباتهایی هستند که برای گردآوری اطلاعات وب سایتها و نیز بروز نگه داشتن اطلاعات مورد استفاده قرار میگیرند. مهمترین کار بعد از گردآوری اطلاعات، ایندکس کردن آنها برای پردازش سریع هنگام جستجو است. این خزندهها معمولا در بازههای زمانی منظمی اطلاعات را بروز کرده و با نسخههای قبلی مقایسه میکنند.
2. مدیریت فنی وب سایت
مدیریت فنی وب سایت بخشی از کار این خزندههاست که شامل یافتن لینکهای شکسته(Broken Link) ، اعتبار سنجی (Validation) کدهای HTML، فایلهای CSS و … میباشد.
3. جمع آوری اطلاعات خاص
کاربرد دیگر خزندههای وب جمع آوری اطلاعات خاصی مانند آدرسهای ایمیل است. معمولا هدف از اینکار ارسال هرزنامه (spam) میباشد. برای جلوگیری از ثبت آدرس ایمیل توسط این خزندهها، میتوانید آدرس ایمیل خود را به صورت saeidREMOVEME AT جیمیل و یا موارد مشابه دیگر بنویسید.
نحوه کار خزنده وب
به صورت عمومی نحوه کار Web crawler ها به این صورت است که ابتدا لیستی از URL ها (آدرس های وب) که به عنوان seed شناخته میشوند را برای بازدید پردازش میکنند. هنگام پردازش این آدرسها، لیست لینکها و آدرسهای موجود در صفحات آنها را گردآوری کرده و به لیست ابتدایی اضافه میکنند. بقیه اطلاعات را نیز با توجه به نیاز و هدف خود ذخیره و پردازش مینمایند.
معماری خزنده وب
خزنده وب بخش اصلی و مرکزی هر موتور جستجویی را تشکیل میدهد. به همین جهت الگوریتم و معماری آنها به شدت مخفی نگه داشته میشود. با این وجود معماری سطح بالای (High-level architecture) آن به شکل زیر میباشد:
عادی کردن آدرس (URL NORMALIZATION)
منظور از عادی کردن آدرس، یکی کردن آدرسهایی میباشد که دارای خروجی یکسانی هستند. هدف از این کار جلوگیری از جمع آوری اطلاعات یکسان از چندین URL است. URL normalization با نام URL canonicalization نیز شناخته میشود که همان فرآیند تغییر آدرس برای استاندارد شدن میباشد.
مراحل فرایند عادی کردن آدرس
HTTP://www.Example.com/ → http://www.example.com/
http://www.example.com → http://www.example.com/
http://www.example.com/default.asp → http://www.example.com/
http://www.example.com/a/index.html → http://www.example.com/a/
http://www.example.com/a%c2%b1b → http://www.example.com/a%C2%B1b
http://www.example.com/bar.html#section1 → http://www.example.com/bar.html
http://208.77.188.166/ → http://www.example.com/
https://www.example.com/ → http://www.example.com/
http://www.example.com:80/bar.html → http://www.example.com/bar.html
http://www.example.com:80/bar.html → http://www.example.com/bar.html
http://www.example.com/../a/b/../c/./d.html → http://www.example.com/a/c/d.html
http://www.example.com/ → http://example.com/
http://www.example.com/display?lang=en&article=fred
→ http://www.example.com/display?article=fred〈=en
http://www.example.com/display?id=123&fakefoo=fakebar
→ http://www.example.com/display?id=123
http://www.example.com/display?id=&sort=ascending
→ http://www.example.com/display
http://www.example.com/display? → http://www.example.com/display
http://www.example.com/display?category=foo/bar+baz
→ http://www.example.com/display?category=foo%2Fbar%20baz
شناسایی خزنده وب
خزندههای وب معمولا با استفاده از فیلد User-agent داده HTTP request خود را معرفی میکنند. شما با استفاده از لاگ وب سرور خود میتوانید لیست این Web crawler ها را مشاهده کنید. فیلدز User agent ممکن است شامل URL ای باشد که به سایت سازنده خزنده اشاره میکند.Spambot ها و سایر خزندههای مخرب معمولا فیلد User agent را به صورت غیر واقعی با اطلاعاتی مانند نام یک مرورگر پر میکنند.
فایل ROBOTS.TXT
این فایل برای دادن اطلاعات اولیه در زمینه وب سایت مورد پردازش به خزندههای وب استفاده میگردد. به عنوان مثال با این فایل میتوانید دسترسی خزندههای وب به بعضی زیر شاخهها را محدود کنید. دستورات زیر در فایل robots.txt از دسترسی خزندهها به دایرکتوری /tmp/ جلوگیری میکند:
(اگر درباره فایل Robot.txt نمیدانید، اینجا کلیک کنید).
User-agent: *
Disallow: /tmp/
نکته: فایل robots.txt یک استاندارد میباشد. به همین جهت خزنده وب (معمولا خزنده مخرب) میتواند آن را نادیده بگیرد.
معروف ترین خزندههای وب غیر آزاد
در زیر لیست معروفترین خزندههای وب را مشاهده میکنید:
معروف ترین خزنده های متن باز
سورس خزنده وب به زبان جاوا
سایت sun در سال ۱۹۹۸ مقالهای آموزشی با عنوان "Writing a Web Crawler in the Java Programming Language” را ارائه داد. در آن مقاله ضمن توضیح دادن Web crawler سورس برنامه آن نیز در اختیار عموم قرار گرفت. البته این برنامه خیلی ساده و در مرحله ابتدایی میباشد. شما باید با توجه به نیازهای خود آن را تغییر داده و مورد استفاده قرار دهید.
گردآوری: مجله اینترنتی ستاره
جام جم سرا:دکتر مسعود مردانی با بیان اینکه شایعترین سن ابتلا به HIV در ایران از دهه دوم زندگی شروع شده و زمینه ابتلا تا دهه چهارم زندگی گسترش دارد، گفت: متوسط این سن در ایران بین 20 تا 45 سال است.
وی شایعترین روشهای ابتلا را در چهار - پنج سال گذشته، استفاده از سرنگ مشترک در معتادان تزریقی مواد دانست و گفت: متاسفانه در حال حاضر راه انتقال از طریق مقاربت جنسی در کشور رو به افزایش است.
مردانی عمده تلاش کمیته کشوری ایدز را شناسایی افراد پرخطر، کشف افرادی که مبتلا به ایدز هستند اما از ابتلای خود اطلاع ندارند و تشویق آنها به انجام آزمایش ایدز جهت آغاز درمان عنوان کرد و افزود: بر اساس آمار ثبت شده حدود 28 هزار مبتلا به ایدز در کشور وجود دارند. این درحالیست که طبق تخمینهای سازمان جهانی بهداشت، وجود 80 تا 90 هزار مورد ایدز /HIV در کشور پیش بینی میشود.
وی افزود: در نتیجه این آمار حدود 70 هزار نفر مبتلا به ایدز در کشور داریم که یا از بیماری خود خبر ندارند یا آن را کتمان میکنند.
این عضو کمیته کشوری ایدز پیشنهاد این کمیته را در زمینه پیشگیری از گسترش HIV/AIDS، شناسایی افرادی که بیشتر در معرض این بیماری هستند و تشویق آنها در جهت مشاوره و اقدام به انجام آزمایش ایدز عنوان کرد.
وی در همین زمینه افزود: عمده افراد در معرض خطر ابتلا به ایدز افرادی هستند که یا در معرض اعتیاد از هر نوعی اعم از تزریقی، استنشاقی و... هستند، سابقه زندان یا رفتارهای پرخطر جنسی دارند.
مردانی با ابراز نگرانی از افزایش شیوع ایدز از طریق مقاربت جنسی میان جوانان گفت: بنابراین باید این اقشار را تشویق کنیم که از وسایل محافظتی استفاده کرده و همچنین نسبت به انجام آزمایش HIV اقدام کنند تا در صورت ابتلا، بیماری در مراحل اولیه شناسایی شده، از پیشرفت آن پیشگیری شودو از ابتلای دیگران جلوگیری شود.
مردانی افزود: علاوه بر آن، افراد دیگری نظیر روسپیها که آمار آنها به طور غیررسمی در کشور زیاد است نیز در معرض شدید ابتلا به ایدز قرار دارند. بر همین اساس لازم است که این افراد شناسایی و تحت کنترل و درمان قرار گیرند.
به گزارش جام جم سرا، وی با تاکید بر اهمیت بحث پیشگیری از ابتلا به HIV/AIDSگفت: اقدام در جهت آموزش عمومی و تشویق مردم و بویژه جوانان در جهت انجام آزمایش ایدز به صورت اختیاری از جمله اولویتها و سیاستهایی است که باید در این زمینه مورد توجه قرار گیرد. در این صورت میتوان با استفاده از روشهای نوین درمانی از پیشرفت این بیماری در مراحل اولیه ابتلا جلوگیری کرد.
مردانی ادامه داد: در حال حاضر این امکان وجود دارد که HIV را در مراحل اولیه بیماری با مصرف روزانه یک قرص کنترل کرد. بنابراین باید از طریق صداوسیما، اصحاب رسانه، مطبوعات، روحانیون، خانوادهها و...آموزشهای میدانی را برای افراد و بویژه جوانان ایجاد کنیم.
وی در پایان با تاکید دوباره بر بحث آموزش و پیشگیری گفت: در حال حاضر کشورهایی مانند استرالیا و کشورهای اروپای غربی دیگر با مشکلی تحت عنوان ایدز مواجه نیستند. علت این مهم نیز مبارزه با ایدز از طریق سلاح برنده، ارزان ، موثر و منطقی "آموزش" است.(ایسنا)
تاریخ انتشار : شنبه ۱۱ دی ۱۳۹۵ ساعت ۲۰:۴۹
رییس انجمن فیزیوتراپی در مورد نوعی اختلال فیزیکی که در ایران به شدت مغفول مانده توضیح داد.
وی ادامه داد: خانم ها به دلیل شرایط بیومکانیکی حاکم بر فیزیکشان و همچنین وجود پدیده هایی مثل حاملگی و نظایر آن در برابر کمر درد آسیب پذیرتر هستند.
به گفته وی، طی بررسی های انجام شده بر گروه های مختلف، 84.4 درصد جراحان، 20 درصد دانش آموزان، 62 درصد از پرستاران، 81 درصد خانم های حامله، بیش از 37 درصد از معلمان و قریب به 40 درصد از دندانپزشکان در کشورمان از کمردرد رنج می برند.
محسنی با بیان اینکه هزینه های مستقیم و غیر مستقیم کمردرد کل جوامع را تهدید می کند، تصریح کرد: هیچ گروه سنی و شغلی از کمردرد مصون نبوده و متاسفانه سالانه هزینه های بسیار هنگفتی در درمان بیماری های ستون فقرات صرف می شود و مرخصی های استعلاجی بسیار زیادی توسط افراد شاغل مطالبه می شود. از این رو، لازم است ساز و کار جدیدی برای پیشگیری از اختلالات ستون فقرات در نظر گرفته شود.
رییس انجمن فیزیوتراپی اظهار داشت: بیماری های عضلانی و اسکلتی کشنده نیستند اما پنج برابر ایدز و سه برابر آلزایمر هزینه به دولتها تحمیل میکند.
محسنی در ادامه توضیحاتش اضافه کرد: اختلالات اسکلتی عضلانی با 91 درصد هزینه های درمان سرطان و 82 درصد هزینه های ناشی از بیماری های قلبی و عروقی برابری می کند.
وی تاکید کرد: از آنجا که بیماری های عضلانی و اسکلتی کشنده نیستند، متاسفانه بسیار کمتر از سرطان ها و بیماری های قلبی و عروقی در نظام سلامت کشور به آنها توجه میشود. این در حالی است که دنیا از 2 دهه گذشته به این مهم پی برده به طوری که گفته میشود تا 2 دهه آینده بیماری های غیر واگیر نظیر سکته، دیابت، بیماری های عضلانی اسکلتی، پدیده سالمندی، حوادث جاده ای و مواردی از این دست می توانند منابع سلامت یک کشور را تهدید کنند.
محسنی یاد آور شد: بهره مندی از دیدگاه درمان محور، پیشگیری از ایجاد معلولیت های ناشی از حوادث، پیشگیری از پدیده سالمندی برای کاهش هزینههای از این دست، آموزش در خانه های سالمندان و ارائه خدمات آموزشی به این اقشار جامعه از اهمیت بسیاری برخوردار است و اگر ما بخواهیم عوارض و هزینه های سلامت را کاهش دهیم باید در درجه اول بر مسئله پیشگیری متمرکز شویم.
مرجع : سایت خبری باشگاه خبرنگاران جوان
تاریخ انتشار : شنبه ۱۱ دی ۱۳۹۵ ساعت ۲۰:۴۹
رییس انجمن فیزیوتراپی در مورد نوعی اختلال فیزیکی که در ایران به شدت مغفول مانده توضیح داد.
وی ادامه داد: خانم ها به دلیل شرایط بیومکانیکی حاکم بر فیزیکشان و همچنین وجود پدیده هایی مثل حاملگی و نظایر آن در برابر کمر درد آسیب پذیرتر هستند.
به گفته وی، طی بررسی های انجام شده بر گروه های مختلف، 84.4 درصد جراحان، 20 درصد دانش آموزان، 62 درصد از پرستاران، 81 درصد خانم های حامله، بیش از 37 درصد از معلمان و قریب به 40 درصد از دندانپزشکان در کشورمان از کمردرد رنج می برند.
محسنی با بیان اینکه هزینه های مستقیم و غیر مستقیم کمردرد کل جوامع را تهدید می کند، تصریح کرد: هیچ گروه سنی و شغلی از کمردرد مصون نبوده و متاسفانه سالانه هزینه های بسیار هنگفتی در درمان بیماری های ستون فقرات صرف می شود و مرخصی های استعلاجی بسیار زیادی توسط افراد شاغل مطالبه می شود. از این رو، لازم است ساز و کار جدیدی برای پیشگیری از اختلالات ستون فقرات در نظر گرفته شود.
رییس انجمن فیزیوتراپی اظهار داشت: بیماری های عضلانی و اسکلتی کشنده نیستند اما پنج برابر ایدز و سه برابر آلزایمر هزینه به دولتها تحمیل میکند.
محسنی در ادامه توضیحاتش اضافه کرد: اختلالات اسکلتی عضلانی با 91 درصد هزینه های درمان سرطان و 82 درصد هزینه های ناشی از بیماری های قلبی و عروقی برابری می کند.
وی تاکید کرد: از آنجا که بیماری های عضلانی و اسکلتی کشنده نیستند، متاسفانه بسیار کمتر از سرطان ها و بیماری های قلبی و عروقی در نظام سلامت کشور به آنها توجه میشود. این در حالی است که دنیا از 2 دهه گذشته به این مهم پی برده به طوری که گفته میشود تا 2 دهه آینده بیماری های غیر واگیر نظیر سکته، دیابت، بیماری های عضلانی اسکلتی، پدیده سالمندی، حوادث جاده ای و مواردی از این دست می توانند منابع سلامت یک کشور را تهدید کنند.
محسنی یاد آور شد: بهره مندی از دیدگاه درمان محور، پیشگیری از ایجاد معلولیت های ناشی از حوادث، پیشگیری از پدیده سالمندی برای کاهش هزینههای از این دست، آموزش در خانه های سالمندان و ارائه خدمات آموزشی به این اقشار جامعه از اهمیت بسیاری برخوردار است و اگر ما بخواهیم عوارض و هزینه های سلامت را کاهش دهیم باید در درجه اول بر مسئله پیشگیری متمرکز شویم.
مرجع : سایت خبری باشگاه خبرنگاران جوان
خزنده وب یا Web crawler به برنامه کامپیوتری میگویند که وب را بازدید کرده و اطلاعات آن را پردازش میکند. درباره خزنده وب بیشتر بدانید.
خزنده وب (WEB CRAWLER) چیست؟
خزنده وب که بیشتر ما آن را با عنوان Web crawler میشناسیم به برنامه کامپیوتری اطلاق میشود که World Wide Web (وب جهان گستر) را به صورت مرتب و سلسله مراتبی بازدید کرده و اطلاعات آن را مورد پردازش قرار میدهد. از Web crawler ها با عناوین دیگری مانند ants ،automatic indexers ،bots ،Web spiders و Web robots نیز یاد میشود.
کاربردهای خزنده وب
1. موتورهای جستجو
موتورهای جستجو و برخی از سایتها دارای خزندهها و یا روباتهایی هستند که برای گردآوری اطلاعات وب سایتها و نیز بروز نگه داشتن اطلاعات مورد استفاده قرار میگیرند. مهمترین کار بعد از گردآوری اطلاعات، ایندکس کردن آنها برای پردازش سریع هنگام جستجو است. این خزندهها معمولا در بازههای زمانی منظمی اطلاعات را بروز کرده و با نسخههای قبلی مقایسه میکنند.
2. مدیریت فنی وب سایت
مدیریت فنی وب سایت بخشی از کار این خزندههاست که شامل یافتن لینکهای شکسته(Broken Link) ، اعتبار سنجی (Validation) کدهای HTML، فایلهای CSS و … میباشد.
3. جمع آوری اطلاعات خاص
کاربرد دیگر خزندههای وب جمع آوری اطلاعات خاصی مانند آدرسهای ایمیل است. معمولا هدف از اینکار ارسال هرزنامه (spam) میباشد. برای جلوگیری از ثبت آدرس ایمیل توسط این خزندهها، میتوانید آدرس ایمیل خود را به صورت saeidREMOVEME AT جیمیل و یا موارد مشابه دیگر بنویسید.
نحوه کار خزنده وب
به صورت عمومی نحوه کار Web crawler ها به این صورت است که ابتدا لیستی از URL ها (آدرس های وب) که به عنوان seed شناخته میشوند را برای بازدید پردازش میکنند. هنگام پردازش این آدرسها، لیست لینکها و آدرسهای موجود در صفحات آنها را گردآوری کرده و به لیست ابتدایی اضافه میکنند. بقیه اطلاعات را نیز با توجه به نیاز و هدف خود ذخیره و پردازش مینمایند.
معماری خزنده وب
خزنده وب بخش اصلی و مرکزی هر موتور جستجویی را تشکیل میدهد. به همین جهت الگوریتم و معماری آنها به شدت مخفی نگه داشته میشود. با این وجود معماری سطح بالای (High-level architecture) آن به شکل زیر میباشد:
عادی کردن آدرس (URL NORMALIZATION)
منظور از عادی کردن آدرس، یکی کردن آدرسهایی میباشد که دارای خروجی یکسانی هستند. هدف از این کار جلوگیری از جمع آوری اطلاعات یکسان از چندین URL است. URL normalization با نام URL canonicalization نیز شناخته میشود که همان فرآیند تغییر آدرس برای استاندارد شدن میباشد.
مراحل فرایند عادی کردن آدرس
HTTP://www.Example.com/ → http://www.example.com/
http://www.example.com → http://www.example.com/
http://www.example.com/default.asp → http://www.example.com/
http://www.example.com/a/index.html → http://www.example.com/a/
http://www.example.com/a%c2%b1b → http://www.example.com/a%C2%B1b
http://www.example.com/bar.html#section1 → http://www.example.com/bar.html
http://208.77.188.166/ → http://www.example.com/
https://www.example.com/ → http://www.example.com/
http://www.example.com:80/bar.html → http://www.example.com/bar.html
http://www.example.com:80/bar.html → http://www.example.com/bar.html
http://www.example.com/../a/b/../c/./d.html → http://www.example.com/a/c/d.html
http://www.example.com/ → http://example.com/
http://www.example.com/display?lang=en&article=fred
→ http://www.example.com/display?article=fred〈=en
http://www.example.com/display?id=123&fakefoo=fakebar
→ http://www.example.com/display?id=123
http://www.example.com/display?id=&sort=ascending
→ http://www.example.com/display
http://www.example.com/display? → http://www.example.com/display
http://www.example.com/display?category=foo/bar+baz
→ http://www.example.com/display?category=foo%2Fbar%20baz
شناسایی خزنده وب
خزندههای وب معمولا با استفاده از فیلد User-agent داده HTTP request خود را معرفی میکنند. شما با استفاده از لاگ وب سرور خود میتوانید لیست این Web crawler ها را مشاهده کنید. فیلدز User agent ممکن است شامل URL ای باشد که به سایت سازنده خزنده اشاره میکند.Spambot ها و سایر خزندههای مخرب معمولا فیلد User agent را به صورت غیر واقعی با اطلاعاتی مانند نام یک مرورگر پر میکنند.
فایل ROBOTS.TXT
این فایل برای دادن اطلاعات اولیه در زمینه وب سایت مورد پردازش به خزندههای وب استفاده میگردد. به عنوان مثال با این فایل میتوانید دسترسی خزندههای وب به بعضی زیر شاخهها را محدود کنید. دستورات زیر در فایل robots.txt از دسترسی خزندهها به دایرکتوری /tmp/ جلوگیری میکند:
(اگر درباره فایل Robot.txt نمیدانید، اینجا کلیک کنید).
User-agent: *
Disallow: /tmp/
نکته: فایل robots.txt یک استاندارد میباشد. به همین جهت خزنده وب (معمولا خزنده مخرب) میتواند آن را نادیده بگیرد.
معروف ترین خزندههای وب غیر آزاد
در زیر لیست معروفترین خزندههای وب را مشاهده میکنید:
معروف ترین خزنده های متن باز
سورس خزنده وب به زبان جاوا
سایت sun در سال ۱۹۹۸ مقالهای آموزشی با عنوان "Writing a Web Crawler in the Java Programming Language” را ارائه داد. در آن مقاله ضمن توضیح دادن Web crawler سورس برنامه آن نیز در اختیار عموم قرار گرفت. البته این برنامه خیلی ساده و در مرحله ابتدایی میباشد. شما باید با توجه به نیازهای خود آن را تغییر داده و مورد استفاده قرار دهید.
گردآوری: مجله اینترنتی ستاره
خبرگزاری ایسنا: دانشمندان به تازگی موفق به شناسایی گونه جدیدی از خزندگان شدهاند که در حدود 200 میلیون سال پیش در کرهزمین زندگی میکردهاند.
به گزارش زی نیوز، به گفته محققان این گونه منقرض شده متعلق به خانواده تمساحها هستند.
سرپست محققان امیلی لسنر از دانشگاه ایالتی و موسسه پلیتکنیک ویرجینا در مقالهای که در مجله PeerJ منتشر شده نام این گونه را ویوارین هیدنی گذاشته اســت.
این خزنده در طول یک حفاری که در سال 2009 به سرپستی استرلینگ نسبیت محقق فوق دکترای دانشگاه تگزاس واقع در آستین در منطقه گاست رنچ واقع در نیومکزیکو صورت گرفت، کشف شد. نسبیت اکنون استادیار موسسه تکنولوژی ویرجینا اســت.
این فسیل معرف ششمین گونه از رایسوکتهای تاکنون یافت شده اســت. در این میان تنها ویوارنها هستند که به خاطر تفاوت در شکل ظاهریشان از سایر رایسکوتها قابل تمایز شدهاند، به شکلی که استخوان فوقانی فک آنها از سایر رایسوکتها کمی صافتر اســت.
همانطور که انسانها و سگها جزو دسته پستانداران هستند، ویوارنها هم که شاهخزندگانی گوشتخوارند شامل تمساحها و دایناسورها میشوند.
ویوارنها 12 تا 18 فوت طول دارند و روی چهار پا راه میروند.