2008 نوامبر 21
نام کاربری: کلمه عبور:

Nima01
در حالت عادی هيچ کسی دوست ندارد که رو دست بخورد ولی گاهی وقت‌ها رودست خوردن چنان شيرين می‌شود که ممکن است به استقبالش هم برويم. درباره بازی برچسب‌زنی گوگل  نوشتيم که چگونه ممکن است همراه بازی به بهينه‌سازی جست‌وجو در گوگل کمک کرد. اين بار اما صحبت از «کپچاهای ترجمه» است. روشی که باعث می‌شود تا يک کتاب ناخوانا، قابل خواندن شود. ترجمه يک کتاب غيرقابل خواندن به کتابی خواندنی.

جنگ اسپمرها
کپچا يک عکس با حروف و اعداد کج و معوج است که شما هنگام پر کردن يک فرم در اينترنت بارها با آن برخورد کرده‌ايد. خاصيت کپچا (CAPTCHA) اين است که انسان می‌تواند به‌سادگی آن را بخواند ولی در حال حاضر يک ماشين (کامپيوتر) نمی‌تواند. سايت‌های زيادی از کپچا استفاده می‌کنند تا فرستندگان هرزنامه (Spam) نتوانند خراب‌کاری کنند.

کپچا چیست؟

  • شما هنگام پر کردن فرم‌های عضويت در سايت‌ها حتماً به تصويری برخورد کرده‌ايد که مجموعه‌ای از اعداد و حروف کج و معوج را در خود جای داده‌اند. هيچ گاه فکر کرده‌ايد که اين تصاوير کهCaptcha ناميده می‌شوند به چه دردی می‌خورند؟
برای مطالعه ی متن کامل این جا را کلیک کنید.

اما خراب‌کاران عقب‌نشينی نمی‌کنند. آنها شمشير را از رو بسته‌اند و راه‌هايی برای مقابله با کپچاها دارند. يک راه هرزنامه‌نويسان (Spammer) در اين مبارزه، ايجاد سايت‌های پورنوگرافی هست. آنها يک سايت پورنوگرافی درست می‌کنند و در بخش ثبت‌نام، کپچايی را قرار می‌دهند که از سايت موردعلاقه‌شان برداشته شده است. شما برای ديدن محتوای سايت پورنوگرافی مجبور هستيد معمای کپچا را حل کنيد. اينجاست که هرزنامه‌نويس ورودی شما را به نفع خود مصادره می‌کند و شما در نقش يک کارگر هوسران، مشکل هرزنامه‌نويسان را حل می‌کنيد.

دو روی سکه
اين تنها يک روی ماجراست. روزانه بيش از 60 ميليون کپچا توسط ميليون‌ها کاربر پر می‌شوند. دانشمندان هم تصميم گرفته‌اند مانند هرزنامه‌نويسان از اين خاصيت استفاده کنند. با اين تفاوت که کمتر کسی ناراضی خواهد بود.
اين بار به جای توليد اتفاقی کپچاها به صورت حروف و اعداد، کلماتی قرار داده می‌شود که از کتاب‌های قديمی اسکن شده‌اند. در مورد کتب قديمی هم مشکل بازيابی حروف توسط ماشين برقرار است. شما با تشخيص اين حروف در حال کمک به بازيابی متن يک کتاب قديمی هستید و برگی به دانش بشر می‌افزاييد.

Nima02

يک باگ کوچولو
تنها سؤالی که ممکن است برايتان پيش بيايد اين است که متن کپچاهايی که برای مقابله با اسپمرها در سايت قرار داده می‌شود مشخص است. يعنی ماشين نسخه درستش را دارد و با مقايسه آنچه شما وارد می‌کنيد، انسان بودنتان را تشخيص می‌دهد. حال پرسش اين است: اگر ماشين می‌دانست که متن بريده‌شده از کتاب قديمی چيست که دیگر نيازی به همکاری انسان برای ترجمه و درک آن نبود!
شما درست می‌گوييد. اما راه‌های زيادی برای تأييد رشته ورودی وجود دارد. يکی آن که هر تکه از کتاب را برای دو نفر نمايش دهند و در صورت تطابق ورودی‌های دو نفر، درستی ورودی تأييد شود (درست مانند بازی برچسب‌زنی گوگل). راه ديگر آن که به هر فرد دو رشته اختصاص داده شود. متن يکی از اين رشته‌ها قبلاً و در فرآيندی جداگانه تشخيص داده شده اما محتوای دومی نامعلوم است. اگر فردی ورودی رشته اول را درست وارد کرد، ماشین به طور منطقی نتيجه می‌گيرد که به احتمال زياد متن دوم هم درست وارد شده است.

هرزنامه کافی‌ست، کتاب بخوانيد
سايت ری‌کپچا دقيقاً به همين منظور ايجاد شده است. «هرزنامه کافی‌ست، کتاب بخوانيد» اين شعار سايتی است که می‌خواهد متون کتب قديمی را بازيافت کند. اين پروژه کدباز (Open Source) که توسط دانشکده کامپیوتر دانشگاه «کارنگی ملون» دنبال می‌شود، توانسته پشتيبانان قدرتمندی چون شرکت اینتل و ناول برای این کار بيابد. در عين حال هر کسی که علاقمند است تا بازديدکنندگان سايت يا وبلاگش را به همکاری با اين کار دعوت کند، می‌تواند با عضويت در سايت ری‌کپچا کدی دريافت کرده و آن را در سايت خود قرار دهد تا بازديدکنندگانش در اين امر خير، مشارکت کنند. شما چطور؟ نمی‌خواهيد بازيافت را امتحان کنيد؟