
در حالت عادی هيچ کسی دوست ندارد که رو دست بخورد ولی گاهی وقتها رودست خوردن چنان شيرين میشود که ممکن است به استقبالش هم برويم. درباره بازی برچسبزنی گوگل نوشتيم که چگونه ممکن است همراه بازی به بهينهسازی جستوجو در گوگل کمک کرد. اين بار اما صحبت از «کپچاهای ترجمه» است. روشی که باعث میشود تا يک کتاب ناخوانا، قابل خواندن شود. ترجمه يک کتاب غيرقابل خواندن به کتابی خواندنی.
جنگ اسپمرها
کپچا يک عکس با حروف و اعداد کج و معوج است که شما هنگام پر کردن يک فرم در اينترنت بارها با آن برخورد کردهايد. خاصيت کپچا (CAPTCHA) اين است که انسان میتواند بهسادگی آن را بخواند ولی در حال حاضر يک ماشين (کامپيوتر) نمیتواند. سايتهای زيادی از کپچا استفاده میکنند تا فرستندگان هرزنامه (Spam) نتوانند خرابکاری کنند.
کپچا چیست؟
شما هنگام پر کردن فرمهای عضويت در سايتها حتماً به تصويری برخورد کردهايد که مجموعهای از اعداد و حروف کج و معوج را در خود جای دادهاند. هيچ گاه فکر کردهايد که اين تصاوير کهCaptcha ناميده میشوند به چه دردی میخورند؟
برای مطالعه ی متن کامل
این جا را کلیک کنید.
اما خرابکاران عقبنشينی نمیکنند. آنها شمشير را از رو بستهاند و راههايی برای مقابله با کپچاها دارند. يک راه هرزنامهنويسان (Spammer) در اين مبارزه، ايجاد سايتهای پورنوگرافی هست. آنها يک سايت پورنوگرافی درست میکنند و در بخش ثبتنام، کپچايی را قرار میدهند که از سايت موردعلاقهشان برداشته شده است. شما برای ديدن محتوای سايت پورنوگرافی مجبور هستيد معمای کپچا را حل کنيد. اينجاست که هرزنامهنويس ورودی شما را به نفع خود مصادره میکند و شما در نقش يک کارگر هوسران، مشکل هرزنامهنويسان را حل میکنيد.
دو روی سکه
اين تنها يک روی ماجراست. روزانه بيش از 60 ميليون کپچا توسط ميليونها کاربر پر میشوند. دانشمندان هم تصميم گرفتهاند مانند هرزنامهنويسان از اين خاصيت استفاده کنند. با اين تفاوت که کمتر کسی ناراضی خواهد بود.
اين بار به جای توليد اتفاقی کپچاها به صورت حروف و اعداد، کلماتی قرار داده میشود که از کتابهای قديمی اسکن شدهاند. در مورد کتب قديمی هم مشکل بازيابی حروف توسط ماشين برقرار است. شما با تشخيص اين حروف در حال کمک به بازيابی متن يک کتاب قديمی هستید و برگی به دانش بشر میافزاييد.

يک باگ کوچولو
تنها سؤالی که ممکن است برايتان پيش بيايد اين است که متن کپچاهايی که برای مقابله با اسپمرها در سايت قرار داده میشود مشخص است. يعنی ماشين نسخه درستش را دارد و با مقايسه آنچه شما وارد میکنيد، انسان بودنتان را تشخيص میدهد. حال پرسش اين است: اگر ماشين میدانست که متن بريدهشده از کتاب قديمی چيست که دیگر نيازی به همکاری انسان برای ترجمه و درک آن نبود!
شما درست میگوييد. اما راههای زيادی برای تأييد رشته ورودی وجود دارد. يکی آن که هر تکه از کتاب را برای دو نفر نمايش دهند و در صورت تطابق ورودیهای دو نفر، درستی ورودی تأييد شود (درست مانند بازی برچسبزنی گوگل). راه ديگر آن که به هر فرد دو رشته اختصاص داده شود. متن يکی از اين رشتهها قبلاً و در فرآيندی جداگانه تشخيص داده شده اما محتوای دومی نامعلوم است. اگر فردی ورودی رشته اول را درست وارد کرد، ماشین به طور منطقی نتيجه میگيرد که به احتمال زياد متن دوم هم درست وارد شده است.
هرزنامه کافیست، کتاب بخوانيد
سايت ریکپچا دقيقاً به همين منظور ايجاد شده است. «هرزنامه کافیست، کتاب بخوانيد» اين شعار سايتی است که میخواهد متون کتب قديمی را بازيافت کند. اين پروژه کدباز (Open Source) که توسط دانشکده کامپیوتر دانشگاه «کارنگی ملون» دنبال میشود، توانسته پشتيبانان قدرتمندی چون شرکت اینتل و ناول برای این کار بيابد. در عين حال هر کسی که علاقمند است تا بازديدکنندگان سايت يا وبلاگش را به همکاری با اين کار دعوت کند، میتواند با عضويت در سايت ریکپچا کدی دريافت کرده و آن را در سايت خود قرار دهد تا بازديدکنندگانش در اين امر خير، مشارکت کنند. شما چطور؟ نمیخواهيد بازيافت را امتحان کنيد؟