خبرگزاری آریا - آمازون با دستگاه جدیدی به نام Echo، وعده دستیار شخصی هوشمند مصنوعی در هر خانه را ملموس تر کرد. کسانی که این گجت ها را دارند معمولا به همه توصیه می کنند که یکی از دیوایس های آمازون را بخرند. چرا؟ چون می توانند با آن اوبر بگیرند، پیتزا سفارش دهند و هر جستجویی را انجام دهند. آمازون می گوید که روزانه 5 هزار نفر علاقه خود را نسبت به دستیار صوتی شان مستقیما ابراز می کنند.
از سوی دیگر، علاقه مندان به الکسا می دانند که اگر با او بسیار آهسته و شمرده صحبت نکنید، احتمال دارد که او به شما بگوید: «ببخشید، پاسخ به این پرسش را نمی دانم.»
یکی از مشتریان در وبسایت آمازون در حالی که به محصول امتیاز 5 ستاره داده می گوید: «عاشقش هستم، ازش متنفرم، عاشقش ام. خیلی زود متوجه می شوید که به چه طریقی با او صحبت کنید تا متوجه شما شود، مثل صحبت کردن با یک کودک نو پا.»
فناوری تشخیص صدا راه بسیاری را طی چند سال گذشته پیموده است. اما هنوز هم به قدر کافی پیشرفت نکرده تا در همه محصولات ما به کار رود و وارد استفاده روزمره زندگی انسان شود. تصور کنید یک روزی بتوانید با همه گجت های تان صحبت کنید و آن ها هم به شما پاسخ دهند؛ ماشین، تلویزیون، لباسشویی، کامپیوتر و هر چیز دیگری که فکرش را کنید.
علی رغم پیشرفت های صورت پذیرفته در زمینه فناوری تشخیص صدا، مردم هنوز هم علاقه دارند سکوت کرده و راه شان را با لمس و کلیک اجزای فیزیکی کامپیوتر و موبایل شان پیش ببرند. و این روند احتمالا تا چند سال دیگر هم به همینگونه ادامه خواهد یافت.
چه مسئله ای باعث پیشرفت اندک در این زمینه می شود؟ بخشی از آن به هوش مصنوعی و مغز متفکر دستگاه باز می گردد که جای پیشرفت بسیاری دارد. حالا تصور کنید که چندین زبان زنده و رایج در دنیا داریم و هر کدام چندین گویش و لهجه مخصوص دارند. داده های مربوط به زبان ها در حال حاضر بسیار محدود و ناقص است.
بنابراین آمازون، اپل، مایکروسافت و بایدو تازه در ابتدای این سفر هستند و باید چندین ترابایت صدا ذخیره کنند تا این فناوری قابلیت همه گیر شدن را پیدا کند.
مایکروسافت در سراسر جهان، مراکز کوچکی، همانند خانه های عادی تاسیس کرده تا علاقه مندان و داوطلبان به آنجا بروند و صداهای شان را ضبط کنند. هر ساعت، آمازون درخواست های الکسا را به یک انبار دیجیتالی آپلود می کند. بایدو مشغول ثبت و ضبط انواع گویش های چینی است. سپس شرکت ها همه این داده ها را جمع کرده و به کامپیوترهای شان می دهند تا از آن ها بیاموزند، متوجه شان شوند و در نهایت پاسخ شان را دهند.
چالش این است که راهی برای ثبت مکالمات واقعی و طبیعی روزمره پیدا شود. آدام کوتس، کسی که آزمایشگاه هوش مصنوعی بایدو در سانی ویل کالیفرنیا را اداره می کند می گوید حتی دقت 95 درصدی هم کافی نیست: «هدف ما این است تا نرخ اشتباه را به 1 درصد برسانیم. آن جا می توانید واقعا به دستگاه اعتماد کنید که متوجه شما شده و این مسئله دگرگون کننده است.»
تا همین چند سال پیش، قابلیت های تشخیص صدا مورد تمسخر عموم واقع می شدند. یکی از ورژن های اولیه تکنولوژی مایکروسافت برداشت جالبی از واژه «مادر» داشت و آن را «عمه» قلمداد می کرد.
یا پنج سال پیش وقتی سیری از سوی اپل معرفی شد، شاهد انتشار گاف های خنده دار او بودیم. هر از چند گاهی یک ویدیو یا خبر منتشر می شد که به اشتباهات سیری اشاره داشتند. برای مثال وقتی از او پرسیدند آیا جیلیان اندرسون انگلیسی است یا نه، سیری لیست کاملی از رستوران های انگلیس را ارائه داد.
با همه این تفاسیر، سیری و دیگر تکنولوژی ها در حال پیشرفت هستند و جای خود را کم کم میان کاربران باز کرده اند. هنوز جای پیشرفت بسیاری باقی مانده و برای همه گیر شدن آن، شاید نیازمند یکی-دو دهه پیشرفت اساسی باشیم.
شبکه های عصبی که این روزها بسیار در موردشان می شنویم، در حقیقت کلید انسان برای حل چنین مشکلاتی هستند. در واقع به این دلیل «شبکه های عصبی» خطاب می شوند که ساختاری بسیار شبیه به مغز انسان دارند.
در حقیقت، لازم نیست به آن ها برنامه خاصی بدهید تا در راستای همان مسئله خاص شروع به یادگیری کنند اما برای یادگیری سریع، به حجم گسترده ای از اطلاعات نیازمند هستند. هر چه به یک موتور تشخیص اصوات بیشتر اطلاعات داده شود، بهتر می تواند تفاوت بین صداها را متوجه شده و عملکردی طبیعی، همانند انسان در مکالمات روزمره داشته باشد.
دهه 90 میلادی بود و بسیاری از کمپانی های بزرگ کم کم تصمیم گرفتند وارد این تجارت شوند. شرکت هایی نظیر مایکروسافت از داده های عمومی در دسترس که موسساتی نظیر Linguistics Data Consortium در اختیارشان قرار می داد استفاده می کردند.
سپس، شرکت ها کم کم شروع به جمع آوری داده کردند و به انستیتوها و سازمان های دیگر متکی باقی نماندند. داوطلبان می آمدند، صحبت می کردند، صدا ضبط می شد و روز به روز بانک اطلاعاتی گسترش می یافت.
حالا اما با توجه به محبوبیتی که این فناوری در سراسر دنیا پیدا کرده، شرکت ها هم سرعت بیشتری به جمع آوری اطلاعات پرداخته اند و ماجرا را کمی جدی تر گرفته اند.
وقتی به تلفن همراه تان می گویید که به دنبال چیزی بگردد، آهنگی برای تان پخش کند یا مقصد را به شما نشان دهد، این احتمال وجود دارد که شرکت سازنده آن هوش مصنوعی، در حال ضبط صدای شما باشد. اپل، گوگل، مایکروسافت، آمازون و… تفاوتی ندارند، همه به دنبال مجموعه ای جامع تر هستند.
وقتی از الکسا می پرسید آب و هوا چطور است یا فلان مسابقه فوتبال چه نتیجه ای در پی داشته، گجت شما ضمن یافتن نتایج برای شما، به واسطه شبکه عصبی اش می تواند بیشتر یاد بگیرد تا دفعه بعدی پاسخ سریع تر و بهتری بدهد.
یکی از چالش های اساسی همه شرکت ها، تسلط به چندین زبان، گویش و لهجه متفاوت است. شاید هیچ نقطه از جهان در حال حاضر به اندازه چین اهمیت این مسئله را نمی تواند نشان دهد.
بایدو، غول جستجوی اینترنتی چین، باید سرویس خود را به چند صد میلیون انسان که گویش های بسیار متنوعی دارند ارائه دهد. هر چه مردم از نقاط مختلف چین، بیشتر در طرح بایدو مشارکت کنند، آینده بهتری در اختیار چینی ها خواهد بود.
طی دو هفته پس از شروع سال نوی چینی، بایدو بیش از 1000 ساعت مکالمه را ثبت و ضبط کرد. اکثر مردم صرفا برای اینکه گویش محلی شان درون سیستم بایدو باشد، این کار را به رایگان انجام دادند. یک معلم دبیرستان در سیچوان به دانش آموزان خود گفته بود که بیش از هزار شعر با زبان محلی شان را برای بایدو بخوانند.
چالش دیگر، صداهای پس زمینه هستند که سیستم باید درک کند نویزهای اضافه را از صدای اصلی جدا کرده و فقط به فرمان اصلی گوش دهد. مثلا در یک استادیوم هستید و ده ها هزار نفر در کنار شما مشغول فریاد زدن هستند. چطور باید موبایل شما تشخیص دهد که صدای شما کدام است؟
مایکروسافت برای این کار، از اپلیکیشنی به نام Voice Studio استفاده می کند که روی اکس باکس اجرا می شود و صدای مخاطب، زمانی که مشغول کشتن و سلاخی کردن دشمنان و هیولاها است را از دل این هیاهو بیرون می کشد. طرح تشویقی مایکروسافت به قدری موثر بود که برزیلی ها اوایل امسال توانستند کورتانا را به زبان خودشان داشته باشند.
گوگل فلسفه کمتر، بیشتر است را پیش گرفته و رویکردی متفاوت دارد. به جای تشخیص جمله های بلند و طولانی، سیستم تشخیص صدای گوگل جزئیات جمله را شناسایی کرده و جمله سازی می کند.
با ده ها هزار تکه های ویدیویی 2 الی 5 ثانیه ای، گوگل تصمیم دارد به شکلی متفاوت به این فناوری نگاه کند. در واقع نیازی به ساعت ها ضبط صدا نیست، بلکه قطره قطره جمع می شوند و به یک باره دریایی از داده ها را می سازند.
تاثیر بیشتری دارد یا خیر را نمی دانیم ولی مشخص است که قدرت پردازشی بسیار کمتری برای حلاجی کردن این داده ها لازم است. بایدو هم الگوریتم جالبی دارد که پس از یادگیری یک زبان، یادگیری 12 زبان بعدی را بسیار آسان تر می سازد.
در واقع اهمیت این الگوریتم زمانی مشخص می شود که بدانیم ده ها زبان زنده در سراسر جهان داریم و بسیاری از آن ها شاید فقط توسط چند ده هزار نفر مورد استفاده قرار می گیرد و نه میلیون ها یا شاید میلیاردها نفر.
شاید تا پنج سال دیگر و شاید تا ده ها سال دیگر خبری از رویایی که داریم نباشد ولی واضح است که کمپانی ها این مسئله را بیش از هر زمان دیگری جدی گرفته اند.