بهداشت و سلامت (بازدید: 981)
يکشنبه 15/5/1391 - 0:24 -0 تشکر 491687
کاربرد سامانه های هوشمند بازشناسی و تبدیل صحبت به متن فارسی در اعطای فرصت های برابر به معلولان


 

فناوری جدید دیجیتال، در قالب سیستم های تشخیص و تبدیل صحبت به متن، می تواند ابزار مناسبی در افزایش راحتی زندگی و بهره وری معلولان و اعطای فرصت های برابر به ایشان باشد.در این مقاله پس از بررسی انواع سیستم های هوشمند تبدیل صحبت به متن، مروری بر تاریخچه این سیستم ها خواهیم داشت.
گفتار برای بشر طبیعی ترین و کارآمدترین ابزار مبادله اطلاعات است؛ بنابراین ارتباط با ماشین به وسیله گفتار از آرزوهای اوست.اولین طرح مسأله، مانند بسیاری از موارد دیگر، در داستان ها و فیلمهای تخیلی دیده می شود که در واقع انعکاسی از آرزوهای بشر است.تشخیص گفتار، هدف تحقیقاتی مراکز دانشگاهی و پژوهشی بسیاری در نیم قرن اخیر بوده است.هدف نهایی در بازشناسی گفتار،خلق ماشین هایی است که بتوانند مانند انسان بشنوند و عکس العمل مناسب نشان دهند.
فناوری تشخیص گفتار به رایانه ای که توانایی دریافت صدا را دارد و به امکانات چند رسانه ای مجهز است این قابلیت را می دهد که صحبت کاربر را درک کند.این فناوری در تبدیل گفتار به متن ویا به عنوان جایگزینی برای صفحه کلید یا ماوس برای وارد کردن دستورات مورد استفاده قرار می گیرد.سیستم های تشخیص دهنده گفتار انواع مختلفی دارند، بعضی قادرند گفتار پیوسته را شناسایی نمایند، بعضی دیگر فقط می توانند گفتار گسسته (که بین کلمات سکوت وجود دارد)را تشخیص دهند.همچنین سیستم ها قادرند کلمات بیان شده توسط افراد مختلف و یا فقط توسط یک گوینده مشخص را تشخیص دهند.به هر حال ایده آل ترین سیستم آن است که بتواند گفتار پیوسته و غیر وابسته به گوینده را در محیط عادی و دارای شلوغی و سر و صدا (محیط آغشته به نویز)شناسایی نماید.این سیستم ها با بکارگیری روش های مختلف طبقه بندی و شناسایی الگو قادر به تشخیص کلمات هستند که البته به افزایش دقت در شناسایی از یک فرهنگ لغات نیز در انتهای سیستم معمولاً استفاده می شود.اما به هر جهت عنصر اصلی سیستم یک مکانیزم تشخیص گفتار مبتنی بر تکنیک های پردازش سیگنال و هوش مصنوعی است.

آیا کامپیوتر و هوش مصنوعی می توانند به معلولان کمک کنند؟

معلول به کسی گفته می شود که بر اثر نقص جسمانی یا ذهنی، اختلال قابل توجهی به طور مستمر بر سلامت و کارایی عمومی، او به وجود آید.به طوری که این اختلال، از استقلال فردی، اجتماعی و اقتصادی وی بکاهد.این گروه، شامل ناشنوا، نابینا، و معلول جسمی و معلول ذهنی است.سیستم تشخیص گفتار، ابزاری برای نوشتن است که برای افراد ناتوان راهی برای ارتباط با رایانه با کارآیی بالاتر ایجاد می کند.تشخیص گفتار ادامه فناوری نوشتن از طریق ورود صدا به رایانه است.که می توان به وسیله آن صدای خود را به رایانه آموزش داد و از آن برای نوشتن در ویرایشگر لغات (مثلاً ms- word)، یا ایجاد یک پیام پستی الکترونیکی استفاده کرد.همچنین می توان از آن برای اجرای دستورات رایج سیستم عامل مثل ذخیره کردن، چاپ، یا کنترل مکان نما استفاده کرد.سیستم های تشخیص گفتار رشد خوبی داشته اند و در سالیان اخیر به طور عمومی و با قیمت های مناسبی عرضه شده اند.

سیستم های تبدیل صحبت به متن هوشمند هوش مصنوعی و سیستم های هوشمند

هوش مصنوعی، دانش ساختن ماشین ها یا برنامه های هوشمند است.تعریف دیگری که از هوش مصنوعی می توان ارائه داد به قرار زیر است:هوش مصنوعی، شاخه ای است از علم کامپیوتر که ملزومات محاسباتی اعمالی همچون ادراک،یادگیری،آموزش و استدلال را بررسی کرده و سیستمی جهت انجام چنین اعمالی ارائه می دهد .یا می توان گفت:هوش مصنوعی، مطالعه روش هایی است برای تبدیل کامپیوتر به ماشینی که بتواند اعمال انجام شده توسط انسان را انجام دهد.پس منظور از موجود یا ماشین هوشمند، چیزی است شبیه انسان و ابزار یا ماشینی که قرار است به انسان تشبیه شود.
گرچه بعضی جنبه های ادراک انسان همچون دیدن و شنیدن کاملاً ضعیف تر از موجودات دیگر است.علاوه بر این، کامپیوتر های امروزی با روش هایی کاملاً منطبق با منطق (Logic)توانسته اند در برخی جنبه ها مثل سرعت و دقت در محاسبات، فراتر از توانایی های انسان عمل کنند.

پردازش صحبت

پردازش صحبت (Speech Processing)عبارت است از فعالیت هایی که در زمینه بهبود، تشخیص، و تولید (ترکیب)صحبت توسط ماشین انجام می شود.(Synthesize)صحبت عبارت است از فناوری تولید مصنوعی صحبت به وسیله ماشین و به طور عمده از متن تایپ شده یا فایل حاوی متن به عنوان ورودی آن استفاده می گردد.بسیاری از تولیدات تجاری که صدایی شبیه به صحبت انسان ایجاد می کنند، در واقع ترکیب صحبت انجام نمی دهند بلکه تنها یک بخش ضبط شده به صورت دیجیتال از صدای انسان را پخش می کنند.این روش کیفیت صدای بالایی ایجاد می کند اما به واژه ها و عبارات از پیش ضبط شده محدود است.از کاربردهای عمده ترکیب صحبت می توان به ایجاد ابزارهایی برای افراد دارای ناتوانی بینایی برای مطلع شدن از آنچه روی صفحه کامپیوتر می گذرد اشاره کرد.
تشخیص صحبت پتانسیل جایگزینی نوشتن، تایپ روی صفحه کلید و کنترل توسط کلیدها و دکمه ها را دارا است، اما بواسطه عدم قطعیت ناشی از ضعف سیستم های تشخیص فعلی، راه زیادی تا جانشینی کامل یا نسبی واسطه های امروزی با واسطه های متکی بر تشخیص صحبت باقی مانده است.ترکیب صحبت علاوه بر آن که همانند تشخیص صحبت می تواند استفاده از کامپیوتر را برای کلیه افراد ناتوان بدنی که دارای توانایی های شنوایی و گفتاری مناسب هستند، آسانتر سازد، به عنوان یک وسیله ی خروجی کاربر پسند در محیط های مختلف می تواند جایگزین بسیاری از علائم بصری مانند چراغ ها و نشانگرها، یا شنیداری مانند زنگ های اخطار و امثالهم گردد و کارایی بالاتری نیز داشته باشد.

سیستم های تشخیص گفتار

سیستم های تشخیص گفتار همگی در یک ویژگی مشترک هستند و آن «لزوم درونداد به صورت صوتی».این سیستم ها را براساس بروندادی که ارائه می کنند می توانیم به چند دسته تقسیم بندی کنیم:
الف.سیستم های گفتار به متن
ب.سیستم های گفتار به فرامین
ج.سیستم های گفتار به گفتار
کمک به افرادی که بر اثر بلایای طبیعی یا مصنوعی معلول شده اند که ممکن بود (و ممکن است)ما هم یکی از آنها باشیم، بر همگان لازم است.امروزه پیشرفت سریع تکنولوژی های مختلف، در کنار بهبود سطح رفاه و آسایش عامه مردم، موجب برآورده شدن برخی از نیازهای معلولین نیز شده است.رایانه ها به عنوان یکی از جلوه های تکنولوژی امروزی، در کاربردهای زیادی مورد استفاده معلولین قرار گرفته و آنها را در انجام امور روزمره، آموزش، و اشتغال یاری می نماید.سیستم های بازشناسی و یا تشخیص گفتار به عنوان یکی از زمینه های دانش هوش مصنوعی بسیاری از کارهای غیر ممکن را برای معلولین ممکن خواهد ساخت.سیستم هایی که گفتار انسان را به متون تایپ شده معادل و یا به فرامین متناسب تبدیل می کنند، علاوه بر استفاده توسط افراد عادی، افراد نابینا و ناتوان حرکتی را نیز قادر می سازد تا درخواست های خود را به جای استفاده از ماوس و یا صفحه کلید به صورت گفتاری و مثلاً از طریق میکروفون به رایانه وارد کنند.نیز بتوانند وسایل منزل و خودرو را با فرامین صوتی کنترل نمایند.همچنین آموزش ناشنوایان را با تبدیل گفتار معلم به حرکات زبان اشاره امکان پذیر می سازد، و افراد نابینا را قادر به استفاده از ماشین هایی که نیاز به ورود اطلاعات و تعامل دارند (مانند خودپردازها)می سازد.برخی از کاربردهای این تکنولوژی با رویکردی به معلولین در ادامه فهرست شده اند.

تایپ گفتاری و سیستم دیکتا فون

با تایپ گفتاری دیگر احتیاجی به تایپ نمودن با صفحه کلید نیست بلکه می توان اطلاعات را برای سیستم به صورت گفتاری بیان کرد و کار تایپ به صورت خودکار انجام می گیرد.این امر می تواند باعث افزایش سرعت ورود اطلاعات و افزایش سرعت تایپ گردد و می تواند در کاربردهایی مانند تایپ متن نامه و گزارش به کار گرفته شود.معلولین حرکتی و بینایی می توانند به کمک این سیستم به راحتی متون خود را تایپ کنند.این تکنولوژی به ویژه زمانی که افراد ملزم به تایپ مکرر هستند اهمیت پیدا می کند، زیرا برای مثال بیماری سندرم کانال مچی (Carpal Tunnel Syndrome)که یکی از انواع آسیبهای ناشی از تکرار است در استفاده تکرار شونده از کیبورد برای تایپ پدید می آید.با استفاده از سیستم های تشخیص صدا و تایپ با کیبورد به طور همزمان می توان از بروز این گونه آسیب ها جلوگیری کرد.همچنین افراد توانجو (مثلاً معلولان قطع دست یا نابیانایان)، یا کسانی که به هر نحو قادر به تایپ کردن نیستند، می توانند خود را با آن سیستم ها تطبیق دهند و از آنها به طور مؤثری استفاده کنند .حتی گزارش شده است که استفاده از یک نرم افزار تشخیص صدا به یک مرد مبتلا به بیماری «زبان پریشی»کمک کرده است که بتواند عقایدش را در قالب زبان نوشتاری بیان نموده و با اطرافیان خود ارتباط برقرار کند.

سیستم های تلفنی

قابلیت های گفتاری هوشمند را می توان به سیستم های تلفنی خودکار که با مکانیزم تُن کار می کنند ، اضافه کرد.امکان استفاده از گفتار با توجه به سریعتر نمودن و راحت تر نمودن ارتباط، می تواند ارزش این سیستم ها را دو چندان نماید و افراد معلول را قادر به استفاده از این سیستم ها نماید.این تکنولوژی می تواند در همه کاربردهای سیستم های تلفنی، مانند منشی های تلفنی (جهت متصل نمودن تماس گیرنده با یک فرد یا یک بخش با بیان گفتار نام فرد یا بخش به جای زدن کلمه ها)، سیستم های ارتباط با مشتری، سیستم های تلفن بانک، سیستم های اطلاع رسانی، قرآن تلفنی، راهنماهای (Directories)گویای تلفنی، فرمها و نظر سنجی های تلفنی، رزرواسیون تلفنی بلیط با شبیه سازی مکالمه انسانی (در پایانه های حمل و نقل، سینماها، تئاترها)، و مانند آنها به کار رود.

نمونه های عملیات موبایل ناشنوا

کارشناسان رایانه ای، نرم افزار جدید ویژه استفاده در تلفن همراه را برای ناشنوایان ابداع کرده اند که به صورت همزمان صحبت های طرف مقابل را به متن تبدیل کرده و برای فرد ناشنوا نمایش می دهد و از سوی دیگر، متن تایپ شده توسط ناشنوا را به صورت صوت برای فرد مقابل ارسال می کند.انجمن ملی ناشنوایان انگلیس اعلام کرده است که فن آوری جدید ابداعی این انجمن با نام «تایپ تاک» (Type- talk)، هم اکنون برای مشتریان شرکت مخابراتی وودافون درانگلیس قابل استفاده است و سایر ارائه دهندگان خدمات تلفن همراه نیز می توانند با طی مراحل قانونی، فن آوری جدید را برای مشترکان خود به کار بگیرند.کارشناسان انجمن سلطنتی ناشنوایان، کم شنوایان و افراد عادی، کمک بزرگی به این جمعیت از معلولین جامعه ارائه کرده و آنها را از نعمت برقراری تماس تلفنی با دیگران، برخوردار می کند.

تلفن ناشنوا

در کشور نیوزلند یک سرویس جدید تلفنی برای افراد ناشنوا و یا کسانی که دچار نقص شنوایی و گفتاری هستند مورد بهره برداری قرار گرفته است.این سرویس تحت عنوان "NZRely"به این افراد امکان می دهد که با استفاده از تلفن های عادی و به وسیله ارسال پیام های متنی بتوانند مکالمات خود را انجام دهند.

با صحبت گوینده، امکان نوشتن در تمام محیط های تایپی(مانند Word، سیستم های اتوماسیون و غیره)قابلیت تایپ اعداد و علائم نگارشی (مانند نقطه، علامت سؤال و مانند آن)با گفتار شامل تمامی کلمات پرکاربرد زبان فارسی ، قابلیت یادگیری لهجه و لحن بیان گوینده و ایجاد پروفایل شخصی برای هر گوینده، توانایی تطبیق با شرایط محیطی جدید و حفظ کارایی در شرایط نویزی، امکان افزودن کلمه جدید به واژگان نرم افزار توسط کاربر، قابلیت تخصصی نمودن دایره کلمات برای کاربردهای خاص، نصب نرم افزار به صورت تک نسخه یا تحت شبکه.نویسا از نظر کارایی به سیستم تشخیص بصری حروف (Optical Character recognition:OCR) مشهور و پرطرفدار readiris مخصوص زبان عربی که محصولی از شرکت Alssakhar می باشد نزدیک است.

پیشنهادهای نکات فنی

حرکت به سمت ایده برداری مستقیم تر از روال تشخیص صحبت توسط انسان و بنوعی فراهم آوردن مجموعه ای از تکنیک های توامان سطح پایین(پردازش و شکل دهی به سیگنال ها، استخراج مشخصه ها)، و سطح بالا (ریخت شناسی صحبت، شبکه های معنایی (Semantic web)و پدیده های تشخیصی (congnitive)ممکن است بازدهی، انعطاف، و دقت سیستم های تبدیل صحبت به متن را افزایش دهند.
همچنین جهت بهبود و نوآوری در این سیستم ها می توان بیش از پیش از شبکه عصبی مصنوعی استفاده نمود.یک شبکه عصبی مصنوعی (ANN :Artifical Neural Networks)ایده ای است برای پردازش اطلاعات می پردازد.عنصر کلیدی این ایده، ساختاری جدید برای پردازش اطلاعات است.این سیستم از شمار زیادی عناصر پردازشی فوق العاده بهم پیوسته تشکیل شده (همان نرون ها)که برای حل یک مسأله با هم هماهنگ عمل می کند.ANN ها، نظیر انسان ها، با مثال یاد
می گیرند.یک ANN برای انجام وظیفه ای مشخص، مانند شناسایی الگوها و دسته بندی اطلاعات، در طول یک پروسه یادگیری، تنظیم می شود.در سیستم های زیستی یادگیری با تنظیماتی در اتصالات سیناپسی که بین اعصاب قرار دارد همراه است.این روش با تغییر وزن های اتصالات بین نرون ها در شبکه های عصبی مصنوعی شبیه سازی می شود.

نکات اجرایی

از حدود دو دهه قبل تاکنون تحقیقات متعدد و وسیعی در دانشگاه های کشور در زمینه سیستم های هوشمند تشخیص صحبت صورت گرفته است که ضمن تقدیر از نتایج علمی این تحقیقات، بایستی اذعان نمود که تابحال محصول عملی شاخص و چندانی از آنها حاصل نگردیده است.برای بیش از پیش عملی نمودن نتایج این تحقیقات، تعامل بیشتر میان کاربران تحقیقات (وزارت بهداشت، دانشکده های علوم پزشکی، بنیاد های مسئول در قبال جانبازان و معلولان)و مجریان تحقیق (عمدتاً دانشکده های فنی)ضروری بنظر می رسد.همچنین تشویق بخش خصوصی به سرمایه گذاری در زمینه تولید عملی محصولات تکنولوژی بالای مفید برای معلولان، حاصل از تحقیقات دانشگاهی، نیز مفید خواهد بود.منشأ این گونه شرکتها می تواند شهرک ها و پارک های فناوری وابسته به دانشگاه ها باشد.در پژوهش ها نیز عنایت بیشتر به نکات و محدودیت های عملی و لحاظ نمودن امکان پیاده سازی سخت افزاری ایده ها قابل پیشنهاد است.ضمن اینکه وجود یک بانک داده استاندارد الگوهای تست و آزمون به مقایسه منصفانه تر نتایج تحقیقات مختلف با موضوع سیستم های هوشمند تبدیل صحبت به متن فارسی منجر خواهد گردید.

نتیجه گیری

استفاده از گفتار به عنوان درونداد اطلاعاتی علاوه بر سرعت، در نحوه تعامل انسان بر محیط تأثیر بسزایی داشته است.باوجودی که در حال حاضر سیستم های زیادی برای تشخیص گفتار وجود دارد ولی همه این دستاوردها به گونه ای، دسته ای از محدودیت های ساده کننده را یدک می کشند که حذف این محدودیت ها می تواندبه صورت قابل ملاحظه ای بر پیچیدگی این سیستم ها بیفزاید.هدف نهایی در سیستم های « تشخیص گفتار»ایجاد سیستم هایی است که بتوانند مانند انسان بشنوند و عکس العمل مناسب نشان دهند.تاکنون گروه ها و حوزه های مختلف، هر یک به فراخور نیاز خود در انجام فعالیت هایشان از این فناوری استفاده کرده اند.اما در ایران این فن آوری عملاً کمتر گسترش یافته که این می تواند برآیندی از عدم شناخت کاربران و ضعف های احتمالی سیستم های داخلی در شرایط عملی باشد.
این سیستم ها، در صورت نشان دادن کارایی مطلوب، می توانند بر آسایش معلولان بیفزایند و به آنان در راستای استفاده از موقعیت ها در جامعه کمک نمایند.سرمایه گذاری وسیع در راستای تولید و همچنین اشاعه این سیستم ها مابین معلولان، منطقاً قابل توصیه است، ضمن اینکه دارای توجیه اقتصادی نیز هست.
منبع: نشریه نوآور، شماره 65

اگر آدم دنیا رو هم داشته باشه ولی اخلاق نداشته باشه هیچ فایده ای نداره
برو به انجمن
انجمن فعال در هفته گذشته
مدیر فعال در هفته گذشته
آخرین مطالب
  • آلبوم تصاویر بازدید از کلیسای جلفای...
    آلبوم تصاویر بازدید اعضای انجمن نصف جهان از کلیسای جلفای اصفهان.
  • بازدید از زیباترین کلیسای جلفای اصفهان
    جمعی از کاربران انجمن نصف جهان، در روز 27 مردادماه با همکاری دفتر تبیان اصفهان، بازدیدی را از کلیسای وانک، به عمل آورده‌اند. این کلیسا، یکی از کلیساهای تاریخی اصفهان به شمار می‌رود.
  • اعضای انجمن در خانه شهید بهشتی
    خانه پدری آیت الله دکتر بهشتی در اصفهان، امروزه به نام موزه و خانه فرهنگ شهید نام‌گذاری شده است. اعضای انجمن نصف جهان، در بازدید دیگر خود، قدم به خانه شهید بهشتی گذاشته‌اند.
  • اطلاعیه برندگان جشنواره انجمن‌ها
    پس از دو ماه رقابت فشرده بین کاربران فعال انجمن‌ها، جشنواره تابستان 92 با برگزاری 5 مسابقه متنوع در تاریخ 15 مهرماه به پایان رسید و هم‌اینک، زمان اعلام برندگان نهایی این مسابقات فرارسیده است.
  • نصف جهانی‌ها در مقبره علامه مجلسی
    اعضای انجمن نصف جهان، در یك گردهمایی دیگر، از آرامگاه علامه مجلسی و میدان احیا شده‌ی امام علی (ع) اصفهان، بازدیدی را به عمل آوردند.
  • وبگردی