Mozilla Common voice project is very good as long as it is not abused by totalitarian regimes to eavesdrop on citizens. If you live in such a country, avoid donating your voice.

چه کسی تضمین می‌دهد که از مشارکت در پروژه‌هایی مثل ‌Mozilla Common Voice، برای پیاده سازی سرویس‌های شنود از مکالمات صوتی شهروندان استفاده نخواهد شد؟؟؟ در صورتی که نگران حفاظت از حریم خصوصی خودتان هستید، از مشارکت در این پروژه و به اشتراک گذاشتن صدای خودتان خودداری کنید و به دیگران هم توصیه کنید که این کار را انجام ندهند

RMS praised Mozilla Speech recognition in 2017 as a crucial effort for free speech recognition. In 2018, he feared a surveillance solution build on similar technology licensed under LGPL 2.1.

https://stallman.org/archives/2017-may-aug.html#27_August_2017_(Mozilla_speech_recognition)

https://stallman.org/archives/2018-mar-jun.html#24_May_2018_(Interpol_voice_recognition)

- در ماه می ۲۰۱۷ آقای استالمن در وبلاگ خودش از پروژه موزیلا برای Speech recognition پشتیبانی کرد و آن را بسیار پر اهمیت نامید.
- در ماه می ۲۰۱۸ ایشان از استفاده از نرم افزار آزاد توسط اینترپول انتقاد کرد و آن را روشی برای شنود غیر قانونی دانست.

Having said all of this, only people with hearing impairment could provide a true unbiased opinion on the cost-benefit of "Speech-recognition technology" for each society or country.

با وجود تمام چیزهایی که گفتم، فقط افراد ناشنوا یا کم شنوا هستند که می‌توانند نظر بی‌طرف در خصوص مزایا/معایب تکنولوژی تشخیص گفتار برای هر جامعه یا کشور را بدهند. اگر در شرکتی هستید که روی چنین موردی کار می‌کنید و یک فرد ناشنوا در تیم خودتان ندارید، احتمال دارد که به مسیر غلط با اهداف شوم دارید می‌روید.

@AliMirjamali
با همین فرمون آیا مجاز است که سوال «چه کسی تضمین می‌دهد که از گنو/لینوکس برای سرکوب مردم ایران استفاده نشود؟»
را بپرسیم؟
آگر پرسیدیم و جواب هیچ‌کس بود. حال باید چه کنیم؟ از کمک به پروژه‌های گنو/لینوکسی خودداری کنیم؟
از ارتباط با کسانی که گنو/لینوکس بر روی سیستم خود نصب دارند یا به آن کمک‌رسانی می‌کنند چه؟
@shogath
در این مورد بخصوص یعنی speech recognition یا موردی مثل Face recognition، از نظر من خطرات آن در مقایسه با مزایای آن اینقدر زیاد است که بهتر است از انجام آن اجتناب شود.
@AliMirjamali گنو/لینوکس که پلتفرمی‌تر است و تعداد افراد بیشتری را در برمی‌گیرد.

@shogath
اون مزایای عمومی بیشتری دارد.

در مورد Speech recognition، شخص من ترجیح می‌دهم که منافع جمع کل جامعه را در مقایسه با منافع هموطنان ناشنوایمان اولویت بدهم. احتمالاً آنها هم درک خواهند کرد. الان مایل هستم چند ناشنوا حرفهای من را بخوانند، و بعد نظر بدهند. فقط آنها هستند که می‌توانند نظر بی‌طرف بدهند.

@AliMirjamali ضررهایش هم بیشتر است. دقیقا به خاطر همان پلتفرمیک بودن نرم‌افزار. هر که بامش بیش برفش بیشتر.
در جریان هستم که شرکتی در ایران دارد اقدام به کراول کردن تصاویر چهره افراد می‌کند و آن را هم به صورت آزاد در دسترس هیچ‌کس قرار نخواهد داد.
آیا برای حاکمیتی که بودجه‌های هنگفت برای ارتش‌های سایبری در توییتر خرج می‌کند استخدام کردن همان نیروها برای لیبل گذاری روی دادگانی که جملاتش سیاسی‌تر، حساس‌تر و خاص‌منظورتر بهتر است یا استفاده از دادگان عمومی است و چندان خاص‌منظوره نیست؟
@shogath
هرچه سمپل بیشتر، نتیجه دقیق‌تر. احتمالاً آن هزینه را هم بکنند. یاد ویدیوی یکی از جلسات فمپ (طراحان طرح صیانت) می‌افتم که روی آپارات بود و حامد به اشتراک گذاشته بود. در ویدیو، امیرناظمی به صراحت گفت که ما برای اعمال حاکمیت (بخوایند جایگزی سرویس خارجی با داخلی و سپس مسدود کردن سرویس خارجی)، دست به دامان شرکت‌های دولتی و خصولتی با هزینه گذاف شدیم و موفق نشدیم. بعد به شرکت‌های خصوصی امتیازات محدودی دادیم و آنها انجام دادند.
@shogath
و هرگز فراموش نکنید که در داخل سیستم‌های دولتی، افرادی مدیر و شاغل هستند مشابه شخصی که همین اواخر گفت که "سرمنشاء علم کوانتوم هستیم". در نتیجه پیاده سازی چنین سیستم‌هایی، مجبور به دریوزگی و دست به دامان شدن بخش خصوصی هستند.

@AliMirjamali فقط افراد ناشنوا نیستند. به کمک افراد نابینا هم می‌شود. افرادی که از نعمت خواندن کتاب‌های معمولی عاجزند. کمپین‌هایی مثل کمپین زیر راه افتاده‌اند. اما همواره با کمبود نیروی داوطلب مواجه‌اند:

https://www.instagram.com/p/CHr7I5xnzu1/

استفاده‌های دیگر؟ شما می‌خواهید تلاش کنید که نسخه آزاد Google Home یا Alexa را با برد سخت‌افزاری خود راه‌اندازی کنید.

یا این که شما می‌خواهید کتابخوان خود را مجهز به یک خواننده متن خوب بکنید که فشار کمتری به چشم‌هایتان بیاید.

می‌توان چاقو و چاقوسازی را ممنوع کرد اما کشتار را خیر.

@shogath

با تکنولوژی text-to-speech برای نابینایان هیچ مشکلی ندارم و آن را بسیار خوب و عالی می‌دانم. آینده به ما نشان خواهد داد که چاقوی ساخته شده، چاقوی میوه خوری است یا چاقوی شکاری که کاربردی به جزء کشتن حیوانات و انسان ندارد.

@AliMirjamali
آینده به ما نشان داد که سیستم عامل فیلترکننده و دکمه خاموش اینترنت گنو/لینوکس است.
ای کاش گنو/لینوکس را در نطفه خفه می‌کردیم که همچین چاقوی شکاری در دست سردمداران علم کوانتوم و بخش خصوصی نشود.

@shogath
لینوکس هم یک چاقوی دولبه است. ولی قابل مقایسه نیست. مزایای فراوانی دارد که قطعاً بر معایب آن برتری کامل دارد.

موارد پر فایده دیگر هم هست. .مثلاً OCR training که کاربران علاقمند از کتاب عکس بگیرند و فونت و حروف‌چینی را به نرم‌افزار آموزش دهند (تصحیح یا تایپ مجدد موارد مشکل‌دار).

@AliMirjamali
از دید بنده هر دو قابل مقایسه‌اند. هر دو مزایا و معایب دارند. هر دو مزایاشان از معایبشان بیشتر است. هر دو نرم‌افزار یا دادگان آزادند. نمی‌توانم هضم کنم که یکی با دیگری فرق دارد. هر دو به عنوان ابزار تسهیل‌گر کشتار استفاده می‌شوند. هر دو می‌توانند کیفیت زندگی ما را بهتر کنند.

اگر به یکی ایرادی میگیرید. به صورت خودکار به دیگری نیز وارد است.

@shogath
الان مثلاً از یک OCR فارسی چه استفاده ناجوری می‌شود کرد؟ یا از text-to-speech چه استفاده ناجوری می‌شود کرد؟
@AliMirjamali
همان استفاده‌ای که برای شنود در Speech می‌شود. عکس‌های خام افراد از OCR رد می‌شود و اگر متنی در آن باشد(به همانند Speech) شنود می‌شود.
@shogath
فکر کنم اشتباه می‌فرمایید. من در مورد سرویس تبدیل متن به تکست صحبت می‌کنم و در خصوص عکس صحبتی نکردم. وگرنه من با Face recognition کلاً مخالف هست. چه آزاد و چه غیر آزاد. حالا کاربر به جای اینکه با دوربین و نشان دادن صورت خودش، قفل گوشی را باز کند، به جایش رمز بزند.
@AliMirjamali
سرویس OCR سرویسی است که به آن تصویر می‌دهید (معمولا حاوی متن). اگر OCR متنی ببینید String آن و محل قرارگیری آن در تصویر که به bounding box معروف است را به شما می‌دهد.
@shogath
اصل سرویس OCR مخفف Optical Character Recognition است و برای شناسایی متن. شناسایی تصویر به صورت Bounding box همین الان به خوبی انجام می‌شود و نیاز به machine learning ندارد.
@AliMirjamali بنده به عنوان یک مهندس یادگیری ماشین خدمت شما عرض می‌کنم. بهترین دقت‌ها را در OCR مدل‌های یادگیری عمیق دارند. مدل‌های AWS Textract، Google Cloud Vision بر همین مبنا کار می‌کنند.
@shogath
من پست قبلی شما را الان دیدم و متوجه شدم که اشتباه فهمیدم. شما درست می‌فرمایید.
@AliMirjamali
ساده‌ترین آن استخراج متن استوری‌های اینستاگرام است.
@shogath
در این مورد حق با شما است. البته به نظر من خطرش کم است. اکانتی که ناشناس باشد، با تایپ یک متن یا پست کردن آن به صورت عکس، یک میزان در خطر قرار دارد.

@AliMirjamali @shogath
آیا مشارکت با گمنامی (بدون ایجاد پروفایل خاص و مشخص) هم به نظر شما خطرناکه؟
اگر آره که به نظرم خیلی سخت‌گیرانه است. چون همین الان صدای من و شما و خیلی‌های دیگه در یوتیوب و جاهای دیگه موجوده.
همچنین صوت مکالمات و ....
(هرچند سخت‌تره ولی ممکنه)

اما اینکه کل افراد بدون ایجاد پروفایل خاص مشارکت کنند به نظرم لازمه.

@haghighi @shogath
اصولاً چنین برنامه‌هایی یک model template بخصوص به کاربر می‌دهند که طیف کامل آوای شخص را ضبط کنند. کاربر باید اول از رویش یک بار بخواند. این مقاله خوب توضیح داده:

https://medium.com/ibm-data-ai/watson-speech-to-text-how-to-train-your-own-speech-dragon-part-1-data-collection-and-fdd8cea4f4b8

اگر لهجه یا گویش اندکی با مدلهای موجود در الگوریتم train شده فرق داشته باشد، نیاز به آموزش مجدد الگوریتم برای آن لهجه/گویش وجود دارد. شما با آموزش یک لهجه، بیشتر افراد با لهجه مشابه را برای الگوریتم قابل شناسایی می‌کنید.
(مثال: لهجه انگلیسی/اسکاتلندی/آمریکایی‌مدرن/تگزاسی/استرالیایی/...).

Watson Speech-To-Text: How to Train Your Own Speech “Dragon” — Part 1: Data Collection and…

Over the past years, we’ve seen a lot of AI chatbots deployed in across many organizations. They typically handle general questions about…

@AliMirjamali @haghighi
آفرین. به همین خاطر به شما می‌گویم جمع‌آوری یک میلیون سمپل از ارتش سایبری در مورد عبارت‌های «خامنه‌ای»، «براندازم»، «ولایت فقیه» و غیره با لهجه‌ها و گویش‌های مختلف، با Intonation های مختلف با حالات روحی مختلف(شاد، ناراحت، عصبانی و ...)
به مراتب بهتر از ۱۰ میلیون سمپل جنریک که به ندرت حاوی کلمات بالاست کار خواهد کرد.

@shogath @haghighi
درست می‌فرمایید. شاید (به احتمال زیاد) من اشتباه کرده باشم. من مرده و شما زنده، دو سال دیگر ببینیم که شاهد حضور معادل فارسی و آزاد Alexa یا Google Home Assistant و نرم‌افزارهای آزاد زیر نویس اتوماتیک برای VLC و PeerTube خواهیم بود، یا احضار مردم بدون حکم دادگاه و با script متنی مکالمه تلفن ثابت و موبایل. در حالت دوم، مایلم که «حتی اسم» از دوستانم و افرادی که برایم مهم هستند در توسعه یک سیستم شنود همگانی نباشد.

امیدوارم که من اشتباه کرده باشم و بکنم. هر کسی اشتباه می‌کند.

@AliMirjamali @haghighi
چیزی که حاکمیت نیاز دارد بسیار کوچکتر است ازین پروژه‌ای که موزیلا راه‌اندازی کرده است. اگر پروژه‌های بزرگ برای همه امور کاربردی بودند AGI تا الان به ظهور رسیده بود و ماشین‌ها به جای ما فکر می‌کردند. به همین خاطر Strong AI شکست خورد و به پروژه‌های کوچکتر و خاص‌منظوره‌تر رو آورده شد. اگر می‌بینید مدلی که امروزه برای بینایی ماشین استفاده می‌شود توانایی تشخیص صوت را ندارد علتش همین است.

در هوش‌مصنوعی و بالاخص یادگیری ماشین هر چقدر پروژه خاص‌منظوره‌تر طراحی شود نتیجه بهتری می‌گیرد.
به همین خاطر در همه کتب رفرنس یادگیری ماشین قسمتی را به عنوان No Free Lunch Theorem اختصاص می‌دهند که ذهنیت صحیحی از ابزاری که می‌خواهند توسعه دهند داشته باشند.

@shogath @AliMirjamali من غیر از اون مثال شوگات در مورد گنو لینوکس، با بقیه حرف‌هاش موافقم.
گنو لینوکس و چیز‌های مشابه رو نمیشه چندان شبیه سمپل‌ها و روش‌های تشخیص صوت یا هویت دونست.

چون برای گنو جایگزین کم نیست و به یک بلوغی رسیده که بدون مشارکت ایرانی جماعت همچنان اوکیه.
اما تشخیص صوت هنوز به اون بلوغ عمومی نرسیده و نیاز به کار هست.
و مورد دیگه اینکه کلمات و سمپل‌های خاصی برای این امور لازمه. هرچند بعید میدونم ج.ا. نداشته باشه اینو.

در کل زیاد بدبین بودن باعث انقعال مطلق میشه.

@haghighi @AliMirjamali
به عنوان مثال عرض می‌کنم. iptables رو در نظر بگیرید. تمامی ویژگی‌هایی که جناب جمالی برای یک چاقوی کشتار در نظر دارند را یکجا دارد.
بنده فکر می‌کنم اگر با همان فرمان قضاوت کنیم و طفره نرویم iptables در کشتار آبان ماه ۹۸ مشارکت فعال داشته و تمامی انسان‌هایی(صرفنظر از ایرانی یا خارجی‌ بودنشان) که به توسعه و پیشرفت آن کمک کرده‌اند در آن کشتار دخیلند.

@AliMirjamali
ببخشید چی شد؟
این‌ها چه شباهتی به هم دارند؟
یکیشون انتقاد از حکومته!
مشخص‌ هم هست دیگه، قرار نیست ما مشارکتمون‌ رو توی نرم‌افزار آزاد نکنیم.
قراره حکومت‌ها از بین بروند و دولت‌ها هم تحت فشار قرار بگیرند.
این نوع انتقاده دیگه.
مثلا شما توی گروه OSM هستی ولی منتقدی که یه سری از این دیتا‌ها دارن استفاده می‌کنن در جهت نادرست.

آیا من باید پست بزنم که ببینید آقای میرجمالی خودش مشارکت کننده‌ی OSM هست ولی منتقده به نرم‌افزار‌های ایرانی؟

@alefvanoon
بنده در گروه OSM نیستم و از آن رفته‌ام.
@AliMirjamali
البته که این جواب سوال من نیست!

@alefvanoon
I do not feel obliged to answer to baseless questions from a pseudonym account. All of my posts are bilingual and could be verified for disinformation by moderators (if necessary). If you believe I am spreading disinformation, simply report me to instance moderators.

خودم را موظف به پاسخ دادن بیشتر به اکانت ناشناس با نام مستعار نمی‌دانم. تمام پست‌های اخیر من دوزبانه است و توسط مدیران اینستانس من قابل بازبینی و درستی سنجی است. در صورت انتشار اطلاعات غلط می‌توانید من را ریپورت کنید.

@AliMirjamali
شما که مخالف حکومتی و ترس از اون‌ها دارید چرا با نام مستعار اینقدر مشکل دارید؟؟؟

@alefvanoon
Iranian Constitution has explicitly referred to forbiddance of eavesdropping and interception of conversations in its article 25. If anyone has fears about what I say, it might be those who broke the constitution and are afraid to reveal their identity.

اصل ۲۵ قانون اساسی، شنود عمومی را ممنوع کرده. اگر کسی با حرف من مشکل دارد، شاید از افراد خودسری است که این قانون را در گذشته شکسته و الان هویت خود را مخفی می‌کند. و طبیعی است که من بخواهم از آنها دوری کنم.