راهنما

در این راهنما به معرفی چندین روش، نکته، ایده و الگوریتم می پردازیم که شرکت کنندگان می توانند در کد های خود از آن ها ایده بگیرند و یا اینکه از روش های دیگری جهت به دست آمدن خروجی های مورد نظر استفاده کنند. این راهنما فقط جنبه راهنمایی داشته و اجباری به استفاده از روش های معرفی شده نیست.

در این راهنما از مجموعه داده های انتخاباتی تلماین استفاده میگردد. این مجموعه داده ، گردآوری شده ای از داده های کانال های عمومی تلگرام می باشد که به صورت عمومی در کانال های تلگرام قرار گرفته است و قابل مشاهده برای همگان است و تلماین هیچ گونه مسئولیتی در مورد محتوای پیام ها به عهده نمی گیرد.

اطلاعات به صورت فایل متنی به فرمت json در اختیار تیم ها قرار می گیرد. شرکت کنندگان می توانند با کلیک بر روی این لینک نمونه داده را دانلود نمایند و شروع به نوشتن برنامه خود کنند. پس از آغاز رویداد داده های تکمیلی، همچون مشخصات مورد نیاز از کانال ها و داده های پیام ها در دسترس شرکت کنندگان قرار می گیرد.

در هر فایل حداکثر 10000 متن پیام مربوط به انتخابات موجود در کانال های تلگرام ارائه می گردد.

شرکت کنندگان به هر کاندیدا عددی وزنی نسبت می دهند که در ابتدا به ازای هر کاندیدا صفر می باشد. متن پیام ها را مورد تجزیه و تحلیل قرار می دهند و به ازای هر پیام مرتبط به هر کاندیدا این وزن دستخوش تغییرات مثبت و منفی میگردد.

ایده ۱ - شمارش تعداد برخورد

در این ایده وزن هر پیام در صورت مرتبط بودن با هر کاندیدا برای آن کاندید مثبت یک در نظر گرفته می شود و نتیجه نهایی با شمارش کردن تعداد پیام های هر کاندید و سپس درصد گرفتن محاسبه می گردد.

ایده ۲ – محاسبه وزن پیام ها با در نظر گرفتن ضریب نفوذ اطلاعات کانال های تلگرامی

کانال های تلگرامی بر اساس تعداد کاربران و همچنین تخصص در موضوع انتخابات وزن های متفاوتی خواهند داشت و اعمال این مورد، می تواند دقت نتایج خروجی را بهتر کند. به همراه فایل های اطلاعات پیام ها، فایلی حاوی اطلاعات کانال های انتشار دهنده نیز قرار می گیرد که می تواند برای استفاده در این ایده مورد استفاده قرار بگیرد.

ایده ۳ – تجزیه و تحلیل پیام ها و محاسبه وزن مناسب هر پیام

در این ایده بعد از مشاهده پیام مرتبط به هر کاندیدا ، آن پیام از نظر احساس مورد تجزیه و تحلیل قرار می گیرد. یکی از مجموعه داده های موثر و قدرتمند فارسی در این زمینه لکسی پرس می باشد. بر اساس نقل قولی که از لینک http://dadegan.ir/catalog/lexipers گرفته شده است :

" لغتنامه احساس لِکسی پرس (LexiPers)، شامل زیر مجموعه‌ای از واژگان نسخه دوم فارس‌نت است که با روشی خودکار و با سه برچسب مثبت، منفی و خنثی برچسب‌گذاری شده‌اند. فاز اول این پروژه در حال حاضر به اتمام رسیده و طی فازهای بعدی، کیفیت برچسب‌های فعلی بهبود داده خواهد شد. هرچند، طی فاز اول، به عنوان بخشی از فرایند ابتدایی پروژه، کلیه مجموعه‌های ترادف دارای نقش صفت، تعداد ۴۲۶۱ مجموعه، به صورت دستی و با هوش انسانی تحت عنوان مجموعه دانه (seed set) برچسب‌گذاری شده‌اند. این مجموعه دانه می‌تواند به عنوان یک استاندارد طلایی (gold standard) و حتی یک مجموعه دانه اولیه برای توسعه و یا آزمودن سیستم‌های برچسب‌گذاری لغات و دسته‌بندی اسناد مورد استفاده قرار گیرد. ذکر این نکته نیز ضروری است که هر ورودی در این مجموعه، شناسه متناظر (synset id) در مجموعه فارس‌نت را نیز به همراه خود دارد، بنابراین به راحتی می‌توان مجموعه متناظر هر ورودی در این مجموعه دانه در فارس نت را یافت.

مالکیت معنوی:

آزمایشگاه پردازش زبان طبیعی دانشگاه صنعتی شریف و گروه پردازش زبان طبیعی دانشگاه گیلان

شرایط استفاده:

- استفاده از این پیکره با ذکر منبع و برای هرگونه فعالیتی اعم از پژوهشی یا تجاری بلامانع است."

شرکت کنندگان با قبول شرایط استفاده و رعایت همه حقوق مجموعه لکسی پرس می توانند در زمان ثبت نام نسبت به دریافت این مجموعه اقدام کنند.

نکته مهمی که می تواند در یافتن نتایج موثر باشد استفاده از جستجوگر مناسب در متن پیام هاست. این جست و جو گر ها که با عنوان Full Text Search شناخته می شوند با جست و جوی مناسب و بهینه کلمات مرتبط به عبارت جست و جو شده را می یابند. Apache Lucene یکی از قدرتمندترین ابزار های FTS شناخته می شود. به عنوان مثال فعل "رفت" و "می روم" از نظر معنایی معنایی به هم مرتبط هستند و قبل از جستجو، این کلمات باید به ریشه هایشان تبدیل شوند و مورد جست و جو قرار گیرند. ریشه این دو فعل "رو" می باشد. برای کسب اطلاعات بیشتر به توضیحات پروژه hazm در لینک https://github.com/sobhe/hazm مراجعه فرمایید.