خوشه بندی اسناد متنی مبتنی بر مفاهیم همسایگی و شباهت معنایی

اگر به یک وب سایت یا فروشگاه رایگان با فضای نامحدود و امکانات فراوان نیاز دارید بی درنگ دکمه زیر را کلیک نمایید.

ایجاد وب سایت یا
فروشگاه حرفه ای رایگان

دسته بندی سایت

آرشیو محصولات فایلی

کتب مهندسی کامپیوتر و هک و امنیت

ترجمه مقالات به همراه اصل مقاله

پایان نامه برنامه نویسی مقاطع کاردانی و کارشناسی

پایان نامه های رشته مهندسی کامپیوتر

آموزش مسائل بهداشت زنان و بارداری

برنامه ها و سورس کدهای برنامه نویسی

علوم نوین در کامپیوتر و فن آوری اطلاعات

پروژه های برنامه نویسی به زبانه های سطح پایین ، سطح بالا و سطح میانی

پایان نامه های کارشناسی و کارشناسی ارشد

محبوب ترین ها

پرفروش ترین ها

پر فروش ترین های فورکیا

آموزش نحوه تهیه مدار چاپی

پر بازدید ترین های فورکیا

برچسب های مهم

شبکه های عصبی تجارت الکترونیک الگوریتم Bayes پشته برنامه صف فیشینگامنیت اطلاعاتمقاله فیشینگپیاده سازی پرژه هش کردن متنپیاده سازی پروزه درس بازیابیبرج هانوی گرافیکی

پیوند ها

آمار بازدید

بازدید امروز : 22
بازدید دیروز : 6
بازدید کل : 76391

خوشه بندی اسناد متنی مبتنی بر مفاهیم همسایگی و شباهت معنایی

متن کاوی فناوری ایجاد شده جهت کنترل داده های متنی در حال رشد است که در جهت برچینی اطلاعات معنی دار از متون زبان طبیعی تلاش می کند. متن کاوی یعنی جستجوی الگوها در متن غیرساخت یافته و برای کشف خودکار دانش مورد علاقه یا مفید از متن نیمه ساخت یافته استفاده می-شود [Tan 2005].
متن کاوی تقریبا معادل با تجزیه و تحلیل متون است که وظیفه آن استخراج اطلاعات با کیفیت بالا از متن می باشد [Kan 2007]. در موارد معدودی نیز به عنوان فرآیند تحلیل متن جهت استخراج اطلاعاتی که برای اهداف خاصی مفید هستند، تعریف می شود. در زمینه کاوش متن معمولا با متونی مواجه هستیم که وظیفه آنها ارتباط اطلاعات حقیقی و یا عقاید می باشد و هدف آن استخراج خودکار اطلاعات از چنین متونی می باشد، هر چند موفقیت جزئی حاصل گردد [Kan 2007].
به طور کلی متن کاوی جهت مشخص کردن سیستمی که بتواند حجم زیادی از متون زبان طبیعی را تحلیل کند و الگوهای مفید زبانی و لغوی را شناسایی کرده و به دنبال آن اطلاعات احتمالا مفید را استخراج کند، استفاده می شود [Fan 2005]. شکل ۱-۱ یک مدل کلی از یک کاربرد متن کاوی را نشان می دهد. این مدل با مجموعه ای از اسناد شروع می شود، یک ابزار متن کاوی، یک سند خاص را بازیابی و پیش پردازش می کند. سپس یک مرحله تحلیل متن انجام شده و در مواقعی از شیوه-های مکرر تا استخراج اطلاعات استفاده می شود. سه روش تحلیل متن در این نمونه نشان داده شده اما بسیاری از ترکیبات دیگر نیز بر اساس اهداف سازماندهی می توانند استفاده شوند. اطلاعات حاصل می تواند در یک سیستم مدیریت اطلاعات قرار داده شود و در نهایت حجم وسیعی از دانش برای کاربر آن سیستم فراهم می شود [Fan 2005].
گاهی به جای واژه متن کاوی از عبارت “کشف دانش از متن” (KDT )، استفاده می شود [Sha 2005]. معمولا وظایف متن کاوی شامل طبقه بندی متن، خوشه بندی متن ، استخراج مفهوم، تحلیل معنایی، خلاصه سازی متن و مدل سازی روابط میان نهادها می باشد .

خوشه بندی، روش داده کاوی قدرتمندی است که جهت کشف موضوع از اسناد متنی مورد استفاده قرار می گیرد. در این زمینه الگوریتم های خانواده k-means به دلیل سادگی و سرعت بالا، در خوشه بندی داده هایی با ابعاد بالا، کاربرد فراوانی دارند. در این الگوریتم ها، معیار شباهت cosine، تنها شباهت میان زوج اسناد را اندازه گیری می کند که در مواقعی که خوشه ها به خوبی تفکیک نشده باشند، عملکرد مناسبی ندارد. درمقابل، مفاهیم همسایگی و اتصال با در نظرگرفتن اطلاعات سراسری در محاسبه میزان نزدیکی دو سند، عملکرد بسیار بهتری دارند. چنانچه میزان شباهت دو سند از حد آستانه ای بیشتر باشد آن دو سند همسایه اند و تعداد همسایه های مشترک میان آنها، مقدار تابع اتصال این دو سند را نشان می دهد. بنابراین با توجه به اینکه تنها دو حالت همسایگی و عدم همسایگی داریم که با صفر و یک نمایش داده می شوند، مقداری از اطلاعات را در مورد میزان شباهت میان اسناد از دست می دهیم که منجر به کاهش دقت خوشه بندی حاصل می شود. جهت رفع این مشکل، در گام اول لیستی از مقادیر گسسته را برای تعیین بازه ای از مقادیر آستانه به جای تنها یک مقدار، در نظر گرفتیم که به دنبال آن درجات متفاوتی از همسایگی، بر اساس میزان شباهت میان اسناد خواهیم داشت. همچنین جهت افزایش هر چه بیشتر دقت نتایج حاصل، از منطق فازی نیز بهره برده و مقدار شباهت میان اسناد را با استفاده از مقادیر عضویت فازی نمایش دادیم. به این ترتیب میزان همبستگی میان اسناد را با استفاده از منطق فازی بهبود داده و گام جدیدی در کاربردهای منطق فازی برداشتیم.
همچنین در این مدل، روابط معنایی میان کلمات نادیده گرفته شده و تنها اسنادی با واژگان مشابه با یکدیگر مرتبط شده اند. در این پروژه پایانی از آنتولوژی WordNet جهت ایجاد مدل جدید نمایش اسناد بهره بردیم، بدین صورت که در آن از روابط معنایی به منظور وزن گذاری مجدد بسامد کلمات در مدل فضای برداری اسناد استفاده شده است. سپس مفاهیم همسایگی و اتصال را بر روی مدل حاصل اعمال نمودیم. نتایج حاصل از اعمال روش های پیشنهادی و ترکیبات آنها بر روی مجموعه داده های متن واقعی، حاکی از عملکرد موثر و مناسب تر الگوریتم پیشنهادی ما نسبت به روش های پیشین می-باشد و می تواند جایگزین خوبی برای الگوریتم های پیشین در امر خوشه بندی اسناد باشد.

انتشار : ۱۳ مهر ۱۳۹۶ تعداد بازدید : 711

آموزش نحوه تهیه مدار چاپی

همه کسانی که در زمینه طراحی و ساخت مدارات الکترونیکی فعالیت می کنن و با مدارات آزمایشی سر و کار دارند با مسائل مربوط به استفاده از فیبر سوراخدار و مدارات چاپی آشنا هستند. معمولا برای پیاده سازی مدارات کوچک از فیبر های سوراخدار آماده موجود در بازار استفاده می کنیم. ولی زمانی ... ...

دریافت فایل : آموزش نحوه تهیه مدار چاپی