File:یافتن کاربران مشابه در انباره داده توسط روش فیلترینگ مشارکتی CF.png
یافتن_کاربران_مشابه_در_انباره_داده_توسط_روش_فیلترینگ_مشارکتی_CF.png (297 × 268 pixels, file size: 9 KB, MIME type: image/png)
Captions
Summary
[edit]Descriptionیافتن کاربران مشابه در انباره داده توسط روش فیلترینگ مشارکتی CF.png |
فارسی: یک معیار یا یک معیار تشابه (SM) شباهت بین جفت¬های کاربران (فیلتر همبستگی کاربر به کاربر) یا شباهت بین جفت¬های موارد (فیلتر همبستگی مورد به مورد) را تعیین می¬کند. بدین منظور امتیازبندی¬های همه موارد امتیاز¬بندی شده توسط دو کاربر (کاربر به کاربر) یا امتیاز¬بندی¬های همه کاربرانی که دو مورد را رتبه¬بندی کرده¬اند (مورد به مورد) را مقایسه می-کنیم.
با توجه به دیاگرام پیشنهادی بالا،کاربر هدف جهت پیدا کردن خوشه مشابه خود بعد از عملیات خوشهبندی لازم است که k تا کاربر مشابه خود را بیابد در انجام این عملیات یک سوال متداول در این رابطه وجود داردکه: "کاربر هدف بعد از خوشهبندی چطور خوشه مشابه خود را پیدا میکند؟" برای پاسخ دادن به سوال بالا باید چندین معیار را در نظر بگیریم از جمله این معیارها پیچیدگی زمانی،حافظه،زمان جستجوی بهینه و ... وجود دارد. در پی پاسخ دادن به سوال بالا داریم که حال یک پرسش مبتنی بر پرسش قبلی وجود دارد که به شرح زیر میباشد: "کاربر هدف بعد از یافتن خوشهی مشابه چگونه آیتمها به کاربر هدف پیشنهاد داده میشود؟" رایج ترین الگوریتم مورد استفاده در روش فیلترینگ مشارکتی، الگوریتمKNN می باشد. در این الگوریتم دو رویکرد وجود دارد. رویکرد اول نگاهی کاربر به کاربر یا user-to-user به سیستم دارد. الگوریتم k-NN یک پیشنهاد خوبی برای یافتن خوشههای مشابه با کاربر جدید که بتواند در کنار K تا کاربر مشابه خود قرار بگیرد وجود دارد در بعضی مقالات از با نامهای جستجوی مجاورت، جستجوی همسانی یا جستجوی نزدیک ترین نقطه شناخته و یا K نزدیکی همسایه نیز شناخته میشود که در این قسمت روش کار در این الگوریتم را تشریح میکنیم. در نسخه کاربر به کاربر kNN سه کار زیر را برای ایجاد پیشنهادهایی برای یک کاربر فعال انجام میدهد: (1) k همسایه کاربر (همسایگی) را برای کاربر فعال a معین می¬کند؛ (2) یک روند تجمع با امتیازبندی¬های همسایگی در موارد امتیاز¬بندی نشده توسط a انجام می¬دهد؛ و (3) پیش¬بینی¬ها را از مرحله 2 استخراج می¬کند سپس N توصیه اول را انتخاب می¬کند. در سیستمهای پیشنهاد دهنده برای ارائه بهترین پیشنهاد یا پیشبینی نیازمند یکسری دادههای از قبل بوده که بر اساس امتیازدهی به آیتمها توسط یکسری کاربران به کاربران هدف باشد در صورتی که دیتاست مربوط به سیستمهای پیشنهاد دهنده مرتب و یا به عبارتی توسط الگوریتمهای خوشهبندی که در این پژوهش مطرح شد خوشهبندی از قبل صورت گرفته باشد(دیتاست خوشهبندی شده) که در بخش قبل بررسی کردیم که با استفاده از فیلترینگ همبستگی در بخش قبل معیارهای آن تشریح شد. اما اکنون و همیشه طبقهبندی برای سیستمهای پیشنهاد دهنده مهم بوده و خواهند بود که در زندگی روزمره افراد در حال مقایسه پدیدههای اطراف خود هستند مانند غذای خوب،فیلمهای تاثیرگذار و آدم حساس و ... معمولا هر زمانی که قصد داریم یک طبقهبندی داشته باشیم ولی ایدهای نداشته باشیم سعی میکنیم که با توجه به دادههای قبلی به نتیجه برسیم.منطقی به نظر میرسد به عنوان مثال موسیقی،فیلم وکتاب میتوانند مثالهای ملموسی باشند مثلا وقتی که یک موسیقی را قبلا گوش دادهاید میتوانید موسیقی گوش داده شده را جزء کدام دسته از موسیقیها باشد مثل پاپ،کلاسیک یا سنتی باشد،یا در مورد هر پدیده دیگری که بخواهیم طبقهبندی کنیم به همین شکل باشد.سپس با تکیه بر این مثال به الگوریتم برمیگردیم که الگوریتم K-NN چطور در یافتن کاربران مشابه به ما کمک میکند با فرض داشتن دیتاست کاربران(MovieLens) که فیلمهای متفاوتی همراه با آیتمها که توسط کاربران به آنها رامتیاز دادهاند وجود دارد در حالی که یک فیلم جدید را میخواهیم به دیتاست خوشهبندی شده اضافه کنیم در حالی که فیلم جدید در مشابهترین خوشه مورد نظر که مشابهترین فیلمهای نسبت به فیلم جدید در آن باشد، که برای انجام این کار با توجه به خوشهبندی قبلی برای خوشهبندی فیلم جدید نیز استفاده میشود یا در صورت وجود کاربر جدید جهت اضافه کردن به دیتاست خوشهبندی شده مشخص کند که کاربر هدف متعلق به کدام خوشه مییاشد. الگوریتم هایی که بر مبنای این نگاه پیاده سازی می شوند شامل سه گام هستند : گام اول - در این گام بر اساس یک معیار شباهت (cosine، Pearson Correlation، Mean square difference) برای کاربرa تعدادk همسایه انتخاب می شود. این همسایگان، آنهایی هستند که بیشترین شباهت را به کاربر a دارند. گام دوم - در گام دوم به ازای تمامی آیتم های موجود در سیستم معیاری کمی برای پیشبینی آنکه آیا آیتمi مورد پسند کاربر a قرار خواهد گرفت یا خیر محاسبه می شود. محاسبه این معیار کمی با استفاده از راهکار های مختلفی (میانگین امتیازات average، حاصل جمع وزن دار weighted sum و ...) از روی امتیاز هایی که همسایگان کاربر a به آیتمi داده اند حاصل می شود. گام سوم – بر اساس گام دوم، از بین تمامی آیتم ها N آیتمی که بیشتری مقدار پیشبینی را دارند به کاربر پیشنهاد داده می شوند. از جمله مزیت های این الگوریتم سادگی و در عین حال دقت نتایج حاصل از آن است. البته دو مشکل اساسی نیز دارد که عبارتند از مقیاس پذیری کم و آسیب پذیری در مقابل پراکندگی داده ها scarcity در پایگاه داده. با افزوده شدن کاربر جدید به سیستم معیار های شباهت و مقادیر پیشبینیها باید مجددا حساب شوند که با افزایش تعداد کاربران و بزرگ شدن سیستم این مسئله سر بار محاسباتی زیادی را به سیستم وارد می آورد و مشکل ساز می شود. برای حل مشکل مقیاس پذیری در این الگوریتم، نسخه دیگری از آن با رویکردی متفاوت ارائه شده است. این رویکرد نگاه آیتم به آیتم item-to-item دارد و توانسته است مشکل مقیاس پذیری را تا حد قابل توجهی کاهش دهد. در این نسخه نیز سه گام اصلی دیده می شود که به شرح زیر می باشند : گام اول - ابتدا بر اساس معیارهای شباهت برای هر آیتم i تعداد q همسایه را تعیین می کنیم. گام دوم - در صورتی که کاربر a به آیتم i تاکنون امتیازی نداده باشد، بر اساس امتیازاتی که این کاربر به آیتم های همسایه i داده است مقدار پیشبینی prediction را محاسبه می کنیم. گام سوم - بر اساس مقادیر پیشبینی ها، پیشنهادهای آیتم هایی را که بیشترین مقدار پیشبینی را دارند به کاربرa پیشنهاد می کنیم. در نسخه مورد به مورد الگوریتم kNN سه کار زیر انجام می¬شود: (1) تعیین q مورد همسایه برای هر مورد در پایگاه داده؛ (2) برای هر مورد i دتبه¬بندی نشده توسط کاربر فعال a، بر اساس رتبه¬بندی a از q همسایه از i پیش¬بینی آن¬ را محاسبه کنید؛ و (3) n توصیه اول را برای کاربر فعال (معمولا n پیش¬بینی اصلی از a) را انتخاب کنید. مرحله (1) را می¬توان به طور متناوب انجام داد که توصیه تسریع شده با توجه به نسخه کاربر به کاربر را تسهیل می-کند. اکنون در مثال بالا K همان شیبهترین فیلمهای مشابه نسبت به فیلم جدید میباشد یا به عبارتی همسایههای برای داده هدف در خوشه مشابه میباشد. در حالی که سوال پیش میآید که در این الگوریتم عملیات مقایسهسازی بین داده هدف با سایر دادههای موجود چگونه شکل میگیرد یا چطور فیلمهای مشابه را مییابد؟ جهت پاسخ دادن به سوالات بالا الگوریتم برمیگردیم یکسری معیارها که عبارتاند از: در الگوریتم KNN دارای دو نقطه p,q که اندازه پارهخطی میباشد که دو نقطه را به هم دیگر متصل مینماید . در مختصات دکارتی اگر : دو نقطه در فضای اقلیدسی n بعدی باشند، آنگاه فاصله بین آنها به صورت زیر تعریف میشود: در صورتی که برای طبقهبندی از همه آیتمهای رکورد به یک اندازه استفاده شود در صورتی که در طبقهبندی اندازههای یکسانی نباشند و از هم دیگر مجزا باشند را بلای ابعاد میگویند که برای رفع این مشکل همه آنها را با هم هموزن خواهیم کرد جستجوی k نزدیکترین همسایه، K همسایه نزدیک تر به نقطه پرس و جو را برمیگرداند. این روش معمولاً در تجزیه و تحلیلِ پیش بینی، به منظور تخمین و یا دسته بندی یک نقطه بر اساس اجماع همسایگان آن استفاده میشود. گراف k نزدیکترین همسایه گرافیست که در آن هر نقطه در گراف K نزدیک ترین همسایگان خود متصل است.یکی دیگر از راهحلها مقاسیه کردن کاربر هدف با سایر نماینده مربوط به هر خوشه مربوط به کاربران میباشد که ویژگیها(آیتمها وامتیازات هر آیتم)را با اطلاعات شخصی مطابقت داده تا زمانی که خوشه مشابه خود را بیابد، یا کاربر هدف را با تک تک کاربران موجود در خوشهها مقایسه کند تا خوشهمشابه را پیدا کند که بدترین حالت ممکن مییاشد. یکی دیگر از راههای ورود کاربر هدف به سیستمپیشنهاد دهنده از طریق زیر میباشد: همانطور که گفته شد یکی از مهمترین مشکلاتی که سیستم های پیشنهاد دهنده مبتنی برفیلترینگ مشارکتی با آن مواجه هستند، مسئله شروع سرد می باشد. این مشکل زمانی ایجاد میشود که به منظور ارائه پیشنهاد، اطلاعات لازم و کافی ،امتیازدهی در سیستم وجود نداشته باشد. این حالت ممکن است به یکی از دلایل زیر رخ دهد: شروع کار سیستم پیشنهاد دهنده – راهکاری که در چنین حالاتی پیشنهاد می شود این است که با استفاده از روش های مناسب کاربران را تشویق به دادن رای به آیتم ها نماییم و زمانی اقدام به پیشنهاد به کاربر کنیم که به اندازه کافی اطلاعات جمع آوری شده باشد. ورود کاربر هدف به سیستم – مهمترین مشکل برای سیستم های پیشنهاد دهنده مبتنی بر فیلترینگ مشارکتی محور زمانی است که کاربر هدف وارد سیستم می شود. در این صورت اطلاعات کافی در مورد آیتم ها وجود دارد اما از آنجا که کاربر هدف هنوز به آیتمی رای نداده است نمی توان از روش های معمول مورد استفاده در فیلترینگ مشارکتی استفاده نمود. برای حل چنین مشکلی در سیستم، عموما فیلترینگ مشارکتی را با دیگر روش های رایج در سیستم های پیشنهاد دهنده ترکیب می کنند و یک سیستم ترکیبی Hybrid را می سازند مثلا فیلترینگ مشارکتی با فیلترینگ مبتنی بر محتوا . درج آیتم جدید در سیستم – عموما آیتم های جدید دارای هیچ امتیازی rate نمیباشند. بر همین اساس در لیست پیشنهادات هرگز آورده نمیشوند و از دیدگاه کاربران نیز پنهان میمانند. این مسئله باعث می شود که در آینده نیز به آنها هیچ امتیازی داده نشود. البته این مسئله در سیستم های پیشنهاددهنده از اهمیت بالایی برخوردار نیست و می توان بر اساس روش ها و ابزارهای دیگری این آیتم ها را به کاربران نشان داد تا به آنها رای دهند.به دلیل مشکلات شروع سرد و نیز پراکندگی داده ها، عموما سیستم های فیلترینگ مشارکتی را بصورت ترکیبی با سایر راهکار ها بکار می برند تا از مزایای آنها بهره مند شده و در عین حال معایب آن را نیز بر طرف نمایند. بعنوان مثال یکی از راهکار هایی که پیشنهاد شده است پیاده سازیCollaborative Tagging در یک سیستم مبتنی بر فیلترینگ مشارکتی است تا بتوان سلایق کاربران را شناخت و آیتم ها را بر اساس تمایلات کاربران دسته بندی نمود که روش کار به صورت مجموعهای از نمونههای برچسبگذاری شده تولید میشوند که هر نمونه از ویژگیهای استخراج شده از محتوای آیتم و یک برچسب مربوط به امتیازدهی کاربر تشکیل شده است. با فرض یک مجموعهی آموزشی، وظیفهی یادگیری نظارتی فراگرفتن تابعی است که اولویتهای کاربر را براساس ویژگیهای محتوا، پیشبینی میکند. مفهوم مشابه یادگیری در فیلترینگ مشارکتی دادههای برچسبگذاری شدهی بکار رفته، که در این مورد ویژگیهای کاربران بجای آیتمها میباشند. |
Date | |
Source | Own work |
Author | حمیدرضا آوینی |
Licensing
[edit]- You are free:
- to share – to copy, distribute and transmit the work
- to remix – to adapt the work
- Under the following conditions:
- attribution – You must give appropriate credit, provide a link to the license, and indicate if changes were made. You may do so in any reasonable manner, but not in any way that suggests the licensor endorses you or your use.
- share alike – If you remix, transform, or build upon the material, you must distribute your contributions under the same or compatible license as the original.
This file is uploaded through the Persian Wikipedia, and has not been reviewed on Commons yet.
|
File history
Click on a date/time to view the file as it appeared at that time.
Date/Time | Thumbnail | Dimensions | User | Comment | |
---|---|---|---|---|---|
current | 15:42, 31 October 2021 | 297 × 268 (9 KB) | Dr hamidreza avini (talk | contribs) | Uploaded own work with UploadWizard |
You cannot overwrite this file.
File usage on Commons
There are no pages that use this file.