تجزیه و تحلیل خوشه ای مطالعه ای است با تقسیم بسیاری از اشیاء به گروه های همگن. تحلیل خوشه ای

در بخش اول دوره با مفهوم خوشه بندی آشنا شدیم. در این سخنرانی ما مفهوم "خوشه" را از دیدگاه ریاضی شرح خواهیم داد و همچنین روش هایی را برای حل مسائل خوشه بندی - روش های تجزیه و تحلیل خوشه ای در نظر خواهیم گرفت.

اصطلاح تجزیه و تحلیل خوشه ای که اولین بار توسط Tryon در سال 1939 معرفی شد، شامل بیش از 100 الگوریتم مختلف است.

برخلاف مسائل طبقه‌بندی، تجزیه و تحلیل خوشه‌ای به فرضیات پیشینی در مورد مجموعه داده‌ها نیاز ندارد، محدودیت‌هایی برای نمایش اشیاء مورد مطالعه اعمال نمی‌کند و به شما امکان تجزیه و تحلیل شاخص‌ها را می‌دهد. انواع مختلفداده ها (داده های بازه ای، فرکانس ها، داده های باینری). باید به خاطر داشت که متغیرها باید در مقیاس های قابل مقایسه اندازه گیری شوند.

تجزیه و تحلیل خوشه ای به شما این امکان را می دهد که ابعاد داده ها را کاهش داده و واضح تر کنید.

تحلیل خوشه‌ای را می‌توان برای مجموعه‌هایی از سری‌های زمانی به کار برد.

تجزیه و تحلیل خوشه ای به طور موازی در چندین جهت مانند زیست شناسی، روانشناسی و غیره توسعه یافته است، بنابراین اکثر روش ها دو یا چند نام دارند. این به طور قابل توجهی کار را در هنگام استفاده از تحلیل خوشه ای پیچیده می کند.

وظایف تجزیه و تحلیل خوشه ای را می توان به گروه های زیر دسته بندی کرد:

  1. توسعه یک نوع شناسی یا طبقه بندی.
  2. کاوشی از طرح‌های مفهومی مفید برای گروه‌بندی اشیا.
  3. ارائه فرضیه بر اساس اکتشاف داده ها.
  4. آزمایش فرضیه‌ها یا مطالعات برای تعیین اینکه آیا انواع (گروه‌های) شناسایی‌شده به یک روش یا روش دیگر واقعاً در داده‌های موجود وجود دارند یا خیر.

به عنوان یک قاعده، زمانی که استفاده عملیتجزیه و تحلیل خوشه ای به طور همزمان چندین مورد از این مشکلات را حل می کند.

بیایید نمونه ای از روش تحلیل خوشه ای را در نظر بگیریم.

فرض کنید یک مجموعه داده A داریم که شامل 14 مثال است که دارای دو مشخصه X و Y هستند. داده های مربوط به آنها در جدول 13.1 آورده شده است.

جدول 13.1.
مجموعه داده A مثال شماره ویژگی X
1 27 19
2 11 46
3 25 15
4 36 27
5 35 25
6 10 43
7 11 44
8 36 24
9 26 14
10 26 14
11 9 45
12 33 23
13 27 16
14 10 47

Y را علامت بزنید


داده ها به صورت جدول آموزنده نیستند. بیایید متغیرهای X و Y را به شکل یک نمودار پراکندگی نشان داده شده در شکل نشان دهیم. 13.1.

در شکل چندین گروه از نمونه های "مشابه" را می بینیم. نمونه هایی (اشیاء) که از نظر مقادیر X و Y با یکدیگر "شبیه" هستند به یک گروه (خوشه) تعلق دارند. اشیاء از خوشه های مختلف به یکدیگر شبیه نیستند.

معیار تعیین شباهت و تفاوت خوشه ها فاصله بین نقاط در نمودار پراکندگی است. این شباهت را می توان "اندازه گیری" کرد و برابر است با فاصله بین نقاط روی نمودار. راه های تعیین اندازه گیری فاصلهبین خوشه ها، که معیار مجاورت نیز نامیده می شود، چندین وجود دارد. رایج ترین روش محاسبه است فاصله اقلیدسیبین دو نقطه i و j در صفحه، زمانی که مختصات X و Y آنها مشخص باشد:

توجه: برای فهمیدن فاصله بین دو نقطه، باید تفاوت مختصات آنها را در امتداد هر محور بگیرید، مربع آن را بگیرید، مقادیر حاصل را برای همه محورها اضافه کنید و جذر مجموع را بگیرید.

هنگامی که بیش از دو محور وجود دارد، فاصله به این صورت محاسبه می شود: مجموع مجذورات اختلاف مختصات از تعداد محورها (ابعاد) موجود در فضای ما تشکیل شده است. به عنوان مثال، اگر ما نیاز به یافتن فاصله بین دو نقطه در فضای سه بعدی داشته باشیم (این وضعیت در شکل 13.2 ارائه شده است)، فرمول (13.1) به شکل زیر در می آید:


برنج. 13.2.

خوشه دارای موارد زیر است ویژگی های ریاضی: مرکز، شعاع، انحراف معیار, اندازه خوشه .

مرکز خوشهمیانگین هندسی نقاط در فضای متغیرها است.

شعاع خوشه- حداکثر فاصله نقاط از مرکز خوشه.

همانطور که در یکی از سخنرانی های قبلی اشاره شد، خوشه ها می توانند همپوشانی داشته باشند. این وضعیت زمانی رخ می دهد که همپوشانی خوشه ای تشخیص داده شود. در این مورد، غیرممکن است که با استفاده از روش های ریاضی، یک شی را به طور واضح به یکی از دو خوشه اختصاص دهیم. به چنین اشیایی بحث برانگیز می گویند.

موضوع مورد اختلافشی ای است که بر اساس شباهت آن می توان به چند خوشه طبقه بندی کرد.

اندازه خوشهرا می توان با یا تعیین کرد شعاع خوشه، یا توسط انحراف معیاراشیاء برای این خوشه اگر فاصله شی تا مرکز خوشه کمتر باشد، یک شی متعلق به یک خوشه است شعاع خوشه. اگر این شرط برای دو یا چند خوشه برقرار باشد، شیء مورد بحث است.

ابهام این مشکل توسط متخصص یا تحلیلگر قابل حل است.

تحلیل خوشه ای بر اساس دو فرض کار می کند. فرض اول این است که ویژگی های در نظر گرفته شده یک شی، در اصل، امکان تقسیم مطلوب یک مجموعه (مجموعه) از اشیاء را به خوشه ها فراهم می کند. در ابتدای سخنرانی، ما قبلاً به مقایسه مقیاس ها اشاره کردیم، این فرض دوم است - انتخاب صحیح مقیاس یا واحدهای اندازه گیری ویژگی ها.

انتخاب مقیاس در تحلیل خوشه ای از اهمیت بالایی برخوردار است. بیایید به یک مثال نگاه کنیم. بیایید تصور کنیم که داده های ویژگی x در مجموعه داده A دو مرتبه بزرگتر از داده های ویژگی y است: مقادیر متغیر x در محدوده 100 تا 700 و مقادیر متغیر است. y در محدوده 0 تا 1 قرار دارند.

سپس هنگام محاسبه فاصله بین نقاطی که موقعیت اجسام را در فضای خصوصیات آنها منعکس می کند،

در طول آزمایش، می توان نتایج به دست آمده را با در نظر گرفتن مقایسه کرد ارزیابی های کارشناسیو بدون آنها و انتخاب بهترین آنها.

اغلب، در زمینه های مختلف فعالیت، ما باید با تعداد زیادی از مواردی که نیاز به اقدام دارند، سروکار داشته باشیم.

و ما حتی نمی توانیم کل این جلد را درک کنیم، چه رسد به درک آن.

راه خروج چیست؟ خوب، البته، "همه چیز را مرتب کنید." در این مورد، حکمت عامیانه یک فرمول علمی بسیار مشخص به خود می گیرد.

تحلیل خوشه ای مطالعه اشیا با ترکیب آنها در گروه های همگن با ویژگی های مشابه است. روش های او به معنای واقعی کلمه در همه زمینه ها قابل اجرا هستند: از پزشکی گرفته تا تجارت فارکس، از بیمه خودرو تا باستان شناسی. و برای بازاریابان و متخصصان منابع انسانی غیر قابل تعویض است.

جزئیات بیشتر در این مورد در مقاله.

خوشه چیست

تحلیل خوشه ای برای تقسیم مجموعه ای از اشیا به گروه های همگن (خوشه ها یا کلاس ها) طراحی شده است. این یک مشکل طبقه بندی داده های چند بعدی است.


حدود 100 الگوریتم خوشه بندی مختلف وجود دارد، با این حال، رایج ترین آنها عبارتند از:

  1. تجزیه و تحلیل خوشه سلسله مراتبی،
  2. k-به معنای خوشه بندی است.

تحلیل خوشه ای در کجا استفاده می شود:

  • در بازاریابی، این تقسیم بندی رقبا و مصرف کنندگان است.
  • در مدیریت:
    1. تقسیم پرسنل به گروه هایی با سطوح مختلف انگیزه،
    2. طبقه بندی تامین کننده،
    3. شناسایی موقعیت های مشابه تولید که در آن نقص ها رخ می دهد.
  • در پزشکی - طبقه بندی علائم، بیماران، داروها.
  • در جامعه شناسی، تقسیم پاسخ دهندگان به گروه های همگن.

در واقع، تجزیه و تحلیل خوشه ای خود را به خوبی در تمام حوزه های زندگی بشر ثابت کرده است. زیبایی این روش این است که حتی زمانی که داده های کمی وجود دارد و الزامات توزیع نرمال متغیرهای تصادفی و سایر الزامات روش های کلاسیک تحلیل آماری برآورده نمی شود، کار می کند.

اجازه دهید ماهیت تحلیل خوشه ای را بدون توسل به اصطلاحات دقیق توضیح دهیم.

فرض کنید شما یک نظرسنجی از کارمندان انجام داده اید و می خواهید تعیین کنید که چگونه پرسنل را به طور موثر مدیریت کنید. یعنی می‌خواهید کارکنان را به گروه‌هایی تقسیم کنید و مؤثرترین اهرم‌های مدیریتی را برای هر یک از آنها برجسته کنید. در عین حال، تفاوت بین گروه ها باید آشکار باشد و پاسخ دهندگان در گروه باید تا حد امکان مشابه باشند.

برای حل مشکل، استفاده از تحلیل خوشه سلسله مراتبی پیشنهاد شده است. در نتیجه، درختی به دست خواهیم آورد که در آن باید تصمیم بگیریم که کارکنان را به چند کلاس (خوشه) تقسیم کنیم. فرض کنید که تصمیم داریم کارکنان را به سه گروه تقسیم کنیم، سپس برای مطالعه پاسخ دهندگانی که در هر خوشه قرار می گیرند، جدولی با محتوای تقریباً زیر بدست می آوریم:


اجازه دهید نحوه تشکیل جدول بالا را توضیح دهیم. ستون اول شامل شماره خوشه - گروه است که داده های آن در خط منعکس می شود. به عنوان مثال، اولین خوشه 80٪ مردان است. 90 درصد از اولین خوشه در رده سنی 30 تا 50 سال قرار می گیرند و 12 درصد از پاسخ دهندگان معتقدند که مزایا بسیار مهم است. و غیره.

بیایید سعی کنیم از هر خوشه پرتره هایی از پاسخ دهندگان ایجاد کنیم:

  1. گروه اول عمدتاً از مردان بالغی تشکیل می شود که پست های رهبری را اشغال می کنند. آنها به بسته اجتماعی (MED، LGOTI، زمان آزاد) علاقه ندارند. آنها ترجیح می دهند به جای کمک از یک کارفرما، حقوق خوبی دریافت کنند.
  2. گروه دو، برعکس، به بسته اجتماعی اولویت می دهد. این عمدتاً از افراد "سالخورده" تشکیل شده است که موقعیت های پایینی را اشغال می کنند. قطعا حقوق برای آنها مهم است، اما اولویت های دیگری نیز وجود دارد.
  3. گروه سوم "جوانترین" هستند. برخلاف دو مورد قبلی، علاقه آشکاری به فرصت های یادگیری و توسعه حرفه ای وجود دارد. این دسته از کارکنان شانس خوبی برای پیوستن به گروه اول دارند.

بنابراین، هنگام برنامه ریزی کمپین برای معرفی روش های مؤثر مدیریت پرسنل، بدیهی است که در شرایط ما می توان بسته اجتماعی گروه دوم را به زیان، مثلاً دستمزد، افزایش داد. اگر صحبت کنیم که کدام متخصصان باید برای آموزش فرستاده شوند، قطعاً می توانیم توجه به گروه سوم را توصیه کنیم.

منبع: "nickart.spb.ru"

تحلیل خوشه ای کلید درک بازار است

خوشه قیمت یک دارایی در یک دوره زمانی مشخص است که طی آن معاملات انجام شده است. حجم حاصل از خرید و فروش با عددی در داخل خوشه نشان داده می شود. یک نوار از هر بازه زمانی معمولاً شامل چندین خوشه است. این به شما امکان می دهد تا حجم خرید، فروش و موجودی آنها را در هر نوار جداگانه، در هر سطح قیمت، با جزئیات ببینید.


ساخت یک نمودار خوشه ای

تغییر در قیمت یک دارایی ناگزیر مستلزم زنجیره ای از حرکت قیمت در ابزارهای دیگر است. در بیشتر موارد، درک یک حرکت روند در لحظه ای رخ می دهد که به سرعت در حال توسعه است و ورود به بازار در امتداد روند خطرات پایان یافتن به یک موج اصلاحی را دارد.

برای تراکنش های موفق، باید شرایط فعلی را درک کنید و بتوانید حرکت های آتی قیمت را پیش بینی کنید. این را می توان با تجزیه و تحلیل نمودار خوشه ای آموخت. با استفاده از تحلیل خوشه‌ای، می‌توانید فعالیت فعالان بازار را حتی در کمترین نوار قیمتی مشاهده کنید.

این دقیق ترین و دقیق ترین تحلیل است، زیرا توزیع نقطه ای حجم معاملات را در هر سطح قیمت دارایی نشان می دهد. تضاد دائمی بین منافع فروشندگان و خریداران در بازار وجود دارد. و هر کوچکترین حرکت قیمت (تیک) حرکتی به سوی مصالحه - سطح قیمت - است که در در حال حاضرمناسب هر دو طرف

اما بازار پویا است، تعداد فروشندگان و خریداران دائما در حال تغییر است. اگر در مقطعی از زمان بازار تحت سلطه فروشندگان بود، در لحظه بعدی به احتمال زیاد خریداران وجود خواهند داشت. تعداد معاملات انجام شده در سطوح قیمت مجاور نیز یکسان نیست.

و با این حال، ابتدا وضعیت بازار در کل حجم معاملات و تنها پس از آن در قیمت منعکس می شود. اگر اقدامات شرکت کنندگان غالب بازار (فروشندگان یا خریداران) را مشاهده کنید، می توانید حرکت قیمت را پیش بینی کنید.

برای استفاده موفقیت آمیز از تجزیه و تحلیل خوشه، ابتدا باید بفهمید که خوشه و دلتا چیست:

  • خوشه یک حرکت قیمت است که به سطوحی تقسیم می شود که در آن معاملات با حجم مشخص انجام شده است.
  • دلتا تفاوت بین خرید و فروش در هر خوشه را نشان می دهد.


نمودار خوشه ای

هر خوشه یا گروه دلتا به شما امکان می دهد بفهمید که آیا خریداران یا فروشندگان در یک زمان معین بر بازار تسلط دارند یا خیر. فقط کافی است کل دلتا را با جمع بندی خرید و فروش محاسبه کنید. اگر دلتا منفی باشد، بازار بیش از حد فروش است و معاملات فروش اضافی وجود دارد. وقتی دلتا مثبت باشد، خریداران به وضوح بر بازار تسلط دارند.

دلتا خود می تواند یک مقدار طبیعی یا بحرانی داشته باشد. مقدار حجم دلتا بالاتر از نرمال در خوشه با رنگ قرمز مشخص شده است. اگر دلتا متوسط ​​باشد، پس این حالت صاف در بازار را مشخص می کند. با یک مقدار دلتای نرمال، یک حرکت روند در بازار مشاهده می شود، اما یک مقدار بحرانی همیشه منادی تغییر قیمت است.

تجارت فارکس با استفاده از CA

برای به دست آوردن حداکثر سود، باید بتوانید انتقال دلتا را از یک سطح متوسط ​​به یک سطح عادی تعیین کنید. در واقع، در این مورد، شما می توانید همان ابتدای گذار از حرکت صاف به روند روند را متوجه شوید و بتوانید بیشترین سود را به دست آورید.

نمودار خوشه ای بیشتر بصری است که روی آن می توانید سطوح قابل توجهی از انباشتگی و توزیع حجم ها و سطوح پشتیبانی و مقاومت را مشاهده کنید.

این به معامله گر اجازه می دهد تا ورود دقیق به معامله را پیدا کند. با استفاده از دلتا می توانید در مورد غلبه فروش یا خرید در بازار قضاوت کنید. تجزیه و تحلیل خوشه به شما امکان می دهد تراکنش ها را مشاهده کنید و حجم آنها را در یک نوار از هر TF دنبال کنید. این امر به ویژه در هنگام نزدیک شدن به سطوح حمایت یا مقاومت قابل توجه مهم است. قضاوت های خوشه ای کلید درک بازار هستند.

منبع: "orderflowtrading.ru"

زمینه ها و ویژگی های کاربرد تحلیل خوشه ای

اصطلاح تحلیل خوشه ای (اولین بار توسط Tryon، 1939 ابداع شد) در واقع شامل مجموعه ای از الگوریتم های طبقه بندی مختلف است. سوال کلیکه توسط محققان در بسیاری از زمینه ها پرسیده شده است، نحوه سازماندهی داده های مشاهده شده در ساختارهای بصری، یعنی. گسترش طبقه بندی

به عنوان مثال، زیست شناسان هدفی را برای تقسیم حیوانات تعیین کردند انواع مختلفتا به طور معناداری تفاوت های بین آنها را توصیف کند. با توجه به سیستم مدرنبر اساس زیست شناسی، انسان متعلق به نخستی ها، پستانداران، آمنیوت ها، مهره داران و حیوانات است.

توجه داشته باشید که در این طبقه بندی، هر چه سطح تجمع بیشتر باشد، شباهت بین اعضای کلاس مربوطه کمتر می شود. انسان‌ها شباهت‌های بیشتری با دیگر نخستی‌ها (یعنی میمون‌ها) دارند تا اعضای «بیرون‌نشین» خانواده پستانداران (یعنی سگ‌ها) و غیره.

توجه داشته باشید که بحث قبلی به الگوریتم های خوشه بندی اشاره دارد، اما چیزی در مورد آزمون معناداری آماری ذکر نشده است. در واقع، تجزیه و تحلیل خوشه‌ای یک روش آماری معمولی نیست بلکه مجموعه‌ای از الگوریتم‌های مختلف برای «توزیع اشیا در خوشه‌ها» است.

این دیدگاه وجود دارد که بر خلاف بسیاری از روش‌های آماری دیگر، روش‌های تحلیل خوشه‌ای در اغلب مواردی که هیچ فرضیه پیشینی درباره کلاس‌ها ندارید، اما هنوز در مرحله توصیفی مطالعه هستید، استفاده می‌شود. باید درک کرد که تجزیه و تحلیل خوشه ای "محتمل ترین راه حل مهم" را تعیین می کند.

بنابراین، آزمایش اهمیت آماری در اینجا واقعاً قابل اجرا نیست، حتی در مواردی که سطوح p شناخته شده باشند (مثلاً در روش K-means).

تکنیک های خوشه بندی در زمینه های مختلف مورد استفاده قرار می گیرد. هارتیگان (1975) مروری عالی از بسیاری از مطالعات منتشر شده حاوی نتایج به دست آمده با استفاده از روش های تحلیل خوشه ای ارائه کرد. به عنوان مثال، در زمینه پزشکی، خوشه بندی بیماری ها، درمان بیماری ها یا علائم بیماری ها منجر به طبقه بندی های پرکاربرد می شود.

در زمینه روانپزشکی، تشخیص صحیح خوشه های علائم مانند پارانویا، اسکیزوفرنی و غیره برای موفقیت درمان بسیار مهم است. در باستان‌شناسی، با استفاده از تحلیل خوشه‌ای، محققان سعی می‌کنند تا طبقه‌بندی ابزارهای سنگی، اشیای تدفین و غیره را ایجاد کنند.

کاربردهای گسترده ای از تجزیه و تحلیل خوشه ای وجود دارد تحقیقات بازاریابی. به طور کلی، هر زمان که لازم باشد "کوه های" اطلاعات را به گروه های مناسب برای پردازش بیشتر طبقه بندی کنیم، تجزیه و تحلیل خوشه ای بسیار مفید و موثر است.

خوشه بندی درختان

هدف یک الگوریتم اتحاد (خوشه‌بندی درختی) این است که اشیاء (مثلاً حیوانات) را با استفاده از اندازه‌گیری شباهت یا فاصله بین اشیاء در خوشه‌های به اندازه کافی بزرگ ترکیب کند. نتیجه معمول چنین خوشه‌بندی یک درخت سلسله مراتبی است.

یک نمودار درختی افقی را در نظر بگیرید. نمودار با هر شیء در کلاس (در سمت چپ نمودار) شروع می شود. حال تصور کنید که به تدریج (در مراحل بسیار کوچک) معیار خود را در مورد اینکه کدام اشیاء منحصر به فرد هستند و کدام چیزها منحصر به فرد نیستند، "آرام می دهید". به عبارت دیگر، آستانه مربوط به تصمیم برای ترکیب دو یا چند شی در یک خوشه را کاهش می دهید.


در نتیجه، بیشتر و بیشتر به هم گره می خورید تعداد بزرگتراشیاء و جمع (ترکیب) بیشتر و بیشتر خوشه های متشکل از عناصر به طور فزاینده متفاوت است. در نهایت در مرحله آخر همه اشیا با هم ترکیب می شوند.

در این نمودارها، محورهای افقی نشان دهنده فاصله اتصال هستند (در نمودارهای درختی عمودی، محورهای عمودی نشان دهنده فاصله اتصال هستند). بنابراین، برای هر گره در نمودار (جایی که یک خوشه جدید تشکیل می‌شود)، می‌توانید مقدار فاصله‌ای را ببینید که عناصر مربوطه برای آن به یک خوشه منفرد جدید مرتبط می‌شوند.

هنگامی که داده ها دارای یک "ساختار" واضح از نظر خوشه هایی از اشیاء هستند که شبیه یکدیگر هستند، آنگاه این ساختار احتمالاً توسط شاخه های مختلف در درخت سلسله مراتبی منعکس می شود. در نتیجه تجزیه و تحلیل موفق با استفاده از روش ادغام، تشخیص خوشه ها (شاخه ها) و تفسیر آنها ممکن می شود.

اندازه گیری فاصله

روش اتحاد یا خوشه‌بندی درختی برای تشکیل خوشه‌های عدم تشابه یا فاصله بین اشیاء استفاده می‌شود. این فواصل را می توان در فضای یک بعدی یا چند بعدی تعریف کرد. برای مثال، اگر بخواهید انواع غذاها را در یک کافه دسته بندی کنید، ممکن است تعداد کالری موجود در آن، قیمت، درجه بندی طعم ذهنی و غیره را در نظر بگیرید.

مستقیم ترین راه برای محاسبه فواصل بین اجسام در فضای چند بعدی محاسبه فواصل اقلیدسی است. اگر فضای دو یا سه بعدی دارید، این اندازه گیری فاصله هندسی واقعی بین اشیاء در فضا است (مثل اینکه فاصله بین اجسام با یک متر اندازه گیری شده است).

با این حال، الگوریتم ادغام اهمیتی نمی‌دهد که آیا فواصل ارائه‌شده برای آن فاصله، فاصله‌های واقعی هستند یا اندازه‌گیری فاصله مشتق‌شده دیگری که برای محقق معنادارتر است. و چالش پیش روی محققان انتخاب روش مناسب برای کاربردهای خاص است.

  1. فاصله اقلیدسی
  2. به نظر می رسد این رایج ترین نوع فاصله باشد. به سادگی یک فاصله هندسی در فضای چند بعدی است و به صورت زیر محاسبه می شود:

    توجه داشته باشید که فاصله اقلیدسی (و مربع آن) از داده های اصلی محاسبه می شود، نه داده های استاندارد شده. این روش معمولمحاسبه آن، که دارای مزایای خاصی است (به عنوان مثال، فاصله بین دو شیء زمانی که یک شی جدید به تجزیه و تحلیل وارد می شود، تغییر نمی کند، که ممکن است به عنوان یک چیز پرت باشد).

    با این حال، فاصله ها را می توان تا حد زیادی تحت تاثیر تفاوت بین محورهایی که فاصله ها از آنها محاسبه می شود، قرار گیرد.

    به عنوان مثال، اگر یکی از محورها بر حسب سانتی متر اندازه گیری شود و سپس آن را به میلی متر تبدیل کنید (مقادیر را در 10 ضرب کنید)، فاصله اقلیدسی نهایی (یا مربع فاصله اقلیدسی) محاسبه شده از مختصات تغییر می کند. تا حد زیادی، و در نتیجه، نتایج تجزیه و تحلیل خوشه ممکن است تا حد زیادی با نتایج قبلی متفاوت باشد.

  3. فاصله اقلیدسی مربع.
  4. گاهی اوقات ممکن است بخواهید فاصله استاندارد اقلیدسی را مربع کنید تا به اجسامی که از هم دورتر هستند وزن بیشتری بدهید. این فاصله به صورت زیر محاسبه می شود:

  5. فاصله بلوک شهر (فاصله منهتن).
  6. این فاصله صرفاً میانگین تفاوت ها بر روی مختصات است. در بیشتر موارد، این اندازه‌گیری فاصله نتایجی مشابه با فاصله اقلیدسی معمولی ایجاد می‌کند.

    با این حال، توجه می‌کنیم که برای این اندازه‌گیری، تأثیر تفاوت‌های بزرگ فردی (فروت‌ها) کاهش می‌یابد (زیرا آنها مجذور نیستند). مسافت منهتن با استفاده از فرمول محاسبه می شود:

  7. فاصله چبیشف
  8. این فاصله زمانی می‌تواند مفید باشد که کسی بخواهد دو شی را به‌عنوان «متفاوت» تعریف کند، اگر در یک مختصات (در هر بعد) متفاوت باشند. فاصله چبیشف با استفاده از فرمول محاسبه می شود:

  9. فاصله قدرت.

    گاهی اوقات فرد مایل است به تدریج وزن های مربوط به بعد را افزایش یا کاهش دهد که اشیاء مربوطه برای آن بسیار متفاوت است. این را می توان با استفاده از فاصله قدرت-قانون به دست آورد. فاصله قدرت با استفاده از فرمول محاسبه می شود:

    جایی که r و p پارامترهای تعریف شده توسط کاربر هستند.

    چند محاسبه مثال می تواند نشان دهد که این اندازه گیری چگونه "کار می کند":

    • پارامتر p مسئول وزن کردن تدریجی تفاوت ها در امتداد مختصات فردی است.
    • پارامتر r مسئول وزن کردن تدریجی فواصل زیاد بین اجسام است.
    • اگر هر دو پارامتر r و p برابر با دو باشند، این فاصله با فاصله اقلیدسی منطبق است.
  10. درصد اختلاف نظر
  11. این معیار زمانی استفاده می شود که داده ها طبقه بندی شده باشند. این فاصله با فرمول محاسبه می شود:

قوانین ارتباط یا اتصال

در مرحله اول، زمانی که هر شیء یک خوشه مجزا است، فواصل بین این اشیاء با اندازه گیری انتخاب شده تعیین می شود. با این حال، هنگامی که چندین شی به یکدیگر متصل می شوند، این سوال مطرح می شود که چگونه باید فاصله بین خوشه ها را تعیین کرد؟

به عبارت دیگر، یک قانون اتحاد یا اتصال برای دو خوشه مورد نیاز است. در اینجا احتمالات مختلفی وجود دارد: به عنوان مثال، زمانی که هر دو شی در دو خوشه نسبت به فاصله پیوند مربوطه به یکدیگر نزدیکتر هستند، می توانید دو خوشه را به یکدیگر پیوند دهید.

به عبارت دیگر، شما از "قانون نزدیکترین همسایه" برای تعیین فاصله بین خوشه ها استفاده می کنید. به این روش روش تک لینک می گویند. این قانون خوشه های "فیبری" را می سازد، به عنوان مثال. خوشه‌ها فقط توسط عناصر منفرد که به هم نزدیک‌تر هستند «به هم مرتبط می‌شوند».

از طرف دیگر، می‌توانید از همسایه‌ها در خوشه‌هایی استفاده کنید که توسط جفت‌های دیگر اشیاء از یکدیگر دورتر هستند. این روش را روش پیوند کامل می نامند. همچنین بسیاری از روش های دیگر برای ترکیب خوشه ها وجود دارد، موضوعات مشابهکه در نظر گرفته شده اند.

  • پیوند واحد (روش نزدیکترین همسایه).
  • همانطور که در بالا توضیح داده شد، در این روش، فاصله بین دو خوشه با فاصله بین دو نزدیکترین شی (نزدیکترین همسایه) در خوشه های مختلف تعیین می شود.

    این قانون باید به یک معنا، اشیاء را به هم متصل کند تا خوشه‌ها را تشکیل دهند، و خوشه‌های حاصل تمایل دارند با «زنجیره‌های» طولانی نشان داده شوند.

  • لینک کامل (روش همسایگان دورتر).
  • در این روش، فاصله بین خوشه‌ها با بیشترین فاصله بین هر دو شی در خوشه‌های مختلف (یعنی "دورترین همسایگان") تعیین می‌شود.

    این روش معمولاً زمانی که اشیاء از «بیلستان‌های» متفاوت می‌آیند، بسیار خوب عمل می‌کند.

    اگر خوشه ها شکل تا حدودی کشیده داشته باشند یا نوع طبیعی آنها "زنجیری" باشد، این روش نامناسب است.

  • میانگین زوجی بدون وزن.
  • در این روش فاصله بین دو خوشه مختلف به عنوان میانگین فاصله بین تمام جفت اشیاء موجود در آنها محاسبه می شود. این روش زمانی موثر است که اشیاء در واقع "بیشه های" متفاوتی را تشکیل دهند، اما در موارد خوشه های گسترده (از نوع "زنجیره ای") به همان اندازه خوب کار می کند.

    توجه داشته باشید که اسنیث و سوکال (1973) در کتاب خود، مخفف UPGMA را معرفی می کنند تا به این روش به عنوان روش جفت گروه بدون وزن با استفاده از میانگین های حسابی اشاره کنند.

  • میانگین وزنی زوجی.
  • این روش مشابه روش میانگین زوجی بدون وزن است، با این تفاوت که اندازه خوشه های مربوطه (یعنی تعداد اشیاء موجود در آنها) به عنوان یک عامل وزنی در محاسبات استفاده می شود. بنابراین، روش پیشنهادی باید زمانی مورد استفاده قرار گیرد که اندازه خوشه های نابرابر انتظار می رود.

    کتاب اسنیث و سوکال (1973) مخفف WPGMA را برای اشاره به این روش به عنوان روش جفت گروه وزنی با استفاده از میانگین های حسابی معرفی می کند.

  • روش سانتروئید بدون وزن
  • در این روش فاصله بین دو خوشه به عنوان فاصله بین مراکز ثقل آنها تعریف می شود.

    اسنیث و سوکال (1973) از مخفف UPGMC استفاده می کنند تا به این روش به عنوان روش جفت گروه بدون وزن با استفاده از میانگین مرکز اشاره کنند.

  • روش مرکز وزنی (میانگین).
  • این روش مشابه روش قبلی است، با این تفاوت که در محاسبه از وزن برای محاسبه تفاوت بین اندازه خوشه ها (یعنی تعداد اشیاء در آنها) استفاده می شود.

    بنابراین، در صورت وجود (یا مشکوک) تفاوت های قابل توجهی در اندازه خوشه ها، این روش بر روش قبلی ارجحیت دارد.

    اسنیث و سوکال (1973) از مخفف WPGMC استفاده کردند تا به آن به عنوان روش جفت گروه وزنی با استفاده از میانگین مرکز اشاره کنند.

  • روش وارد.
  • این روش با سایر روش ها متفاوت است زیرا از تکنیک های تحلیل واریانس برای تخمین فاصله بین خوشه ها استفاده می کند. این روش مجموع مربعات (SS) را برای هر دو خوشه (فرضی) که می تواند در هر مرحله تشکیل شود، به حداقل می رساند.

    جزئیات را می توان در وارد (1963) یافت. به طور کلی، به نظر می رسد که این روش بسیار موثر است، اما تمایل به ایجاد خوشه های کوچک دارد.

ترکیب دو ورودی

این روش قبلاً از نظر "اشیاء" که نیاز به خوشه بندی دارند مورد بحث قرار گرفت. در سایر انواع تحلیل، سؤال مورد علاقه محقق معمولاً در قالب مشاهدات یا متغیرها بیان می شود. به نظر می رسد که خوشه بندی، هم توسط مشاهدات و هم توسط متغیرها، می تواند به نتایج بسیار جالبی منجر شود.

به عنوان مثال، تصور کنید که یک محقق پزشکی در حال جمع‌آوری داده‌ها در مورد ویژگی‌های مختلف (متغیرهای) شرایط (موارد) بیماران مبتلا به بیماری قلبی است. یک محقق ممکن است بخواهد مشاهدات (بیماران) را برای شناسایی خوشه هایی از بیماران با علائم مشابه خوشه بندی کند.

در عین حال، محقق ممکن است بخواهد متغیرها را خوشه‌بندی کند تا خوشه‌هایی از متغیرهایی که با شرایط فیزیکی مشابه مرتبط هستند را شناسایی کند. پس از این بحث در مورد خوشه‌بندی مشاهدات یا متغیرها، می‌توان پرسید چرا در هر دو جهت خوشه‌بندی نمی‌شود؟

ماژول Cluster Analysis شامل یک روال اتصال دو طرفه کارآمد است که به شما امکان می دهد دقیقاً این کار را انجام دهید. با این حال، ادغام دو طرفه (نسبتا به ندرت) در شرایطی استفاده می شود که انتظار می رود هر دو مشاهدات و متغیرها به طور همزمان در کشف خوشه های معنی دار کمک کنند.

بنابراین، با بازگشت به مثال قبلی، می‌توانیم فرض کنیم که یک محقق پزشکی باید خوشه‌هایی از بیماران را شناسایی کند که در رابطه با خوشه‌های خاصی از ویژگی‌های شرایط فیزیکی مشابه هستند.

مشکل در تفسیر نتایج به‌دست‌آمده از این واقعیت ناشی می‌شود که شباهت‌های بین خوشه‌های مختلف ممکن است از برخی تفاوت‌ها در زیر مجموعه‌های متغیرها ناشی شود (یا علت آن باشد). بنابراین، خوشه های حاصل از نظر ماهیت ناهمگن هستند.

این ممکن است در ابتدا کمی مبهم به نظر برسد. در واقع، در مقایسه با سایر روش‌های تحلیل خوشه‌ای که شرح داده شد، اتصال دو طرفه احتمالاً کم‌مصرف‌ترین روش است. با این حال، برخی از محققان بر این باورند که ابزار قدرتمندی برای تجزیه و تحلیل داده های اکتشافی ارائه می دهد (برای اطلاعات بیشتر، به شرح هارتیگان (1975) از این روش مراجعه کنید).

ک به معنی روش است

این روش خوشه‌بندی با روش‌های انباشته‌ای مانند اتحاد (خوشه‌بندی درختی) و اتحاد دو طرفه متفاوت است. بیایید فرض کنیم قبلاً فرضیه هایی در مورد تعداد خوشه ها (بر اساس مشاهدات یا متغیرها) دارید.

می توانید به سیستم بگویید دقیقاً سه خوشه تشکیل دهد تا تا حد امکان متمایز باشند. این دقیقاً همان نوع مسئله ای است که الگوریتم K-means آن را حل می کند. در مورد کلیروش K معنی دقیقاً K خوشه های مختلف را می سازد که در بیشترین فاصله ممکن از یکدیگر قرار دارند.

در مثال وضعیت جسمانی، یک محقق پزشکی ممکن است از تجربه بالینی خود این تصور را داشته باشد که بیماران او به طور کلی به سه دسته مختلف تقسیم می شوند. در مرحله بعد، او ممکن است بخواهد بداند که آیا شهود او را می توان به صورت عددی تأیید کرد، یعنی آیا تجزیه و تحلیل خوشه ای K-means در واقع سه خوشه از بیماران را همانطور که انتظار می رود تولید می کند؟

اگر چنین باشد، میانگین معیارهای مختلف پارامترهای فیزیکی برای هر خوشه راهی کمی برای نمایش فرضیه‌های محقق ارائه می‌کند (به عنوان مثال، بیماران در خوشه 1 دارای پارامتر 1 بالا، پارامتر پایین 2 و غیره هستند). .

از نقطه نظر محاسباتی، می توانید این روش را به عنوان تحلیل واریانس معکوس در نظر بگیرید.

برنامه با K خوشه های انتخاب شده به طور تصادفی شروع می شود و سپس عضویت اشیاء در آنها را تغییر می دهد تا:

  1. به حداقل رساندن تنوع در خوشه ها،
  2. به حداکثر رساندن تنوع بین خوشه ها

این روش شبیه روش ANOVA معکوس است زیرا آزمون معناداری در ANOVA تنوع بین گروهی و درون گروهی را در آزمون این فرضیه که میانگین گروه با یکدیگر متفاوت است مقایسه می کند.

در خوشه بندی K-means، برنامه اشیاء (یعنی مشاهدات) را از یک گروه (خوشه) به گروه دیگر منتقل می کند تا بیشترین مقدار را به دست آورد. نتیجه قابل توجهیهنگام انجام آنالیز واریانس (ANOVA). به طور معمول، هنگامی که نتایج یک تحلیل خوشه‌ای K-means به دست آمد، میانگین هر خوشه در امتداد هر بعد را می‌توان محاسبه کرد تا میزان تفاوت خوشه‌ها با یکدیگر را ارزیابی کرد.

در حالت ایده‌آل، شما باید برای اکثر، اگر نه همه، اندازه‌گیری‌های مورد استفاده در تجزیه و تحلیل، میانگین‌های بسیار متفاوتی را بدست آورید. مقادیر آماره F به‌دست‌آمده برای هر بعد، شاخص دیگری است که نشان می‌دهد بعد مربوطه چقدر بین خوشه‌ها تمایز قائل است.

منبع: "biometrica.tomsk.ru"

طبقه بندی اشیا بر اساس ویژگی های آنها

تجزیه و تحلیل خوشه ای مجموعه ای از روش های آماری چند بعدی برای طبقه بندی اشیاء بر اساس ویژگی هایی است که آنها را مشخص می کند، تقسیم مجموعه ای از اشیا به گروه های همگن که در تعریف معیارها مشابه هستند و شناسایی اشیاء یک گروه خاص.

خوشه گروهی از اشیاء است که در نتیجه تجزیه و تحلیل خوشه ای بر اساس معیار مشخصی از شباهت یا تفاوت بین اشیاء شناسایی می شوند. شی - اینها موضوعات خاصی از تحقیق هستند که باید طبقه بندی شوند. اشیاء طبقه بندی، به عنوان یک قاعده، مشاهدات هستند. به عنوان مثال، مصرف کنندگان محصولات، کشورها یا مناطق، محصولات و غیره.

اگرچه امکان انجام تحلیل خوشه ای بر اساس متغیرها وجود دارد. طبقه بندی اشیاء در تجزیه و تحلیل خوشه ای چند بعدی بر اساس چندین معیار به طور همزمان انجام می شود که بسته به روش تجزیه و تحلیل خوشه ای، متغیرهای کمی و طبقه بندی می شوند. بنابراین، هدف اصلیتجزیه و تحلیل خوشه ای - یافتن گروه هایی از اشیاء مشابه در یک نمونه.

مجموعه روش های آماری چند متغیره تحلیل خوشه ای را می توان به روش های سلسله مراتبی (تراکمی و تقسیمی) و غیر سلسله مراتبی (روش k-means، تحلیل خوشه ای دو مرحله ای) تقسیم کرد.

با این حال، هیچ طبقه‌بندی پذیرفته‌شده‌ای از روش‌ها وجود ندارد و روش‌های تحلیل خوشه‌ای گاهی اوقات شامل روش‌هایی برای ساخت درخت‌های تصمیم، شبکه‌های عصبی، تجزیه و تحلیل متمایز و رگرسیون لجستیک می‌شوند.

دامنه استفاده از تحلیل خوشه ای، به دلیل تطبیق پذیری آن، بسیار گسترده است. تجزیه و تحلیل خوشه ای در اقتصاد، بازاریابی، باستان شناسی، پزشکی، روانشناسی، شیمی، زیست شناسی استفاده می شود. مدیریت دولتی، فیلولوژی، مردم شناسی، جامعه شناسی و سایر زمینه ها.

در اینجا چند نمونه از استفاده از تحلیل خوشه ای آورده شده است:

  • پزشکی - طبقه بندی بیماری ها، علائم آنها، روش های درمان، طبقه بندی گروه های بیمار.
  • بازاریابی - وظایف بهینه سازی خط تولید شرکت، تقسیم بازار بر اساس گروهی از کالاها یا مصرف کنندگان، شناسایی مصرف کنندگان بالقوه.
  • جامعه شناسی - تقسیم پاسخ دهندگان به گروه های همگن؛
  • روانپزشکی - تشخیص صحیح گروه های علائم برای درمان موفقیت آمیز تعیین کننده است.
  • زیست شناسی - طبقه بندی موجودات بر اساس گروه.
  • اقتصاد - طبقه بندی موضوعات فدراسیون روسیه بر اساس جذابیت سرمایه گذاری.

منبع: "statmethods.ru"

درک تحلیل خوشه ای

تجزیه و تحلیل خوشه ای شامل مجموعه ای از الگوریتم های طبقه بندی مختلف است. یک سوال رایج توسط محققان در بسیاری از زمینه ها این است که چگونه داده های مشاهده شده را در ساختارهای بصری سازماندهی کنیم.

به عنوان مثال، زیست شناسان قصد دارند حیوانات را به گونه های مختلف طبقه بندی کنند تا به طور معناداری تفاوت های بین آنها را توصیف کنند.

وظیفه تجزیه و تحلیل خوشه ای تقسیم مجموعه اولیه اشیاء به گروه هایی از اشیاء مشابه است که نزدیک به یکدیگر هستند. به این گروه ها خوشه می گویند.

به عبارت دیگر، تحلیل خوشه ای یکی از راه های طبقه بندی اشیا بر اساس ویژگی های آنهاست. مطلوب است که نتایج طبقه بندی تفسیر معناداری داشته باشد.

نتایج به‌دست‌آمده با روش‌های تحلیل خوشه‌ای در زمینه‌های مختلفی مورد استفاده قرار می‌گیرد:

  1. در بازاریابی، این تقسیم بندی رقبا و مصرف کنندگان است.
  2. در روانپزشکی تشخیص صحیح علائمی مانند پارانویا، اسکیزوفرنی و ... برای موفقیت درمان تعیین کننده است.
  3. در مدیریت، طبقه بندی تامین کنندگان و شناسایی موقعیت های مشابه تولید که در آن نقص ها رخ می دهد، مهم است.
  4. در جامعه شناسی، تقسیم پاسخ دهندگان به گروه های همگن.
  5. در سرمایه گذاری پرتفوی، مهم است که اوراق بهادار را بر اساس شباهت در روند سودآوری گروه بندی کنید تا بر اساس اطلاعات به دست آمده در مورد بازار سهام، یک سبد سرمایه گذاری بهینه ایجاد کنید که به شما امکان می دهد بازده سرمایه گذاری را در درجه معینی از ریسک به حداکثر برسانید.

در واقع، تجزیه و تحلیل خوشه ای خود را به خوبی در تمام حوزه های زندگی بشر ثابت کرده است. به طور کلی، هر زمان که نیاز به طبقه بندی حجم زیادی از این نوع اطلاعات و ارائه آن به شکلی مناسب برای پردازش بیشتر باشد، تجزیه و تحلیل خوشه ای بسیار مفید و موثر است.

تجزیه و تحلیل خوشه ای به شما امکان می دهد تا حجم نسبتاً زیادی از اطلاعات را در نظر بگیرید و تا حد زیادی فشرده کنید مناطق بزرگاطلاعات اجتماعی-اقتصادی، آنها را فشرده و بصری می کند.

ارزش عالیتحلیل خوشه‌ای برای مجموعه‌ای از سری‌های زمانی که توسعه اقتصادی را مشخص می‌کنند (به عنوان مثال، شرایط عمومی اقتصادی و کالایی) اعمال می‌شود.

در اینجا می توانید دوره هایی را که مقادیر شاخص های مربوطه کاملاً نزدیک بودند برجسته کنید و همچنین گروه هایی از سری های زمانی را مشخص کنید که دینامیک آنها بیشتر شبیه است. در وظایف پیش‌بینی اجتماعی-اقتصادی، ترکیب تحلیل خوشه‌ای با سایر روش‌های کمی (به عنوان مثال، تحلیل رگرسیون) بسیار امیدوارکننده است.

مزایا و معایب

تجزیه و تحلیل خوشه ای اجازه می دهد تا یک طبقه بندی عینی از هر شی که با تعدادی ویژگی مشخص می شود. چندین مزیت وجود دارد که می توان از این نتیجه گرفت:

  • خوشه های حاصل را می توان تفسیر کرد، یعنی می توانند توصیف کنند که چه گروه هایی در واقع وجود دارند.
  • خوشه های فردی را می توان دور انداخت. این در مواردی مفید است که در هنگام جمع آوری داده ها خطاهای خاصی رخ داده است که در نتیجه مقادیر شاخص ها برای اشیاء فردی به شدت منحرف می شود. هنگام اعمال تحلیل خوشه ای، چنین اشیایی در یک خوشه جداگانه قرار می گیرند.
  • فقط آن دسته از خوشه هایی که دارای ویژگی های مورد علاقه هستند را می توان برای تجزیه و تحلیل بیشتر انتخاب کرد.

مانند هر روش دیگری، تحلیل خوشه ای دارای معایب و محدودیت های خاصی است. به طور خاص:

  1. ترکیب و تعداد خوشه ها به معیارهای پارتیشن انتخابی بستگی دارد،
  2. هنگام کاهش آرایه داده های اصلی به شکل فشرده تر، ممکن است اعوجاج های خاصی رخ دهد.
  3. ویژگی های فردی اشیاء منفرد ممکن است با جایگزینی آنها با ویژگی های مقادیر تعمیم یافته پارامترهای خوشه از بین بروند.

روش ها

در حال حاضر بیش از صد الگوریتم خوشه بندی مختلف شناخته شده است. تنوع آنها نه تنها با روش‌های محاسباتی مختلف، بلکه با مفاهیم مختلف زیربنای خوشه‌بندی توضیح داده می‌شود. توصیه هایی برای انتخاب یک یا روش دیگر خوشه بندی فقط به صورت کلی ارائه می شود و معیار اصلی انتخاب سودمندی عملی نتیجه است.

بسته Statistica روش های خوشه بندی زیر را پیاده سازی می کند:

  • الگوریتم های سلسله مراتبی - خوشه بندی درختی. الگوریتم های سلسله مراتبی مبتنی بر ایده خوشه بندی متوالی هستند. در مرحله اولیه، هر شی به عنوان یک خوشه مجزا در نظر گرفته می شود. در مرحله بعد، برخی از خوشه های نزدیک به یکدیگر در یک خوشه جداگانه ترکیب می شوند.
  • روش K-means. این روش بیشتر مورد استفاده قرار می گیرد. به گروه روش های به اصطلاح مرجع تحلیل خوشه ای تعلق دارد. تعداد خوشه های K توسط کاربر مشخص می شود.
  • ترکیب دو ورودی هنگام استفاده از این روش، خوشه بندی به طور همزمان هم توسط متغیرها (ستون ها) و هم توسط مشاهدات (ردیف ها) انجام می شود.

روش ادغام دو طرفه در مواردی استفاده می شود که می توان انتظار داشت که خوشه بندی همزمان بین متغیرها و مشاهدات نتایج معنی داری ایجاد کند.

نتایج این روش آمار توصیفی برای متغیرها و مشاهدات و همچنین یک نمودار رنگی دو بعدی است که در آن مقادیر داده‌ها کد رنگی می‌شوند. بر اساس توزیع رنگ، می توانید ایده ای از گروه های همگن به دست آورید.

عادی سازی متغیرها

تقسیم بندی مجموعه اولیه اشیاء به خوشه ها شامل محاسبه فاصله بین اشیاء و انتخاب اشیایی است که فاصله آنها کوچکترین فاصله ممکن است. پرکاربردترین فاصله اقلیدسی (هندسی) است که برای همه ما آشناست. این متریک با ایده های شهودی در مورد نزدیکی اشیاء در فضا مطابقت دارد (گویی که فاصله بین اشیاء با یک متر اندازه گیری می شود).

اما برای یک متریک معین، فاصله بین اجسام می تواند تا حد زیادی تحت تأثیر تغییرات مقیاس (واحد اندازه گیری) قرار گیرد. به عنوان مثال، اگر یکی از ویژگی ها بر حسب میلی متر اندازه گیری شود و سپس مقدار آن به سانتی متر تبدیل شود، فاصله اقلیدسی بین اجسام به شدت تغییر می کند. این منجر به این واقعیت می شود که نتایج تجزیه و تحلیل خوشه ای ممکن است به طور قابل توجهی با نتایج قبلی متفاوت باشد.

اگر متغیرها در واحدهای اندازه گیری مختلف اندازه گیری شوند، نرمال سازی اولیه آنها لازم است، یعنی تبدیل داده های اصلی که آنها را به کمیت های بدون بعد تبدیل می کند.

عادی سازی هندسه فضای اصلی را به شدت مخدوش می کند، که می تواند نتایج خوشه بندی را تغییر دهد. در بسته Statistica، عادی سازی هر متغیر x با استفاده از فرمول انجام می شود:

برای این کار روی نام متغیر کلیک راست کرده و در منوی باز شده دنباله دستورات را انتخاب کنید: Fill/ Standardize Block/ Standardize Columns. مقادیر متغیر نرمال شده برابر با صفر و واریانس برابر با یک می شود.

روش K-means در برنامه Statistica

روش K-means مجموعه ای از اشیاء را به یک عدد K معین از خوشه های مختلف که در بیشترین فاصله ممکن از یکدیگر قرار دارند، تقسیم می کند. به طور معمول، هنگامی که نتایج یک تحلیل خوشه‌ای K-means به دست آمد، میانگین هر خوشه در امتداد هر بعد را می‌توان محاسبه کرد تا میزان تفاوت خوشه‌ها با یکدیگر را ارزیابی کرد.

در حالت ایده‌آل، شما باید برای بسیاری از اندازه‌گیری‌های مورد استفاده در تجزیه و تحلیل، میانگین‌های بسیار متفاوتی را بدست آورید. مقادیر آماره F به‌دست‌آمده برای هر بعد، شاخص دیگری است که نشان می‌دهد بعد مربوطه چقدر بین خوشه‌ها تمایز قائل است.

به عنوان مثال، نتایج یک نظرسنجی از 17 کارمند یک شرکت در مورد رضایت از شاخص های کیفیت حرفه آنها را در نظر بگیرید. این جدول پاسخ سوالات نظرسنجی را در مقیاس ده درجه ای ارائه می دهد (1 حداقل امتیاز، 10 حداکثر امتیاز).

نام متغیرها با پاسخ به سوالات زیر مطابقت دارد:

  1. SLC - ترکیبی از اهداف شخصی و اهداف سازمانی.
  2. OSO - احساس انصاف در پاداش؛
  3. TBD - نزدیکی سرزمینی به خانه؛
  4. OEB - احساس رفاه اقتصادی؛
  5. KR - رشد شغلی؛
  6. JSR - تمایل به تغییر شغل؛
  7. RSD - احساس رفاه اجتماعی.


با استفاده از این داده ها، لازم است کارکنان را به گروه ها تقسیم کرده و موثرترین اهرم های مدیریتی را برای هر یک از آنها شناسایی کنیم. در عین حال، تفاوت بین گروه ها باید آشکار باشد و پاسخ دهندگان در گروه باید تا حد امکان مشابه باشند.

امروزه اکثر نظرسنجی‌های جامعه‌شناختی تنها درصدی از آرا را ارائه می‌کنند: تعداد اصلی کسانی که پاسخ مثبت داده‌اند یا درصد ناراضی‌ها شمارش می‌شود، اما این موضوع به طور سیستماتیک مورد توجه قرار نمی‌گیرد. اغلب، نظرسنجی روندی را در وضعیت نشان نمی دهد.

روش های تجزیه و تحلیل خوشه ای را می توان برای شناسایی، بر اساس داده های نظرسنجی، برخی از روابط واقعاً موجود بین ویژگی ها و ایجاد گونه شناسی آنها بر این اساس استفاده کرد. وجود هیچ فرضیه پیشینی یک جامعه شناس در هنگام کار با روش های تحلیل خوشه ای وجود ندارد یک شرط ضروری.

در Statistica تحلیل خوشه ای به صورت زیر انجام می شود.

  1. یک فایل داده ایجاد کنید.
  2. ماژول آمار/ تکنیک های اکتشافی چند متغیره/ تحلیل خوشه ای را انتخاب کنید. روی OK کلیک کنید که در نتیجه یک کادر محاوره ای ظاهر می شود:

  3. در پنجره ای که ظاهر می شود، روش K-means clustering را انتخاب کرده و روی OK کلیک کنید.
  4. در کادر محاوره ای که ظاهر می شود، باید تنظیمات زیر را انجام دهید:


    • با استفاده از دکمه Variables متغیرها را انتخاب کنید.
    • انتخاب اشیاء خوشه‌بندی: اینها می‌توانند متغیرها - ستون‌ها (Variables сcolumns)) یا مشاهدات - ردیف‌ها (Cases (ردیف‌ها)) باشند. ابتدا بیایید بر اساس ردیف (Cases(rows)) خوشه بندی کنیم.
    • تعداد خوشه ها را انتخاب کنید.
      این انتخاب توسط کاربر بر اساس فرضیات خود در مورد تعداد گروه های اشیاء مشابه انجام می شود.

      هنگام انتخاب تعداد خوشه ها، به نکات زیر توجه کنید:

      1. تعداد خوشه ها در صورت امکان نباید خیلی زیاد باشد.
      2. فاصله ای که در آن اشیاء یک خوشه معین با هم ترکیب شده اند، در صورت امکان، باید بسیار کمتر از فاصله ای باشد که در آن چیز دیگری به این خوشه می پیوندد.
      هنگام انتخاب تعداد خوشه ها، اغلب چندین خوشه به طور همزمان وجود دارد تصمیمات درست. به عنوان مثال، ما علاقه مندیم که چگونه پاسخ به سؤالات نظرسنجی بین کارمندان عادی و مدیریت شرکت مقایسه شود. بنابراین ما K=2 را انتخاب می کنیم. برای تقسیم بندی بیشتر، می توانید تعداد خوشه ها را افزایش دهید.
    • در مرحله بعد، باید تقسیم اولیه اشیاء را به خوشه ها (Initial Cluster Centers) انتخاب کنید. بسته Statistica ارائه می دهد:
      1. مشاهدات را با حداکثر فاصله بین مراکز خوشه انتخاب کنید.
      2. مرتب سازی فواصل و انتخاب مشاهدات در فواصل زمانی منظم (تنظیم پیش فرض).
      3. اولین مشاهدات را به عنوان مرکز در نظر بگیرید و اجسام باقی مانده را به آنها متصل کنید.

      گزینه اول برای اهداف ما مناسب است.

بسیاری از الگوریتم‌های خوشه‌بندی اغلب ساختاری غیرطبیعی بر داده‌ها تحمیل می‌کنند و محقق را منحرف می‌کنند. بنابراین، استفاده از چندین الگوریتم تجزیه و تحلیل خوشه ای و نتیجه گیری بر اساس ارزیابی کلی از نتایج الگوریتم ها بسیار ضروری است.

نتایج تجزیه و تحلیل را می توان در کادر محاوره ای که ظاهر می شود مشاهده کرد:

اگر برگه Graph of means را انتخاب کنید، نموداری از مختصات مراکز خوشه ساخته می شود:


هر خط شکسته در این نمودار مربوط به یکی از خوشه ها است:

  • هر تقسیم در محور افقی نمودار مربوط به یکی از متغیرهای موجود در تجزیه و تحلیل است.
  • محور عمودی با مقادیر متوسط ​​متغیرها برای اشیاء موجود در هر یک از خوشه ها مطابقت دارد.

می توان به این نکته اشاره کرد که در نگرش این دو گروه از افراد به شغل خود تقریباً در همه مسائل تفاوت های چشمگیری وجود دارد. تنها در یک موضوع اتفاق نظر کامل وجود دارد - احساس رفاه اجتماعی (SSW)، یا بهتر است بگوییم، فقدان آن (2.5 امتیاز از 10).

می توان فرض کرد که:

  1. خوشه 1 کارگران را نشان می دهد،
  2. خوشه 2 - رهبری:
    • مدیران از رشد شغلی (CR)، ترکیب اهداف شخصی و اهداف سازمانی (CLO) رضایت بیشتری دارند.
    • آنها سطوح بالاتری از رفاه اقتصادی درک شده (SEW) و برابری حقوق ادراک شده (SPE) دارند.
    • آنها نسبت به کارگران کمتر نگران نزدیکی سرزمینی به خانه (TPH) هستند، احتمالاً به دلیل مشکلات کمتر در حمل و نقل.
    • همچنین مدیران تمایل کمتری به تغییر شغل (JSR) دارند.

علیرغم این واقعیت که کارگران به دو دسته تقسیم می شوند، آنها به اکثر سؤالات نسبتاً مساوی پاسخ می دهند. به عبارت دیگر، اگر چیزی برای شما مناسب نیست گروه عمومیکارکنان، مدیریت ارشد به یک چیز راضی نیست و بالعکس.

هماهنگی برنامه ها به ما امکان می دهد نتیجه گیری کنیم که رفاه یک گروه در رفاه گروه دیگر منعکس می شود.

خوشه 1 از نزدیکی سرزمینی به خانه راضی نیست. این گروه عمده کارگرانی هستند که عمدتاً از نقاط مختلف شهر به بنگاه می آیند. بنابراین، می توان به مدیریت اصلی پیشنهاد داد که بخشی از سود را به ساخت مسکن برای کارکنان شرکت اختصاص دهد.

تفاوت های قابل توجهی در نگرش این دو گروه از افراد به شغل خود وجود دارد:

  1. آن دسته از کارکنانی که از رشد شغلی خود راضی هستند و بین اهداف شخصی خود و اهداف سازمان توافق بالایی دارند، تمایلی به تغییر شغل ندارند و از نتایج کار خود احساس رضایت می کنند.
  2. برعکس، کارکنانی که می خواهند شغل خود را تغییر دهند و از نتایج کار خود ناراضی هستند، از شاخص های اعلام شده راضی نیستند.

مدیریت ارشد باید توجه ویژه ای به وضعیت فعلی داشته باشد.

نتایج تحلیل واریانس برای هر مشخصه با کلیک بر روی دکمه تجزیه واریانس نمایش داده می شود:

خروجی ها:

  • مجموع مجذور انحراف اجسام از مراکز خوشه (SS درون)،
  • مجموع مجذور انحرافات بین مراکز خوشه (SS Between)،
  • مقادیر آماره F،
  • سطوح اهمیت ص.
برای مثال ما، سطوح معناداری برای دو متغیر بسیار بزرگ است که با تعداد کم مشاهدات توضیح داده می شود. در نسخه کامل تحقیق که در کار آمده است، فرضیه برابری میانگین برای مراکز خوشه ای در سطوح معنی داری کمتر از 01/0 رد شده است.

دکمه ذخیره طبقه بندی ها و فاصله ها تعداد اشیاء موجود در هر خوشه و فاصله اشیاء تا مرکز هر خوشه را نمایش می دهد.

ترکیب هر خوشه و فاصله اجسام از مرکز

جدول اعداد مشاهده (CASE_NO)، خوشه های تشکیل دهنده با اعداد CLUSTER و فاصله از مرکز هر خوشه (DISTANCE) را نشان می دهد.

اطلاعات مربوط به اشیاء متعلق به خوشه ها را می توان در یک فایل نوشت و در تجزیه و تحلیل بیشتر استفاده کرد. در این مثال، مقایسه نتایج به‌دست‌آمده با پرسشنامه‌ها نشان داد که خوشه 1 عمدتاً از کارگران عادی و خوشه 2 از مدیران تشکیل شده است.

بنابراین، می توان اشاره کرد که هنگام پردازش نتایج نظرسنجی، تجزیه و تحلیل خوشه ای مشخص شد روش قدرتمند، به شما امکان می دهد با ساختن هیستوگرام میانگین ها یا محاسبه درصد رضایتمندان از شاخص های مختلف کیفیت به نتایجی دست یابید که نمی توان به آنها دست یافت. زندگی کاری.

خوشه‌بندی درختی نمونه‌ای از یک الگوریتم سلسله مراتبی است که اصل آن ترکیب متوالی در یک خوشه، ابتدا نزدیک‌ترین و سپس دورتر عناصر از یکدیگر است. بیشتر این الگوریتم‌ها از یک ماتریس شباهت (فاصله) شروع می‌شوند و هر عنصر جداگانه ابتدا به عنوان یک خوشه جداگانه در نظر گرفته می‌شود.

پس از بارگذاری ماژول تجزیه و تحلیل خوشه و انتخاب Joining (خوشه بندی درختی)، در پنجره وارد کردن پارامترهای خوشه بندی می توانید تغییر دهید. پارامترهای زیر:

  1. داده های اولیه (ورودی). آنها می توانند به صورت ماتریس از داده های مورد مطالعه (داده های خام) و به صورت ماتریس فاصله (ماتریس فاصله) باشند.
  2. خوشه‌بندی مشاهدات (موارد (خام)) یا متغیرها (متغیر (ستون‌ها)) که وضعیت یک شی را توصیف می‌کنند.
  3. اندازه گیری فاصله در اینجا می توانید از اقدامات زیر انتخاب کنید:
    • فاصله های اقلیدسی،
    • فواصل اقلیدسی مربعی،
    • فاصله بلوک های شهر (فاصله منهتن، فاصله بلوک شهر (منهتن)، متریک فاصله چبیچف،
    • فاصله قدرت (Power...;),
    • درصد اختلاف نظر
  4. روش خوشه بندی (قاعده ادغام (پیوند)).
    گزینه های زیر در اینجا امکان پذیر است:
    • پیوند واحد (روش نزدیکترین همسایه) (پیوند تک)،
    • پیوند کامل (روش همسایه های دور)،
    • میانگین گروه زوج وزنی،
    • میانگین وزنی جفت گروه،
    • روش سانتروئید بدون وزن (سانتروئید زوج-گروه بدون وزن)،
    • روش جفت-گروه وزن دار مرکز (میانگین)،
    • روش وارد.

در نتیجه خوشه بندی، یک دندروگرام افقی یا عمودی ساخته می شود - نموداری که در آن فاصله بین اشیاء و خوشه ها هنگام ترکیب متوالی تعیین می شود.

ساختار درختی نمودار به شما اجازه می دهد تا خوشه ها را بسته به آستانه انتخاب شده تعریف کنید - فاصله مشخصی بین خوشه ها.

علاوه بر این، ماتریسی از فواصل بین اشیاء اصلی (ماتریس فاصله) نمایش داده می شود. میانگین و انحراف استاندارد برای هر شی منبع (Distiptive statistics). برای مثال در نظر گرفته شده، تجزیه و تحلیل خوشه ای از متغیرها را با تنظیمات پیش فرض انجام خواهیم داد. دندروگرام حاصل در شکل نشان داده شده است:


محور عمودی دندروگرام فواصل بین اجسام و بین اشیا و خوشه ها را نشان می دهد. بنابراین، فاصله بین متغیرهای OEB و OSD پنج است. در مرحله اول، این متغیرها در یک خوشه ترکیب می شوند.

بخش های افقی دندروگرام در سطوح مربوط به مقادیر فاصله آستانه انتخاب شده برای یک مرحله خوشه بندی مشخص ترسیم می شوند.

نمودار نشان می دهد که سوال "میل به تغییر شغل" (WSW) یک خوشه جداگانه را تشکیل می دهد. به طور کلی، تمایل به رفتن به هر جایی همه را به یک اندازه ملاقات می کند. بعد، یک خوشه جداگانه، مسئله نزدیکی سرزمینی به خانه (TDP) است.

از نظر اهمیت در رتبه دوم قرار دارد که موید نتیجه گیری در مورد نیاز به ساخت مسکن بر اساس نتایج مطالعه با استفاده از روش K-means می باشد.

رفاه اقتصادی درک شده (SEW) و حقوق صاحبان سهام (SEE) ترکیب شده اند - این یک بلوک است مسائل اقتصادی. توسعه شغلی (CR) و ترکیبی از اهداف شخصی و سازمانی (LOG) نیز ترکیب شده اند.

سایر روش های خوشه بندی و همچنین انتخاب انواع دیگر فاصله ها منجر به تغییر قابل توجهی در دندروگرام نمی شود.

نتایج

  1. تحلیل خوشه ای ابزاری قدرتمند برای تجزیه و تحلیل داده های اکتشافی و تحقیقات آماری در هر زمینه موضوعی است.
  2. برنامه Statistica هر دو روش سلسله مراتبی و ساختاری تجزیه و تحلیل خوشه را اجرا می کند. مزایای این بسته آماری از قابلیت های گرافیکی آن ها نشات می گیرد. نمایش های گرافیکی دو بعدی و سه بعدی از خوشه های حاصل در فضای متغیرهای مورد مطالعه و همچنین نتایج روش سلسله مراتبی برای گروه بندی اشیاء ارائه شده است.
  3. استفاده از چندین الگوریتم تحلیل خوشه ای و نتیجه گیری بر اساس ارزیابی کلی از نتایج الگوریتم ها ضروری است.
  4. تحلیل خوشه ای در صورت تکمیل شدن می تواند موفق تلقی شود به روش های مختلفنتایج مقایسه شد و الگوهای کلی یافت شد و خوشه های پایدار بدون توجه به روش خوشه بندی یافت شد.
  5. تجزیه و تحلیل خوشه ای به ما امکان شناسایی را می دهد موقعیت های مشکل سازو راه های حل آنها را بیان کنید. در نتیجه، این روش آمار ناپارامتریک را می توان به عنوان بخشی جدایی ناپذیر از تحلیل سیستم در نظر گرفت.

آزاد کردیم کتاب جدید"بازاریابی محتوا در شبکه های اجتماعی: چگونه به ذهن مشترکین خود وارد شوید و آنها را عاشق برند خود کنید."

مشترک شوید

خوشه بندی هسته معنایی، تقسیم بسیاری از پرس و جوهای ناهمگن به گروه ها بر اساس معنا است.


ویدیوهای بیشتر در کانال ما - بازاریابی اینترنتی را با SEMANTICA یاد بگیرید

برای درک بهتر اینکه خوشه بندی چیست، می توانید تصور کنید که لباس های شسته شده را قبل از شستشو آماده کنید. برای اینکه شستشوی سریع و پربار باشد، اقلام از نظر رنگ به چند گروه تقسیم می شوند. الف خانم های خانه دار با تجربهمرتب سازی لباسشویی را با جزئیات بیشتری انجام دهید. در هر گروه رنگی چیزهایی وجود دارد که به رژیم دمایی خاصی نیاز دارند. آنها به گروه های جداگانه تقسیم می شوند. چیزی مشابه با خوشه بندی اتفاق می افتد کلمات کلیدی. این فرآیندی است که صدها و هزاران درخواست کاربر را به یک ساختار سازمان یافته تبدیل می کند.

در حالت ایده‌آل، خوشه‌بندی کلیدها باید بر اساس فهرستی از ویژگی‌های اشیایی که این کلیدها را مشخص می‌کنند، و همچنین زمینه استفاده از آنها انجام شود. با این حال، در حال حاضر هیچ پایگاه داده باز برای ذخیره چنین اطلاعاتی وجود ندارد. به همین دلیل، کلمات کلیدی بر اساس نتایج جستجو گروه بندی می شوند.

مراحل خوشه بندی:

  1. به دست آوردن مجموعه ای از اشیاء برای گروه بندی.
  2. تعیین فهرستی از معیارها برای ارزیابی اشیاء در نمونه.
  3. تعیین درجه تشابه بین اشیاء مورد تجزیه و تحلیل.
  4. انجام تجزیه و تحلیل خوشه ای برای تشکیل گروه هایی از اشیاء.
  5. ارائه نتایج خوشه بندی.

چرا باید SYNOPSIS را خوشه بندی کنید؟

با کمک ابزارهای شایسته، می توانید هسته های معنایی بزرگ را در حداقل زمان گروه بندی کنید. اگر در گذشته ایجاد یک هسته ماه ها طول می کشید، اکنون این کار تنها چند ساعت طول می کشد. یکی از مزایای خوشه بندی توزیع پرس و جوهای جستجو در بین صفحات است به طوری که آنها به طور همزمان تبلیغ می شوند.

خوشه بندی هسته معنایی به شما این امکان را می دهد که:

  • صرفه جویی قابل توجه در زمان با کاهش کارهای معمولی.
  • راهنمای اطلاعات در مورد موضوعات محبوب در بین کاربران.
  • طرح ارتقاء.
  • نمایش ساختار وب سایت در حال توسعه.
  • ارزیابی عینی از محبوبیت محصولات در طاقچه مشخص شده.
  • فهرست کلیدهای بهینه سازی منابع
  • پیاده سازی تغییر مسیر صحیح صفحات وب.
  • ایجاد یک دنباله بزرگ از عبارت های جستجو.

اگر خوشه نشوید چه اتفاقی می افتد؟

اگر از تقسیم هسته معنایی سایت به خوشه ها غفلت کنیم، صاحب آن تصویر کاملی از ارتقای منبع خود دریافت نخواهد کرد. نتیجه مشابهی را می توان به دلیل توزیع نادرست عبارات جستجو به دست آورد.

در اینجا لیستی از مشکلاتی وجود دارد که پس از گروه بندی نادرست کلیدها ایجاد می شود:

  • موقعیت در بالای نتایج جستجو از دست رفته است.
  • آدم خواری رخ می دهد و در نتیجه، موارد تکراری زیادی در فهرست های موتورهای جستجو ظاهر می شود.
  • عدم جهت گیری عوامل رفتاری رخ می دهد که در ارتقاء منبع دخالت می کند.
  • مقدار زیادی پول صرف ایجاد محتوای «اضافی» می شود.

حذف و پیشگیری از چنین مشکلاتی پاسخ اصلی به این سوال است: «چرا خوشه‌بندی؟»

الگوریتم های خوشه بندی

متخصصان سئو دو نوع طبقه بندی الگوریتم های خوشه بندی را تشخیص می دهند:

سلسله مراتبی و مسطح

الگوریتم های سلسله مراتبی (که به آنها الگوریتم های تاکسونی نیز گفته می شود) نه تنها یک تقسیم از یک مجموعه را به خوشه های متقاطع تشکیل می دهند، بلکه یک ساختار چند سطحی از پارتیشن های تودرتو را تشکیل می دهند. در نتیجه درختی از خوشه ها تشکیل می شود. نمونه عمومی به عنوان ریشه آن عمل می کند و کوچکترین گروه ها به عنوان برگ آن عمل می کنند.

الگوریتم های مسطح یک تقسیم بندی از اشیاء را به گروه ها تشکیل می دهند.

شفاف و مبهم

الگوریتم های Clear هر عنصر نمونه را با یک عدد خوشه مرتبط می کنند. الگوریتم‌های فازی هر عنصر نمونه را با ترکیبی از مقادیر واقعی مرتبط می‌کنند که اندازه‌گیری عضویت عنصر در خوشه‌ها را منعکس می‌کند. بنابراین، هر عنصر نمونه با احتمال خاصی به هر گروه تعلق دارد.

نحوه خوشه بندی دستی پرس و جوها

برای خوشه بندی دستی هسته معنایی یک سایت، کافی است به طور مستقل کلمات کلیدی را تجزیه و تحلیل کرده و آنها را به گروه ها تقسیم کنید. این کار را می توان با استفاده از ابزارهای Excel، LibreOffice، OpenOffice آسانتر کرد. این برنامه ها به شما امکان می دهند با جداول داده کار کنید، بر اساس پارامترهای خاصی مرتب کنید و فیلتر کنید.

ابزارهای ارائه شده دارای چندین مزیت هستند:

  • تطبیق پذیری - گروه بندی با در نظر گرفتن بسیاری از معیارهای مختلف انجام می شود.
  • دقت پردازش بالا؛
  • LibreOffice، OpenOffice - رایگان.

از جمله معایب آنها:

  • نیاز به پشتیبان گیری دوره ای؛
  • سرعت پردازش پایین؛
  • اکسل دارای مجوز - پولی.

خوشه‌بندی دستی هسته معنایی یک سایت در مقایسه با خوشه‌بندی خودکار پیچیده‌تر و زمان‌برتر است. اما شما می توانید شخصاً کل فرآیند را کنترل کنید. اگر به این نکته توجه کافی داشته باشید، نتیجه از نظر کیفی برتر از خوشه بندی خودکار خواهد بود.

خوشه بندی خودکار

تقسیم هسته معنایی به گروه ها به طور خودکار اتفاق می افتد.

کافی است مدیر وب سایت نتایج به دست آمده را ارزیابی کند. تنها نقطه ضعف این رویکرد، اختلاف گاه و بیگاه بین منطق ماشین و ایده های کاربر است.

یک روش نیمه خودکار برای گروه بندی عبارت های جستجو می تواند این مشکل را حل کند. برای انجام این کار، متخصص باید به طور مستقل گروه ها را بر اساس درخواست های دریافت شده انتخاب کند. و خود سیستم خودکار درخواست ها را به گروه های مشخص شده توسط کاربر تقسیم می کند. این رویکرد به ما اجازه می دهد تا به طور قابل توجهی خطاهای الگوریتم ماشین را به حداقل برسانیم.

نحوه خوشه بندی پرس و جوها با استفاده از Key Collector

Key Collector یکی از بهترین برنامه ها برای خوشه بندی در نظر گرفته می شود. این برنامه به شما امکان می دهد به سرعت کلیدهایی را به دست آورید که بر اساس آنها یک هسته معنایی تشکیل می شود. این سیستم می تواند رقابت، کارایی و هزینه کلیدها را ارزیابی کند و همچنین منبع را برای انطباق محتوای آن با هسته دریافتی تجزیه و تحلیل کند.

نحوه کار Key Collector بسیار ساده است. برای جداسازی تمامی درخواست های دریافتی، باید از گزینه «تحلیل گروهی» استفاده کنید. در این مورد، سیستم باید حالت خوشه بندی را مشخص کند ("by کلمات فردی"، "بر اساس ترکیب عبارات"، "بر اساس نتایج جستجو"، "بر اساس ترکیب عبارات و نتایج جستجو"). حالت "بر اساس کلمات فردی" عبارت های جستجویی را گروه بندی می کند که حتی در یک کلمه مطابقت دارند. حالت ترکیب عبارت" روی ساختار عبارات کلیدی است. این مناسب ترین راه برای تقسیم تعداد زیادی از پرس و جوها است. حالت "بر اساس نتایج جستجو" عبارات کلیدی را بر اساس تعداد پیوندهای منطبق در نتایج جستجو گروه بندی می کند. حالت با ترکیب عبارت و نتایج جستجو، دو معیار قبلی را ترکیب می کند.

نمونه ای از خوشه بندی هسته معنایی در سیستم Key Collector:

برای ارزیابی گروه‌های به‌دست‌آمده، می‌توان آن‌ها را در یک ویرایشگر صفحه‌گسترده (مثلاً اکسل) بارگذاری کرد.

تحلیل خوشه ای

اکثر محققان تمایل دارند بر این باورند که برای اولین بار اصطلاح "تحلیل خوشه ای" (انگلیسی) خوشه- دسته، لخته، دسته) توسط ریاضیدان R. Trion پیشنهاد شد. متعاقبا، تعدادی از اصطلاحات به وجود آمد که در حال حاضر مترادف با اصطلاح "تحلیل خوشه ای" در نظر گرفته می شوند: طبقه بندی خودکار; بوتریولوژی

تحلیل خوشه‌ای یک روش آماری چند متغیره است که داده‌های حاوی اطلاعات نمونه‌ای از اشیاء را جمع‌آوری می‌کند و سپس اشیاء را در گروه‌های نسبتاً همگن (خوشه‌ها) مرتب می‌کند (خوشه‌بندی Q، یا تکنیک Q، خود آنالیز خوشه‌ای). خوشه - گروهی از عناصر که با دارایی مشترک، هدف اصلی تجزیه و تحلیل خوشه ای یافتن گروه هایی از اشیاء مشابه در نمونه است. دامنه کاربردهای تحلیل خوشه ای بسیار گسترده است: از آن در باستان شناسی، پزشکی، روانشناسی، شیمی، زیست شناسی، مدیریت دولتی، زبان شناسی، مردم شناسی، بازاریابی، جامعه شناسی و سایر رشته ها استفاده می شود. با این حال، جهانی بودن کاربرد منجر به ظهور تعداد زیادی از اصطلاحات، روش‌ها و رویکردهای ناسازگار شده است که استفاده بدون ابهام و تفسیر منسجم از تحلیل خوشه‌ای را دشوار می‌کند. Orlov A.I تمایز را به شرح زیر پیشنهاد می کند:

اهداف و شرایط

تجزیه و تحلیل خوشه ای موارد زیر را انجام می دهد وظایف اصلی:

  • توسعه یک نوع شناسی یا طبقه بندی.
  • کاوشی از طرح‌های مفهومی مفید برای گروه‌بندی اشیا.
  • ایجاد فرضیه بر اساس اکتشاف داده ها.
  • آزمایش فرضیه یا تحقیق برای تعیین اینکه آیا انواع (گروه‌های) شناسایی‌شده به روشی واقعی در داده‌های موجود وجود دارند یا خیر.

صرف نظر از موضوع مطالعه، استفاده از تحلیل خوشه ای شامل می شود مراحل بعدی:

  • انتخاب نمونه برای خوشه بندی مفهوم این است که خوشه بندی فقط داده های کمی منطقی است.
  • تعیین مجموعه متغیرهایی که توسط آنها اشیاء در نمونه ارزیابی می شوند، یعنی فضای ویژگی.
  • محاسبه مقادیر یک معیار خاص از شباهت (یا تفاوت) بین اشیاء.
  • استفاده از روش تحلیل خوشه ای برای ایجاد گروه هایی از اشیاء مشابه.
  • بررسی قابلیت اطمینان نتایج راه حل خوشه ای.

تحلیل خوشه ای موارد زیر را ارائه می دهد الزامات داده:

  1. شاخص ها نباید با یکدیگر مرتبط باشند.
  2. شاخص ها نباید با تئوری اندازه گیری تضاد داشته باشند.
  3. توزیع شاخص ها باید نزدیک به نرمال باشد.
  4. شاخص ها باید الزامات "ثبات" را برآورده کنند، که به معنای عدم تاثیرگذاری بر مقادیر آنها توسط عوامل تصادفی است.
  5. نمونه باید همگن باشد و حاوی "غیره های پرت" نباشد.

می توانید شرحی از دو الزام اساسی برای داده ها پیدا کنید - همگنی و کامل بودن:

همگنی مستلزم آن است که همه موجودات نشان داده شده در جدول از یک ماهیت باشند. لازمه کامل بودن این است که مجموعه ها منو جیفهرست کاملی از تظاهرات پدیده مورد بررسی ارائه کرد. اگر جدولی را در نظر بگیریم که در آن من- کلیت، و جی- مجموعه ای از متغیرهای توصیف کننده این جامعه، باید نمونه ای معرف از جامعه مورد مطالعه و سیستم ویژگی ها باشد. جیباید نمایش برداری رضایت بخشی از افراد ارائه دهد مناز دیدگاه محقق

اگر تجزیه و تحلیل خوشه قبل از تجزیه و تحلیل عاملی باشد، نمونه نیازی به "تعمیر" ندارد - الزامات اعلام شده به طور خودکار توسط روش مدل سازی عاملی برآورده می شود (مزیت دیگری وجود دارد - استانداردسازی z بدون پیامدهای منفیبرای نمونه برداری؛ اگر مستقیماً برای تجزیه و تحلیل خوشه ای انجام شود، ممکن است منجر به کاهش وضوح تقسیم گروه ها شود. در غیر این صورت، نمونه نیاز به تنظیم دارد.

گونه شناسی مسائل خوشه بندی

انواع ورودی

در علم مدرن از چندین الگوریتم برای پردازش داده های ورودی استفاده می شود. تجزیه و تحلیل با مقایسه اشیاء بر اساس ویژگی ها (متداول ترین در علوم زیستی) نامیده می شود س- نوع تجزیه و تحلیل و در مورد مقایسه ویژگی ها بر اساس اشیا - آر-نوع تحلیل تلاش هایی برای استفاده از انواع ترکیبی از تجزیه و تحلیل وجود دارد (به عنوان مثال، RQ-تحلیل)، اما این روش هنوز به درستی توسعه نیافته است.

اهداف خوشه بندی

  • درک داده ها با شناسایی ساختار خوشه. تقسیم نمونه به گروه‌هایی از اشیاء مشابه، ساده‌سازی پردازش و تصمیم‌گیری بیشتر داده‌ها را با استفاده از روش متفاوتی برای تجزیه و تحلیل برای هر خوشه (استراتژی «تقسیم کن و غلبه کن») ممکن می‌سازد.
  • فشرده سازی داده ها اگر نمونه اصلی بیش از حد بزرگ است، می توانید آن را کاهش دهید و یک نماینده معمولی از هر خوشه باقی بگذارید.
  • تشخیص تازگی تشخیص تازگی). اشیاء غیر معمولی شناسایی می شوند که نمی توانند به هیچ یک از خوشه ها متصل شوند.

در حالت اول سعی می کنند تعداد خوشه ها را کوچکتر کنند. در مورد دوم، اطمینان از درجه بالایی از شباهت اشیاء در هر خوشه مهم تر است و می تواند هر تعداد خوشه وجود داشته باشد. در مورد سوم، جالب ترین اشیاء فردی هستند که در هیچ یک از خوشه ها قرار نمی گیرند.

در تمام این موارد می توان از خوشه بندی سلسله مراتبی استفاده کرد، زمانی که خوشه های بزرگ به خوشه های کوچکتر تقسیم می شوند که به نوبه خود به خوشه های کوچکتر و غیره تقسیم می شوند. به چنین مسائلی مسائل طبقه بندی می گویند. طبقه بندی منجر به یک ساختار سلسله مراتبی درخت مانند می شود. علاوه بر این، هر شی با فهرستی از تمام خوشه هایی که به آنها تعلق دارد مشخص می شود، معمولاً از بزرگ به کوچک.

روش های خوشه بندی

هیچ طبقه‌بندی پذیرفته‌شده‌ای برای روش‌های خوشه‌بندی وجود ندارد، اما می‌توان به تلاش محکم V.S. Berikov و G.S. Lbov اشاره کرد. اگر طبقه‌بندی‌های مختلف روش‌های خوشه‌بندی را تعمیم دهیم، می‌توانیم تعدادی از گروه‌ها را متمایز کنیم (بعضی از روش‌ها را می‌توان به چند گروه در یک زمان طبقه‌بندی کرد و بنابراین پیشنهاد می‌شود این گونه‌بندی را به عنوان تقریبی به طبقه‌بندی واقعی روش‌های خوشه‌بندی در نظر بگیریم):

  1. رویکرد احتمالی. فرض بر این است که هر شیء مورد بررسی متعلق به یکی از کلاس های k است. برخی از نویسندگان (به عنوان مثال، A.I. Orlov) معتقدند که این گروه به هیچ وجه به خوشه بندی مربوط نمی شود و با نام "تبعیض"، یعنی انتخاب تخصیص اشیا به یکی از گروه های شناخته شده (نمونه های آموزشی) با آن مخالفت می کنند.
  2. رویکردهای مبتنی بر سیستم های هوش مصنوعی. یک گروه بسیار مشروط، زیرا روش‌های هوش مصنوعی زیادی وجود دارد و از نظر روش‌شناسی بسیار متفاوت هستند.
  3. رویکرد منطقی. دندروگرام با استفاده از درخت تصمیم ساخته می شود.
  4. رویکرد نظری نمودار.
    • الگوریتم های خوشه بندی نمودار
  5. رویکرد سلسله مراتبی. وجود گروه‌های تودرتو (خوشه‌های راسته‌های مختلف) فرض می‌شود. الگوریتم ها به نوبه خود به دو دسته انبوهی (یکپارچه کننده) و تقسیمی (جداکننده) تقسیم می شوند. بر اساس تعداد ویژگی ها، گاه روش های طبقه بندی توحیدی و چندگانه را از هم متمایز می کنند.
    • خوشه بندی تقسیمی سلسله مراتبی یا طبقه بندی. مشکلات خوشه‌بندی در یک طبقه‌بندی کمی بررسی می‌شوند.
  6. روش های دیگر. در گروه های قبلی گنجانده نشده است.
    • الگوریتم های خوشه بندی آماری
    • مجموعه ای از خوشه
    • الگوریتم های خانواده KRAB
    • الگوریتم بر اساس روش الک
    • DBSCAN و همکاران

رویکردهای 4 و 5 گاهی با نام رویکرد ساختاری یا هندسی ترکیب می‌شوند که مفهومی رسمی‌تر از مجاورت دارد. علیرغم تفاوت های قابل توجه بین روش های ذکر شده، همه آنها به روش اصلی تکیه می کنند. فرضیه فشردگی«: در فضای اجسام، همه اشیای نزدیک باید به یک خوشه تعلق داشته باشند و بر این اساس، همه اشیاء مختلف باید در خوشه های مختلف باشند.

فرمول بندی رسمی مسئله خوشه بندی

اجازه دهید مجموعه ای از اشیاء باشد و مجموعه ای از اعداد (نام ها، برچسب ها) از خوشه ها باشد. تابع فاصله بین اشیاء مشخص شده است. یک نمونه آموزشی محدود از اشیاء وجود دارد. لازم است که نمونه را به زیرمجموعه های مجزا به نام تقسیم کرد خوشه ها، به طوری که هر خوشه از اشیایی تشکیل شده است که از نظر متریک مشابه هستند و اشیاء خوشه های مختلف به طور قابل توجهی متفاوت هستند. در این حالت به هر شیء یک عدد خوشه اختصاص داده می شود.

الگوریتم خوشه بندیتابعی است که یک عدد خوشه را به هر شی اختصاص می دهد. در برخی موارد، مجموعه از قبل شناخته شده است، اما بیشتر اوقات وظیفه تعیین تعداد بهینه خوشه ها، از نقطه نظر یک یا دیگری است. معیارهای کیفیتخوشه بندی

خوشه‌بندی (یادگیری بدون نظارت) با طبقه‌بندی (یادگیری تحت نظارت) تفاوت دارد زیرا برچسب‌های اشیاء اصلی در ابتدا مشخص نشده‌اند و حتی ممکن است خود مجموعه ناشناخته باشد.

راه‌حل مشکل خوشه‌بندی اساسا مبهم است و دلایل متعددی برای آن وجود دارد (همانطور که تعدادی از نویسندگان معتقدند):

  • به وضوح وجود ندارد بهترین معیارکیفیت خوشه بندی شناخته شده است یک سری کاملمعیارهای اکتشافی، و همچنین تعدادی از الگوریتم‌ها که معیار مشخصی ندارند، اما خوشه‌بندی نسبتاً معقولی را «با ساخت» انجام می‌دهند. همه می توانند بدهند نتایج متفاوت. بنابراین، برای تعیین کیفیت خوشه‌بندی، به یک متخصص حوزه نیاز است که بتواند معنی‌داری انتخاب خوشه را ارزیابی کند.
  • تعداد خوشه ها معمولاً از قبل ناشناخته است و بر اساس برخی معیارهای ذهنی تنظیم می شود. این فقط برای روش‌های تبعیض صادق است، زیرا در روش‌های خوشه‌بندی، خوشه‌ها از طریق یک رویکرد رسمی بر اساس معیارهای مجاورت شناسایی می‌شوند.
  • نتیجه خوشه بندی به طور قابل توجهی به متریک بستگی دارد، که انتخاب آن، به عنوان یک قاعده، نیز ذهنی است و توسط یک متخصص تعیین می شود. اما شایان ذکر است که تعدادی توصیه برای انتخاب معیارهای مجاورت برای کارهای مختلف وجود دارد.

برنامه

در زیست شناسی

در زیست شناسی، خوشه بندی کاربردهای زیادی در زمینه های مختلف دارد. به عنوان مثال، در بیوانفورماتیک برای تجزیه و تحلیل شبکه های پیچیده ژن های متقابل، که گاهی از صدها یا حتی هزاران عنصر تشکیل شده است، استفاده می شود. تجزیه و تحلیل خوشه ای امکان شناسایی زیرشبکه ها، گلوگاه ها، هاب ها و سایر ویژگی های پنهان سیستم مورد مطالعه را فراهم می کند که در نهایت امکان کشف سهم هر ژن در شکل گیری پدیده مورد مطالعه را فراهم می کند.

در زمینه اکولوژی، به طور گسترده ای برای شناسایی گروه های همگن فضایی از موجودات، جوامع، و غیره استفاده می شود. کمتر رایج، روش های تجزیه و تحلیل خوشه ای برای مطالعه جوامع در طول زمان استفاده می شود. ناهمگونی ساختار جامعه منجر به ظهور روش های غیر پیش پا افتاده تحلیل خوشه ای می شود (به عنوان مثال، روش چکانوفسکی).

به طور کلی، شایان ذکر است که از نظر تاریخی، معیارهای تشابه به جای معیارهای تفاوت (فاصله) اغلب به عنوان معیارهای نزدیکی در زیست شناسی مورد استفاده قرار می گیرند.

در جامعه شناسی

هنگام تجزیه و تحلیل نتایج تحقیقات جامعه شناختیتوصیه می شود که تجزیه و تحلیل را با استفاده از روش های خانواده تراکم سلسله مراتبی، یعنی روش Ward انجام دهید، که در آن حداقل پراکندگی درون خوشه ها بهینه می شود و منجر به ایجاد خوشه های تقریباً می شود. اندازه های مساوی. روش وارد برای تحلیل داده های جامعه شناختی مناسب ترین است. معیار بهتری برای تفاوت فاصله اقلیدسی درجه دوم است که به افزایش کنتراست خوشه ها کمک می کند. نتیجه اصلی تجزیه و تحلیل خوشه سلسله مراتبی یک دندروگرام یا "نمودار یخی" است. در هنگام تفسیر آن، محققان با همان مشکلی مواجه می شوند که تفسیر نتایج تحلیل عاملی وجود دارد - فقدان معیارهای واضح برای شناسایی خوشه ها. توصیه می شود از دو روش اصلی استفاده شود - تجزیه و تحلیل بصری دندروگرام و مقایسه نتایج خوشه بندی انجام شده با روش های مختلف.

تجزیه و تحلیل بصری دندروگرام شامل "بریدن" درخت در سطح بهینه شباهت عناصر نمونه است. توصیه می‌شود که شاخه انگور را در سطح 5 از مقیاس ترکیبی خوشه‌ای فاصله‌گذاری مجدد، قطع کنید (اصطلاحات M. S. Oldenderfer و R. K. Blashfield)، بنابراین سطح شباهت 80٪ به دست می‌آید. اگر شناسایی خوشه‌ها با استفاده از این برچسب دشوار است (چند خوشه کوچک در یک خوشه بزرگ ادغام می‌شوند)، می‌توانید برچسب دیگری را انتخاب کنید. این تکنیک توسط Oldenderfer و Blashfield پیشنهاد شده است.

اکنون این سوال در مورد پایداری راه حل خوشه ای اتخاذ شده مطرح می شود. در اصل، بررسی پایداری خوشه‌بندی به بررسی قابلیت اطمینان آن ختم می‌شود. در اینجا یک قاعده کلی وجود دارد - زمانی که روش های خوشه بندی تغییر می کند، یک گونه شناسی پایدار حفظ می شود. نتایج تجزیه و تحلیل خوشه سلسله مراتبی را می توان با تحلیل خوشه ای تکراری با استفاده از روش k-means تأیید کرد. اگر طبقه‌بندی‌های مقایسه شده گروه‌های پاسخ‌دهندگان دارای نرخ تصادفی بیش از 70٪ (بیش از 2/3 از منطبق‌ها) باشند، تصمیم خوشه‌ای گرفته می‌شود.

بررسی کفایت یک راه حل بدون توسل به نوع دیگری از تجزیه و تحلیل غیرممکن است. حداقل از نظر تئوری این مشکل حل نشده است. مقاله کلاسیک اولنددرفر و بلاشفیلد، تحلیل خوشه‌ای، به تفصیل بحث می‌کند و در نهایت پنج روش دیگر تست استحکام را رد می‌کند:

در علوم کامپیوتر

  • خوشه‌بندی نتایج جستجو - برای گروه‌بندی «هوشمند» نتایج در هنگام جستجوی فایل‌ها، وب‌سایت‌ها و سایر اشیاء استفاده می‌شود، به کاربر امکان می‌دهد تا به سرعت پیمایش کند، زیرمجموعه‌ای آشکارا مرتبط‌تر را انتخاب کند و زیرمجموعه‌ای آشکارا کمتر مرتبط را حذف کند. افزایش قابلیت استفاده از رابط در مقایسه با خروجی در قالب یک لیست ساده مرتب شده بر اساس ارتباط.
    • Clusty یک موتور جستجوی خوشه‌بندی از Vivísimo است
    • Nigma - موتور جستجوی روسی با خوشه بندی خودکار نتایج
    • Quintura - خوشه بندی بصری در قالب یک ابر کلمه کلیدی
  • تقسیم بندی تصویر تقسیم بندی تصویر) - از خوشه بندی می توان برای پارتیشن بندی استفاده کرد تصویر دیجیتالبه مناطق جداگانه برای تشخیص مرزها (eng. تشخیص لبه) یا تشخیص شی.
  • داده کاوی داده کاوی)- خوشه بندی در داده کاوی زمانی ارزش پیدا می کند که به عنوان یکی از مراحل تجزیه و تحلیل داده ها و ساخت یک راه حل تحلیلی کامل عمل کند. اغلب برای یک تحلیلگر شناسایی گروه هایی از اشیاء مشابه، مطالعه ویژگی های آنها و ساختن یک مدل جداگانه برای هر گروه آسان تر از ایجاد یک مدل است. مدل کلیبرای همه داده ها این تکنیک به طور مداوم در بازاریابی، شناسایی گروه هایی از مشتریان، خریداران، محصولات و تدوین استراتژی جداگانه برای هر یک از آنها استفاده می شود.

همچنین ببینید

یادداشت ها

پیوندها

به زبان روسی
  • www.MachineLearning.ru - منبع ویکی حرفه ای که به یادگیری ماشین و داده کاوی اختصاص داده شده است
به زبان انگلیسی
  • COMPACT - بسته مقایسه ای برای ارزیابی خوشه بندی. بسته رایگان Matlab، 2006.
  • پی برخین، بررسی تکنیک های داده کاوی خوشه بندی, Accrue Software, 2002.
  • جین، مورتی و فلین: خوشه بندی داده ها: یک بررسی, ACM Comp. Surv.، 1999.
  • برای ارائه دیگری از میانگین های سلسله مراتبی، k-means و c-means فازی این مقدمه برای خوشه بندی را ببینید. همچنین توضیحی در مورد مخلوط گاوسیان دارد.
  • دیوید دوو صفحه مدل سازی مخلوط- سایر پیوندهای مدل خوشه‌بندی و مخلوط.
  • آموزش خوشه بندی
  • کتاب درسی آنلاین: نظریه اطلاعات، استنتاج و الگوریتم های یادگیری، نوشته دیوید جی سی. مک کی شامل فصول مربوط به خوشه بندی k-means، خوشه بندی k-means نرم، و مشتقاتی از جمله الگوریتم E-M و نمای متغیر الگوریتم E-M است.
  • "ژن خودسازماندهی"، آموزش توضیح خوشه بندی از طریق یادگیری رقابتی و نقشه های خودسازماندهی.
  • kernlab - بسته R برای یادگیری ماشین مبتنی بر هسته (شامل اجرای خوشه بندی طیفی)
  • آموزش - آموزش با معرفی الگوریتم های خوشه بندی (k-means، فازی-c-means، سلسله مراتبی، مخلوطی از گاوسیان) + چند نسخه نمایشی تعاملی (ابزارهای جاوا)
  • نرم افزار داده کاوی - نرم افزار داده کاوی اغلب از تکنیک های خوشه بندی استفاده می کند.
  • برنامه یادگیری رقابتی جاوا مجموعه ای از شبکه های عصبی بدون نظارت برای خوشه بندی. به زبان جاوا نوشته شده است. کامل با تمام کد منبع.
  • نرم افزار یادگیری ماشین - همچنین شامل بسیاری از نرم افزارهای خوشه بندی است.

، مدیریت دولتی، زبان شناسی، مردم شناسی، بازاریابی، جامعه شناسی، زمین شناسی و سایر رشته ها. با این حال، جهانی بودن کاربرد منجر به ظهور تعداد زیادی از اصطلاحات، روش‌ها و رویکردهای ناسازگار شده است که استفاده بدون ابهام و تفسیر منسجم از تحلیل خوشه‌ای را دشوار می‌کند.

یوتیوب دایره المعارفی

  • 1 / 5

    تحلیل خوشه ای وظایف اصلی زیر را انجام می دهد:

    • توسعه یک نوع شناسی یا طبقه بندی.
    • کاوشی از طرح‌های مفهومی مفید برای گروه‌بندی اشیا.
    • ایجاد فرضیه بر اساس اکتشاف داده ها.
    • آزمایش فرضیه یا تحقیق برای تعیین اینکه آیا انواع (گروه‌های) شناسایی‌شده به روشی واقعی در داده‌های موجود وجود دارند یا خیر.

    صرف نظر از موضوع مطالعه، استفاده از تحلیل خوشه ای شامل مراحل زیر است:

    • انتخاب نمونه برای خوشه بندی مفهوم این است که خوشه بندی فقط داده های کمی منطقی است.
    • تعیین مجموعه متغیرهایی که توسط آنها اشیاء در نمونه ارزیابی می شوند، یعنی فضای ویژگی.
    • محاسبه مقادیر یک معیار خاص از شباهت (یا تفاوت) بین اشیاء.
    • استفاده از روش تحلیل خوشه ای برای ایجاد گروه هایی از اشیاء مشابه.
    • بررسی قابلیت اطمینان نتایج راه حل خوشه ای.

    می توانید شرحی از دو الزام اساسی برای داده ها پیدا کنید - همگنی و کامل بودن. همگنی مستلزم آن است که همه موجودیت های خوشه ای از یک ماهیت باشند و با مجموعه ای از ویژگی های مشابه توصیف شوند. اگر تجزیه و تحلیل خوشه قبل از تجزیه و تحلیل عاملی باشد، نمونه نیازی به "تعمیر" ندارد - الزامات اعلام شده به طور خودکار توسط روش مدل سازی عاملی برآورده می شود (مزیت دیگری وجود دارد - استانداردسازی z بدون عواقب منفی برای نمونه؛ اگر به طور مستقیم برای تجزیه و تحلیل خوشه ای انجام می شود، می تواند منجر به کاهش وضوح تقسیم گروه ها شود). در غیر این صورت، نمونه نیاز به تنظیم دارد.

    گونه شناسی مسائل خوشه بندی

    انواع ورودی

    در علم مدرن از چندین الگوریتم برای پردازش داده های ورودی استفاده می شود. تجزیه و تحلیل با مقایسه اشیاء بر اساس ویژگی ها (متداول ترین در علوم زیستی) نامیده می شود س- نوع تجزیه و تحلیل و در مورد مقایسه ویژگی ها بر اساس اشیا - آر-نوع تحلیل تلاش هایی برای استفاده از انواع ترکیبی از تجزیه و تحلیل وجود دارد (به عنوان مثال، RQ-تحلیل)، اما این روش هنوز به درستی توسعه نیافته است.

    اهداف خوشه بندی

    • درک داده ها با شناسایی ساختار خوشه. تقسیم نمونه به گروه‌هایی از اشیاء مشابه این امکان را فراهم می‌آورد که پردازش و تصمیم‌گیری بیشتر داده‌ها را با استفاده از روش متفاوتی از تجزیه و تحلیل برای هر خوشه (استراتژی «تقسیم و تسلط») ساده‌تر کند.
    • فشرده سازی داده ها اگر نمونه اصلی بیش از حد بزرگ است، می توانید آن را کاهش دهید و یک نماینده معمولی از هر خوشه باقی بگذارید.
    • تشخیص تازگی اشیاء غیر معمولی شناسایی می شوند که نمی توانند به هیچ یک از خوشه ها متصل شوند.

    در حالت اول سعی می کنند تعداد خوشه ها را کوچکتر کنند. در مورد دوم، اطمینان از درجه بالایی از شباهت اشیاء در هر خوشه مهم تر است و می تواند هر تعداد خوشه وجود داشته باشد. در مورد سوم، جالب ترین اشیاء فردی هستند که در هیچ یک از خوشه ها قرار نمی گیرند.

    در تمام این موارد می توان از خوشه بندی سلسله مراتبی استفاده کرد، زمانی که خوشه های بزرگ به خوشه های کوچکتر تقسیم می شوند که به نوبه خود به خوشه های کوچکتر و غیره تقسیم می شوند. به چنین مسائلی مسائل طبقه بندی می گویند. طبقه بندی منجر به یک ساختار سلسله مراتبی درخت مانند می شود. علاوه بر این، هر شی با فهرستی از تمام خوشه هایی که به آنها تعلق دارد مشخص می شود، معمولاً از بزرگ به کوچک.

    روش های خوشه بندی

    هیچ طبقه‌بندی پذیرفته‌شده‌ای برای روش‌های خوشه‌بندی وجود ندارد، اما تعدادی از روش‌ها را می‌توان متمایز کرد (برخی از روش‌ها را می‌توان به چند گروه در یک زمان طبقه‌بندی کرد و بنابراین پیشنهاد می‌شود که این گونه‌بندی به عنوان تقریبی به طبقه‌بندی واقعی روش‌های خوشه‌بندی در نظر گرفته شود. ):

    1. رویکرد احتمالی. فرض بر این است که هر شیء مورد بررسی متعلق به یکی از کلاس های k است. برخی از نویسندگان (به عنوان مثال، A.I. Orlov) معتقدند که این گروه به هیچ وجه به خوشه بندی مربوط نمی شود و با نام "تبعیض"، یعنی انتخاب تخصیص اشیا به یکی از گروه های شناخته شده (نمونه های آموزشی) با آن مخالفت می کنند.
    2. رویکردهای مبتنی بر سیستم‌های هوش مصنوعی: یک گروه بسیار مشروط، زیرا روش‌های زیادی وجود دارد و از نظر روش‌شناسی بسیار متفاوت هستند.
    3. رویکرد منطقی دندروگرام با استفاده از درخت تصمیم ساخته می شود.
    4. رویکرد تئوری گراف.
    5. رویکرد سلسله مراتبی. وجود گروه‌های تودرتو (خوشه‌های راسته‌های مختلف) فرض می‌شود. الگوریتم ها به نوبه خود به دو دسته انبوهی (یکپارچه کننده) و تقسیمی (جداکننده) تقسیم می شوند. بر اساس تعداد ویژگی ها، گاه روش های طبقه بندی توحیدی و چندگانه را از هم متمایز می کنند.
      • خوشه بندی تقسیمی سلسله مراتبی یا طبقه بندی. مشکلات خوشه‌بندی در یک طبقه‌بندی کمی بررسی می‌شوند.
    6. روش های دیگر. در گروه های قبلی گنجانده نشده است.
      • الگوریتم های خوشه بندی آماری
      • مجموعه ای از خوشه
      • الگوریتم های خانواده KRAB
      • الگوریتم بر اساس روش الک

    رویکردهای 4 و 5 گاهی با نام رویکرد ساختاری یا هندسی ترکیب می‌شوند که مفهومی رسمی‌تر از مجاورت دارد. علیرغم تفاوت های قابل توجه بین روش های ذکر شده، همه آنها به روش اصلی تکیه می کنند. فرضیه فشردگی«: در فضای اجسام، همه اشیای نزدیک باید به یک خوشه تعلق داشته باشند و بر این اساس، همه اشیاء مختلف باید در خوشه های مختلف باشند.

    فرمول بندی رسمی مسئله خوشه بندی

    اجازه دهید X (\displaystyle X)- بسیاری از اشیاء، Y (\displaystyle Y)- مجموعه ای از اعداد (نام، برچسب ها) از خوشه ها. تابع فاصله بین اشیاء مشخص شده است ρ (x، x ′) (\displaystyle \rho (x,x)). یک نمونه آموزشی محدود از اشیاء وجود دارد X m = ( x 1 , … , x m ) ⊂ X (\displaystyle X^(m)=\(x_(1),\dots,x_(m)\)\زیر مجموعه X). لازم است که نمونه را به زیرمجموعه های مجزا به نام تقسیم کرد خوشه ها، به طوری که هر خوشه از اشیایی تشکیل شده است که از نظر متریک مشابه هستند ρ (\displaystyle \rho)، و اشیاء خوشه های مختلف به طور قابل توجهی متفاوت بودند. در همان زمان، هر شی x i ∈ X m (\displaystyle x_(i)\in X^(m))شماره خوشه اختصاص داده شده است y i (\displaystyle y_(i)).

    الگوریتم خوشه بندییک تابع است a: X → Y (\displaystyle a\colon X\to Y)، که به هر شی x ∈ X (\displaystyle x\in X)با شماره خوشه مطابقت دارد y ∈ Y (\displaystyle y\in Y). بسیاری Y (\displaystyle Y)در برخی موارد از قبل شناخته شده است، اما بیشتر اوقات وظیفه تعیین تعداد بهینه خوشه ها از نقطه نظر یک یا دیگری است. معیارهای کیفیتخوشه بندی

    به طور کلی، شایان ذکر است که از نظر تاریخی، معیارهای تشابه به جای معیارهای تفاوت (فاصله) اغلب به عنوان معیارهای نزدیکی در زیست شناسی مورد استفاده قرار می گیرند.

    در جامعه شناسی

    هنگام تجزیه و تحلیل نتایج تحقیقات جامعه شناختی، توصیه می شود که تجزیه و تحلیل را با استفاده از روش های خانواده تراکم سلسله مراتبی، یعنی روش Ward انجام دهید، که در آن حداقل پراکندگی درون خوشه ها بهینه می شود و در نهایت خوشه هایی با اندازه های تقریباً مساوی ایجاد می شود. روش وارد برای تحلیل داده های جامعه شناختی مناسب ترین است. معیار بهتری برای تفاوت فاصله اقلیدسی درجه دوم است که به افزایش کنتراست خوشه ها کمک می کند. نتیجه اصلی تجزیه و تحلیل خوشه سلسله مراتبی یک دندروگرام یا "نمودار یخی" است. در هنگام تفسیر آن، محققان با همان مشکلی مواجه می شوند که تفسیر نتایج تحلیل عاملی وجود دارد - فقدان معیارهای واضح برای شناسایی خوشه ها. توصیه می شود از دو روش اصلی استفاده شود - تجزیه و تحلیل بصری دندروگرام و مقایسه نتایج خوشه بندی انجام شده با روش های مختلف.

    تجزیه و تحلیل بصری دندروگرام شامل "بریدن" درخت در سطح بهینه شباهت عناصر نمونه است. توصیه می‌شود که شاخه انگور را در سطح 5 از مقیاس ترکیبی خوشه‌ای فاصله‌گذاری مجدد، قطع کنید (اصطلاحات M. S. Oldenderfer و R. K. Blashfield)، بنابراین سطح شباهت 80٪ به دست می‌آید. اگر شناسایی خوشه‌ها با استفاده از این برچسب دشوار است (چند خوشه کوچک در یک خوشه بزرگ ادغام می‌شوند)، می‌توانید برچسب دیگری را انتخاب کنید. این تکنیک توسط Oldenderfer و Blashfield پیشنهاد شده است.

    اکنون این سوال در مورد پایداری راه حل خوشه ای اتخاذ شده مطرح می شود. در اصل، بررسی پایداری خوشه‌بندی به بررسی قابلیت اطمینان آن ختم می‌شود. در اینجا یک قاعده کلی وجود دارد - زمانی که روش های خوشه بندی تغییر می کند، یک گونه شناسی پایدار حفظ می شود. نتایج تجزیه و تحلیل خوشه سلسله مراتبی را می توان با تحلیل خوشه ای تکراری با استفاده از روش k-means تأیید کرد. اگر طبقه‌بندی‌های مقایسه شده گروه‌های پاسخ‌دهندگان دارای نرخ تصادفی بیش از 70٪ (بیش از 2/3 از منطبق‌ها) باشند، تصمیم خوشه‌ای گرفته می‌شود.

    بررسی کفایت یک راه حل بدون توسل به نوع دیگری از تجزیه و تحلیل غیرممکن است. حداقل از نظر تئوری این مشکل حل نشده است. مقاله کلاسیک اولنددرفر و بلاشفیلد، تحلیل خوشه‌ای، به تفصیل بحث می‌کند و در نهایت پنج روش دیگر تست استحکام را رد می‌کند:

    1. همبستگی cophenetic - توصیه نمی شود و در استفاده محدود است.
    2. آزمون های معنی داری (تجزیه و تحلیل واریانس) - همیشه نتیجه قابل توجهی می دهد.
    3. تکنیک نمونه گیری مکرر (تصادفی) که با این حال اعتبار تصمیم را ثابت نمی کند.
    4. آزمون های اهمیت برای ویژگی های خارجی فقط برای اندازه گیری های مکرر مناسب هستند.
    5. روش‌های مونت کارلو بسیار پیچیده هستند و فقط برای ریاضیدانان با تجربه قابل دسترسی هستند. (eng. edge detection) یا تشخیص شی.
    6. تجزیه و تحلیل هوشمند داده ها (به انگلیسی: data mining) - خوشه بندی در داده کاوی زمانی ارزش پیدا می کند که به عنوان یکی از مراحل تجزیه و تحلیل داده ها و ساخت یک راه حل تحلیلی کامل عمل کند. شناسایی گروه‌هایی از اشیاء مشابه، مطالعه ویژگی‌های آن‌ها و ساختن یک مدل مجزا برای هر گروه، برای یک تحلیلگر اغلب آسان‌تر از ایجاد یک مدل کلی برای همه داده‌ها است. این تکنیک به طور مداوم در بازاریابی، شناسایی گروه های مشتریان، خریداران، محصولات و تدوین استراتژی جداگانه برای هر یک از آنها استفاده می شود.


     
مقالات توسطموضوع:
درمان شیدایی تعقیب‌کردن: علائم و نشانه‌ها آیا شیدایی تعقیبی با گذشت زمان از بین می‌رود؟
شیدایی آزاری یک اختلال عملکرد ذهنی است که می توان آن را توهم آزاری نیز نامید. روانپزشکان این اختلال را از نشانه های اساسی جنون روانی می دانند. با شیدایی، روانپزشکی اختلال فعالیت ذهنی را درک می کند،
چرا خواب شامپاین دیدید؟
هرچه در خواب می بینیم، همه چیز، بدون استثنا، نماد است. همه اشیا و پدیده ها در رویاها دارای معانی نمادین هستند - از ساده و آشنا تا روشن و خارق العاده، اما گاهی اوقات فقط چیزهای معمولی و آشنا معنای مهمتری دارند
چگونه سوزش چانه را در زنان و مردان از بین ببریم تحریک پوست در چانه
لکه های قرمزی که روی چانه ظاهر می شوند ممکن است به دلایل مختلفی ایجاد شوند. به عنوان یک قاعده، ظاهر آنها نشان دهنده یک تهدید جدی برای سلامتی نیست و اگر به مرور زمان خود به خود ناپدید شوند، هیچ دلیلی برای نگرانی وجود ندارد. لکه های قرمز روی چانه ظاهر می شود
والنتینا ماتوینکو: بیوگرافی، زندگی شخصی، شوهر، فرزندان (عکس)
دوره نمایندگی*: سپتامبر 2024 متولد آوریل 1949.