Կլաստերային վերլուծությունը ուսումնասիրություն է՝ բազմաթիվ առարկաներ միատարր խմբերի բաժանելով։ Կլաստերային վերլուծություն

Դասընթացի առաջին բաժնում մեզ ծանոթացվեց կլաստերավորման հայեցակարգին: Այս դասախոսության մեջ մենք կնկարագրենք «կլաստերի» հայեցակարգը մաթեմատիկական տեսանկյունից, ինչպես նաև կդիտարկենք կլաստերի խնդիրների լուծման մեթոդները՝ կլաստերային վերլուծության մեթոդները:

Կլաստերային վերլուծություն տերմինը, որն առաջին անգամ ներդրվել է Տրիոնի կողմից 1939 թվականին, ներառում է ավելի քան 100 տարբեր ալգորիթմներ։

Ի տարբերություն դասակարգման խնդիրների, կլաստերային վերլուծությունը չի պահանջում տվյալների հավաքածուի վերաբերյալ a priori ենթադրություններ, սահմանափակումներ չի դնում ուսումնասիրվող օբյեկտների ներկայացման վրա և թույլ է տալիս վերլուծել ցուցանիշները: տարբեր տեսակներտվյալներ (ինտերվալային տվյալներ, հաճախականություններ, երկուական տվյալներ): Պետք է հիշել, որ փոփոխականները պետք է չափվեն համադրելի մասշտաբներով:

Կլաստերային վերլուծությունը թույլ է տալիս նվազեցնել տվյալների չափը և այն ավելի պարզ դարձնել:

Կլաստերային վերլուծությունը կարող է կիրառվել ժամանակային շարքերի խմբերի վրա, այստեղ կարելի է որոշել որոշակի ցուցանիշների նմանության ժամանակաշրջանները և նույնականացնել նմանատիպ դինամիկա ունեցող ժամանակային շարքերը:

Կլաստերային վերլուծությունը զուգահեռաբար զարգացել է մի քանի ուղղություններով, ինչպիսիք են կենսաբանությունը, հոգեբանությունը և այլն, ուստի մեթոդների մեծ մասն ունի երկու կամ ավելի անուն: Սա զգալիորեն բարդացնում է աշխատանքը կլաստերային վերլուծություն օգտագործելիս:

Կլաստերային վերլուծության առաջադրանքները կարելի է խմբավորել հետևյալ խմբերի.

  1. Տիպաբանության կամ դասակարգման մշակում:
  2. Օբյեկտների խմբավորման համար օգտակար հայեցակարգային սխեմաների ուսումնասիրություն:
  3. Տվյալների հետազոտության վրա հիմնված վարկածների ներկայացում.
  4. Հիպոթեզների կամ ուսումնասիրությունների փորձարկում՝ պարզելու համար, թե այս կամ այն ​​կերպ հայտնաբերված տեսակները (խմբերը) իրականում առկա են առկա տվյալների մեջ:

Որպես կանոն, կլաստերային վերլուծությունը գործնականում կիրառելիս այս խնդիրներից մի քանիսը լուծվում են միաժամանակ։

Դիտարկենք կլաստերի վերլուծության ընթացակարգի օրինակ:

Ենթադրենք, մենք ունենք A տվյալների հավաքածու՝ բաղկացած 14 օրինակից, որոնք ունեն երկու հատկանիշ X և Y: Նրանց տվյալները բերված են աղյուսակ 13.1-ում:

Աղյուսակ 13.1. Տվյալների հավաքածու Ա
Օրինակ No. հատկանիշ X ստորագրել Յ
1 27 19
2 11 46
3 25 15
4 36 27
5 35 25
6 10 43
7 11 44
8 36 24
9 26 14
10 26 14
11 9 45
12 33 23
13 27 16
14 10 47

Աղյուսակային ձևով տվյալները տեղեկատվական չեն: Ներկայացնենք X և Y փոփոխականները ցրման դիագրամի տեսքով, որը ներկայացված է Նկ. 13.1.


Բրինձ.

Նկարում մենք տեսնում ենք «նման» օրինակների մի քանի խմբեր: Օրինակներ (օբյեկտներ), որոնք «նման» են միմյանց X և Y արժեքների առումով, պատկանում են նույն խմբին (կլաստերին). տարբեր կլաստերների առարկաները միմյանց նման չեն:

Կլաստերների նմանությունն ու տարբերությունը որոշելու չափանիշը ցրման դիագրամի կետերի միջև եղած հեռավորությունն է։ Այս նմանությունը կարելի է «չափել» այն հավասար է գրաֆիկի կետերի միջև եղած հեռավորությանը: Որոշելու ուղիներ հեռավորության չափումներկլաստերների միջև, որը նաև կոչվում է հարևանության միջոց, կան մի քանիսը: Ամենատարածված եղանակը հաշվարկելն է Էվկլիդեսյան հեռավորությունհարթության երկու կետերի i և j կետերի միջև, երբ հայտնի են դրանց X և Y կոորդինատները.

Նշում. երկու կետերի միջև հեռավորությունը պարզելու համար անհրաժեշտ է յուրաքանչյուր առանցքի երկայնքով վերցնել դրանց կոորդինատների տարբերությունը, քառակուսի դնել այն, ավելացնել ստացված արժեքները բոլոր առանցքների համար և վերցնել գումարի քառակուսի արմատը:

Երբ կան ավելի քան երկու առանցքներ, հեռավորությունը հաշվարկվում է այսպես. կոորդինատների տարբերության քառակուսիների գումարը բաղկացած է այնքան անդամներից, որքան առանցքները (չափերը) առկա են մեր տարածության մեջ: Օրինակ, եթե մեզ անհրաժեշտ է գտնել եռաչափ տարածության երկու կետերի միջև եղած հեռավորությունը (այս իրավիճակը ներկայացված է նկ. 13.2-ում), բանաձևը (13.1) ստանում է ձևը.


Բրինձ.

13.2. Կլաստերն ունի հետևյալըմաթեմատիկական բնութագրերը կենտրոն, շառավիղ,ստանդարտ շեղում

, կլաստերի չափը .Կլաստերային կենտրոն

փոփոխականների տարածության կետերի երկրաչափական միջինն է:Կլաստերի շառավիղը

- կետերի առավելագույն հեռավորությունը կլաստերի կենտրոնից:

Ինչպես նշվեց նախորդ դասախոսություններից մեկում, կլաստերները կարող են համընկնել: Այս իրավիճակը տեղի է ունենում, երբ հայտնաբերվում է կլաստերի համընկնումը: Այս դեպքում անհնար է միանշանակ օբյեկտ վերագրել երկու կլաստերներից մեկին՝ օգտագործելով մաթեմատիկական ընթացակարգերը: Նման օբյեկտները կոչվում են հակասական:Վիճելի օբյեկտ

օբյեկտ է, որը, ելնելով իր նմանությունից, կարելի է դասակարգել մի քանի կլաստերների:Կլաստերի չափը կարող է որոշվել կամկլաստերի շառավիղը , կամ կողմիցստանդարտ շեղում օբյեկտներ այս կլաստերի համար: Օբյեկտը պատկանում է կլաստերին, եթե օբյեկտից մինչև կլաստերի կենտրոն հեռավորությունը փոքր էկլաստերի շառավիղը

. Եթե ​​այս պայմանը բավարարվում է երկու կամ ավելի կլաստերների համար, ապա օբյեկտը անորոշ է:

Կլաստերային վերլուծությունը աշխատում է երկու ենթադրությունների հիման վրա. Առաջին ենթադրությունն այն է, որ դիտարկվող օբյեկտի բնութագրերը, սկզբունքորեն, թույլ են տալիս օբյեկտների լողավազանի (կոմպլեկտի) ցանկալի բաժանումը կլաստերների: Դասախոսության սկզբում մենք արդեն նշեցինք սանդղակների համեմատելիությունը սա երկրորդ ենթադրությունն է՝ սանդղակի կամ բնութագրերի չափման միավորների ճիշտ ընտրությունը։

Կլաստերային վերլուծության մեջ մեծ նշանակություն ունի սանդղակի ընտրությունը։ Դիտարկենք մի օրինակ։ Եկեք պատկերացնենք, որ A տվյալների հավաքածուի x հատկանիշի տվյալները երկու կարգով ավելի մեծ են, քան y հատկանիշի տվյալները. x փոփոխականի արժեքները գտնվում են 100-ից 700-ի սահմաններում, իսկ փոփոխականի արժեքները y-ը գտնվում է 0-ից 1 միջակայքում:

Այնուհետև, երբ հաշվարկում ենք օբյեկտների դիրքն արտացոլող կետերի միջև հեռավորությունը դրանց հատկությունների տարածության մեջ.

Փորձերի ընթացքում հնարավոր է համեմատել ստացված արդյունքները՝ հաշվի առնելով փորձագիտական ​​գնահատականներև առանց նրանց, և ընտրելով նրանցից լավագույնը:

Հաճախ, գործունեության տարբեր ոլորտներում, մենք պետք է գործ ունենանք հսկայական թվով իրերի հետ, որոնց առնչությամբ մենք պետք է քայլեր ձեռնարկենք:

Եվ մենք չենք կարող նույնիսկ ըմբռնել այս ամբողջ հատորը, առավել ևս հասկանալ:

Ո՞րն է ելքը։ Դե, իհարկե, «ամեն ինչ կարգի բերեք»: Այս դեպքում ժողովրդական իմաստությունը ստանում է շատ որոշակի գիտական ​​ձեւակերպում.

Կլաստերային վերլուծությունը առարկաների ուսումնասիրությունն է՝ դրանք միավորելով համասեռ խմբերի մեջ, որոնք ունեն նմանատիպ հատկանիշներ: Նրա մեթոդները կիրառելի են բառացիորեն բոլոր ոլորտներում՝ բժշկությունից մինչև արտարժույթի առևտուր, մեքենայի ապահովագրությունից մինչև հնէաբանություն: Իսկ մարքեթոլոգների ու HR մասնագետների համար դա ուղղակի անփոխարինելի է։

Այս մասին ավելի մանրամասն՝ հոդվածում։

Ինչ է կլաստերը

Կլաստերային վերլուծությունը նախատեսված է օբյեկտների հավաքածուն միատարր խմբերի (կլաստերի կամ դասերի) բաժանելու համար: Սա տվյալների բազմաչափ դասակարգման խնդիր է:


Գոյություն ունեն մոտ 100 տարբեր կլաստերավորման ալգորիթմներ, սակայն առավել հաճախ օգտագործվողներն են.

  1. հիերարխիկ կլաստերային վերլուծություն,
  2. k-նշանակում է խմբավորում:

Որտեղ է օգտագործվում կլաստերային վերլուծությունը.

  • Մարքեթինգում սա մրցակիցների և սպառողների սեգմենտավորումն է:
  • Կառավարման մեջ.
    1. անձնակազմի բաժանումը մոտիվացիայի տարբեր մակարդակների խմբերի,
    2. մատակարարների դասակարգում,
    3. նմանատիպ արտադրական իրավիճակների նույնականացում, որոնցում առաջանում են թերություններ.
  • Բժշկության մեջ - ախտանիշների, հիվանդների, դեղերի դասակարգում:
  • Սոցիոլոգիայում հարցվողների բաժանումը միատարր խմբերի.

Փաստորեն, կլաստերային վերլուծությունն իրեն լավ է ապացուցել մարդկային կյանքի բոլոր ոլորտներում։ Այս մեթոդի գեղեցկությունն այն է, որ այն աշխատում է նույնիսկ այն ժամանակ, երբ կան քիչ տվյալներ, և պատահական փոփոխականների նորմալ բաշխման և վիճակագրական վերլուծության դասական մեթոդների այլ պահանջները չեն բավարարվում:

Եկեք բացատրենք կլաստերային վերլուծության էությունը՝ առանց խիստ տերմինաբանության դիմելու։

Ենթադրենք, դուք հարցում եք անցկացրել աշխատակիցների շրջանում և ցանկանում եք որոշել, թե ինչպես կարելի է ամենաարդյունավետ կառավարել անձնակազմը: Այսինքն՝ դուք ցանկանում եք աշխատակիցներին բաժանել խմբերի և առանձնացնել կառավարման ամենաարդյունավետ լծակները նրանցից յուրաքանչյուրի համար։ Միևնույն ժամանակ, խմբերի միջև տարբերությունները պետք է ակնհայտ լինեն, իսկ խմբի ներսում հարցվողները պետք է հնարավորինս նման լինեն:

Խնդիրը լուծելու համար առաջարկվում է օգտագործել հիերարխիկ կլաստերային վերլուծություն։ Արդյունքում մենք կստանանք ծառ, որին նայելով պետք է որոշենք, թե քանի դասի (կլաստերի) ենք ուզում բաժանել անձնակազմը։ Ենթադրենք, որ մենք որոշում ենք անձնակազմը բաժանել երեք խմբի, այնուհետև յուրաքանչյուր կլաստերում ընդգրկված հարցվողներին ուսումնասիրելու համար կստանանք մոտավորապես հետևյալ բովանդակությամբ աղյուսակ.


Եկեք բացատրենք, թե ինչպես է ձևավորվել վերը նշված աղյուսակը: Առաջին սյունակը պարունակում է կլաստերի թիվը՝ խումբը, որի տվյալները արտացոլված են տողում։ Օրինակ, առաջին կլաստերը 80% տղամարդիկ են: Առաջին կլաստերի 90%-ը պատկանում է 30-ից 50 տարեկան տարիքային կատեգորիային, իսկ հարցվածների 12%-ը կարծում է, որ նպաստները շատ կարևոր են: Եվ այսպես շարունակ։

Փորձենք յուրաքանչյուր կլաստերից ստեղծել հարցվածների դիմանկարներ.

  1. Առաջին խումբը բաղկացած է հիմնականում հասուն տղամարդկանցից, որոնք զբաղեցնում են ղեկավար պաշտոններ։ Նրանց չի հետաքրքրում սոցիալական փաթեթը (MED, LGOTI, TIME-ի ազատ ժամանակ): Նրանք նախընտրում են լավ աշխատավարձ ստանալ, քան գործատուի օգնությունը։
  2. Երկրորդ խումբը, ընդհակառակը, նախապատվությունը տալիս է սոցիալական փաթեթին։ Այն բաղկացած է հիմնականում ցածր պաշտոններ զբաղեցնող «տարեցներից»։ Աշխատավարձը, իհարկե, նրանց համար կարևոր է, բայց կան այլ առաջնահերթություններ։
  3. Երրորդ խումբը «ամենաերիտասարդներն» են։ Ի տարբերություն նախորդ երկուսի, ակնհայտ է հետաքրքրությունը ուսման և մասնագիտական ​​զարգացման հնարավորությունների նկատմամբ: Աշխատակիցների այս կատեգորիան լավ հնարավորություն ունի շուտով միանալու առաջին խմբին։

Այսպիսով, կադրերի կառավարման արդյունավետ մեթոդների ներդրման արշավ ծրագրելիս ակնհայտ է, որ մեր իրավիճակում հնարավոր է երկրորդ խմբի սոցիալական փաթեթը մեծացնել՝ ի վնաս, օրինակ, աշխատավարձի։ Եթե ​​խոսենք այն մասին, թե որ մասնագետներին պետք է ուղարկել վերապատրաստման, ապա միանշանակ կարող ենք խորհուրդ տալ ուշադրություն դարձնել երրորդ խմբին։

Աղբյուր՝ «nickart.spb.ru»

Կլաստերային վերլուծությունը շուկան հասկանալու բանալին է

Կլաստերը ակտիվի գինն է որոշակի ժամանակահատվածում, որի ընթացքում կատարվել են գործարքներ: Ստացված գնումների և վաճառքների ծավալը նշվում է կլաստերի ներսում թվով: Ցանկացած ժամանակաշրջանի բարը սովորաբար պարունակում է մի քանի կլաստերներ: Սա թույլ է տալիս մանրամասնորեն տեսնել գնումների, վաճառքի ծավալները և դրանց մնացորդը յուրաքանչյուր առանձին բարում, յուրաքանչյուր գնային մակարդակում:


Կլաստերային գրաֆիկի կառուցում

Մեկ ակտիվի գնի փոփոխությունն անխուսափելիորեն հանգեցնում է այլ գործիքների գների շարժման շղթայի: Շատ դեպքերում, միտումների շարժման ըմբռնումը տեղի է ունենում արդեն այն պահին, երբ այն արագ զարգանում է, և տենդենցի երկայնքով շուկա մուտք գործելը վտանգում է ավարտվել ուղղիչ ալիքի մեջ:

Հաջող գործարքների համար դուք պետք է հասկանաք ներկա իրավիճակը և կարողանաք կանխատեսել գների ապագա շարժումները: Դա կարելի է սովորել՝ վերլուծելով կլաստերային գրաֆիկը: Օգտագործելով կլաստերային վերլուծություն, դուք կարող եք տեսնել շուկայի մասնակիցների ակտիվությունը նույնիսկ ամենափոքր գների սահմաններում:

Սա ամենաճիշտ և մանրամասն վերլուծությունն է, քանի որ ցույց է տալիս գործարքների ծավալների բաշխվածությունը յուրաքանչյուր ակտիվի գների մակարդակում: Շուկայում անընդհատ բախվում է վաճառողների և գնորդների շահերը։ Եվ ամեն փոքր գնային շարժում (տիզ) քայլ է դեպի փոխզիջում` գնային մակարդակ, որը ներկայումս հարմար է երկու կողմերին:

Բայց շուկան դինամիկ է, վաճառողների ու գնորդների թիվը անընդհատ փոխվում է։ Եթե ​​ժամանակի մի պահ շուկայում գերակշռում էին վաճառողները, ապա հաջորդ պահին, ամենայն հավանականությամբ, գնորդներ կլինեն։ Կատարված գործարքների թիվը հարակից գների մակարդակներում նույնպես նույնը չէ:

Եվ այնուհանդերձ, նախ շուկայական իրավիճակն արտացոլվում է գործարքների ընդհանուր ծավալների, հետո միայն գնի վրա։ Եթե ​​տեսնում եք շուկայի գերիշխող մասնակիցների (վաճառողների կամ գնորդների) գործողությունները, ապա կարող եք գուշակել հենց գների շարժը:

Կլաստերային վերլուծությունը հաջողությամբ օգտագործելու համար նախ պետք է հասկանալ, թե ինչ են կլաստերը և դելտան.

  • Կլաստերը գների շարժում է, որը բաժանված է մակարդակների, որոնցում կատարվել են հայտնի ծավալներով գործարքներ:
  • Delta-ն ցույց է տալիս յուրաքանչյուր կլաստերում տեղի ունեցող գնումների և վաճառքների տարբերությունը:


Կլաստերային գրաֆիկ

Յուրաքանչյուր կլաստեր կամ դելտաների խումբ թույլ է տալիս հասկանալ, թե գնորդները կամ վաճառողները գերիշխում են շուկայում տվյալ պահին: Բավական է միայն հաշվարկել ընդհանուր դելտան՝ ամփոփելով վաճառքներն ու գնումները։ Եթե ​​դելտան բացասական է, ապա շուկան գերվաճառված է, և կան ավելորդ վաճառքի գործարքներ: Երբ դելտան դրական է, գնորդները ակնհայտորեն գերիշխում են շուկայում:

Դելտան ինքնին կարող է ընդունել նորմալ կամ կրիտիկական արժեք: Կլաստերում դելտայի ծավալի արժեքը նորմայից բարձր է ընդգծված կարմիրով: Եթե ​​դելտան չափավոր է, ապա սա բնութագրում է շուկայում հարթ վիճակ: Նորմալ դելտայի արժեքի դեպքում շուկայում նկատվում է միտումի շարժում, բայց կրիտիկական արժեքը միշտ գների շրջադարձի նախանշան է:

Forex առևտուր՝ օգտագործելով CA

Առավելագույն շահույթ ստանալու համար դուք պետք է կարողանաք որոշել դելտայի անցումը միջին մակարդակից նորմալ մակարդակի: Իսկապես, այս դեպքում դուք կարող եք նկատել հարթից դեպի միտում շարժման անցման հենց սկիզբը և կարողանալ ստանալ ամենամեծ շահույթը։

Կլաստերային աղյուսակը ավելի տեսողական է դրա վրա, դուք կարող եք տեսնել ծավալների կուտակման և բաշխման զգալի մակարդակներ, ինչպես նաև սյուժեի աջակցության և դիմադրության մակարդակներ:

Սա թույլ է տալիս վաճառողին գտնել ճշգրիտ մուտքը առևտրի մեջ: Օգտագործելով դելտա, դուք կարող եք դատել շուկայում վաճառքի կամ գնումների գերակշռության մասին: Կլաստերային վերլուծությունը թույլ է տալիս դիտարկել գործարքները և հետևել դրանց ծավալներին ցանկացած TF-ի բարում: Սա հատկապես կարևոր է, երբ մոտենում ենք զգալի աջակցության կամ դիմադրության մակարդակներին: Կլաստերային դատողությունները շուկան հասկանալու բանալին են:

Աղբյուր՝ «orderflowtrading.ru».

Կլաստերային վերլուծության կիրառման ոլորտներն ու առանձնահատկությունները

Կլաստերային վերլուծություն տերմինը (առաջին անգամ ստեղծվել է Tryon-ի կողմից, 1939 թ.) իրականում ներառում է տարբեր դասակարգման ալգորիթմների մի շարք: Ընդհանուր հարցՇատ ոլորտների հետազոտողների կողմից հարցված է, թե ինչպես կարելի է դիտարկված տվյալները կազմակերպել տեսողական կառուցվածքների մեջ, այսինքն. ընդլայնել տաքսոնոմիաները.

Օրինակ, կենսաբանները նպատակ են դրել բաժանել կենդանիներին տարբեր տեսակներիմաստալից կերպով նկարագրել նրանց միջև եղած տարբերությունները: Կենսաբանության մեջ ընդունված ժամանակակից համակարգի համաձայն՝ մարդիկ պատկանում են պրիմատներին, կաթնասուններին, ամնիոտներին, ողնաշարավորներին և կենդանիներին։

Նկատի ունեցեք, որ այս դասակարգման դեպքում որքան բարձր է ագրեգացիայի մակարդակը, այնքան քիչ է նմանությունը համապատասխան դասի անդամների միջև: Մարդիկ ավելի շատ նմանություններ ունեն այլ պրիմատների (այսինքն՝ կապիկների) հետ, քան կաթնասունների ընտանիքի «ծայրամասային» անդամներին (այսինքն՝ շներին) և այլն։

Նկատի ունեցեք, որ նախորդ քննարկումը վերաբերում է կլաստերավորման ալգորիթմներին, սակայն ոչինչ չի նշվում վիճակագրական նշանակության ստուգման մասին։ Իրականում, կլաստերային վերլուծությունը ոչ այնքան սովորական վիճակագրական մեթոդ է, որքան տարբեր ալգորիթմների «կոմպլեկտ»՝ «օբյեկտները կլաստերների մեջ բաշխելու համար»։

Կա տեսակետ, որ, ի տարբերություն շատ այլ վիճակագրական ընթացակարգերի, կլաստերային վերլուծության մեթոդներն օգտագործվում են շատ դեպքերում, երբ դուք չունեք որևէ a priori վարկած դասերի վերաբերյալ, բայց դեռ գտնվում եք ուսումնասիրության նկարագրական փուլում: Պետք է հասկանալ, որ կլաստերային վերլուծությունը որոշում է «ամենահավանական նշանակալի լուծումը»:

Հետևաբար, վիճակագրական նշանակության փորձարկումն իրականում կիրառելի չէ այստեղ, նույնիսկ այն դեպքերում, երբ հայտնի են p-մակարդակները (ինչպես K-means մեթոդում):

Կլաստերավորման տեխնիկան օգտագործվում է տարբեր ոլորտներում: Հարթիգանը (1975) տվել է հիանալի ակնարկ բազմաթիվ հրապարակված ուսումնասիրությունների վերաբերյալ, որոնք պարունակում են արդյունքներ, որոնք ստացվել են կլաստերային վերլուծության մեթոդների միջոցով: Օրինակ, բժշկության ոլորտում հիվանդությունների, հիվանդությունների բուժման կամ հիվանդությունների ախտանիշների խմբավորումը հանգեցնում է լայնորեն կիրառվող տաքսոնոմիաների:

Հոգեբուժության ոլորտում ախտանշանների կլաստերների ճիշտ ախտորոշումը, ինչպիսիք են պարանոյան, շիզոֆրենիան և այլն, վճռորոշ նշանակություն ունեն հաջող թերապիայի համար: Հնագիտության մեջ, օգտագործելով կլաստերային վերլուծություն, հետազոտողները փորձում են ստեղծել քարե գործիքների, թաղման առարկաների և այլնի դասակարգումներ:

Կլաստերային վերլուծության լայն կիրառություններ կան մարքեթինգային հետազոտություններում: Ընդհանուր առմամբ, երբ անհրաժեշտ է տեղեկատվության «սարերը» դասակարգել հետագա մշակման համար հարմար խմբերի, կլաստերային վերլուծությունը շատ օգտակար և արդյունավետ է ստացվում:

Ծառերի խմբավորում

Միավորման ալգորիթմի (ծառերի խմբավորում) նպատակն է միավորել առարկաները (օրինակ՝ կենդանիները) բավականաչափ մեծ կլաստերների մեջ՝ օգտագործելով օբյեկտների միջև նմանության կամ հեռավորության որոշ չափումներ: Նման խմբավորման բնորոշ արդյունքը հիերարխիկ ծառն է:

Դիտարկենք հորիզոնական ծառի դիագրամ: Դիագրամը սկսվում է դասի յուրաքանչյուր օբյեկտից (գծագրի ձախ կողմում): Հիմա պատկերացրեք, որ աստիճանաբար (շատ փոքր քայլերով) դուք «հանգստացնում եք» ձեր չափանիշը, թե որ առարկաներն են եզակի և որոնք՝ ոչ: Այլ կերպ ասած, դուք իջեցնում եք երկու կամ ավելի օբյեկտներ մեկ կլաստերի մեջ միավորելու որոշման հետ կապված շեմը։


Արդյունքում դուք ավելի ու ավելի եք կապվում միմյանց հետ ավելի մեծ թիվառարկաներ և ագրեգատ (միավորել) ավելի ու ավելի շատ կլաստերներ, որոնք բաղկացած են ավելի ու ավելի տարբեր տարրերից: Վերջապես, վերջին քայլում բոլոր օբյեկտները միավորվում են միասին:

Այս դիագրամներում հորիզոնական առանցքները ներկայացնում են միացման հեռավորությունը (ուղղահայաց ծառերի դիագրամներում ուղղահայաց առանցքները ներկայացնում են միացման հեռավորությունը): Այսպիսով, գրաֆիկի յուրաքանչյուր հանգույցի համար (որտեղ ձևավորվում է նոր կլաստեր), դուք կարող եք տեսնել հեռավորության արժեքը, որի համար համապատասխան տարրերը կապված են նոր մեկ կլաստերի մեջ:

Երբ տվյալներն ունեն հստակ «կառուցվածք» օբյեկտների կլաստերների առումով, որոնք նման են միմյանց, ապա այս կառուցվածքը, հավանաբար, կարտացոլվի հիերարխիկ ծառում՝ տարբեր ճյուղերով: Միաձուլման մեթոդի կիրառմամբ հաջող վերլուծության արդյունքում հնարավոր է դառնում հայտնաբերել կլաստերները (ճյուղերը) և մեկնաբանել դրանք։

Հեռավորության միջոցառումներ

Միության կամ ծառերի խմբավորման մեթոդը օգտագործվում է օբյեկտների միջև անհամապատասխանության կամ հեռավորության կլաստերներ ձևավորելու համար: Այս հեռավորությունները կարող են սահմանվել միաչափ կամ բազմաչափ տարածության մեջ: Օրինակ, եթե սրճարանում հավաքում եք սննդի տեսակները, կարող եք հաշվի առնել դրա պարունակած կալորիաների քանակը, գինը, համի սուբյեկտիվ գնահատականը և այլն:

Բազմաչափ տարածության մեջ առարկաների միջև հեռավորությունները հաշվարկելու ամենաուղիղ ձևը Էվկլիդեսյան հեռավորությունների հաշվարկն է: Եթե ​​դուք ունեք երկչափ կամ եռաչափ տարածություն, ապա այս չափումը իրական երկրաչափական հեռավորությունն է տարածության մեջ գտնվող առարկաների միջև (կարծես առարկաների միջև հեռավորությունը չափվում է ժապավենի չափով):

Այնուամենայնիվ, միավորման ալգորիթմը չի «հետաքրքրվում», թե արդյոք այդ հեռավորության համար «տրամադրված» հեռավորությունները իրականն են, թե որևէ այլ ստացված հեռավորության չափում, որն ավելի իմաստալից է հետազոտողի համար. և հետազոտողների համար խնդիրն է ընտրել ճիշտ մեթոդը կոնկրետ կիրառությունների համար:

  1. Էվկլիդեսյան հեռավորություն.
  2. Սա հեռավորության ամենատարածված տեսակն է: Այն պարզապես երկրաչափական հեռավորություն է բազմաչափ տարածության մեջ և հաշվարկվում է հետևյալ կերպ.

    Նկատի ունեցեք, որ Էվկլիդեսյան հեռավորությունը (և դրա քառակուսին) հաշվարկվում է սկզբնական տվյալներից, այլ ոչ թե ստանդարտացված տվյալներից: Սա սովորական ձևովդրա հաշվարկը, որն ունի որոշակի առավելություններ (օրինակ, երկու օբյեկտների միջև հեռավորությունը չի փոխվում, երբ վերլուծության մեջ ներմուծվում է նոր օբյեկտ, որը կարող է պարզվել որպես արտաքուստ):

    Այնուամենայնիվ, հեռավորությունների վրա կարող են մեծ ազդեցություն ունենալ այն առանցքների միջև եղած տարբերությունները, որոնցից հաշվարկվում են հեռավորությունները:

    Օրինակ, եթե առանցքներից մեկը չափվում է սանտիմետրերով, և այնուհետև այն վերածում եք միլիմետրերի (արժեքները բազմապատկելով 10-ով), ապա կոորդինատներից հաշվարկված վերջնական էվկլիդյան հեռավորությունը (կամ էվկլիդյան հեռավորության քառակուսին) կփոխվի։ մեծապես, և արդյունքում, կլաստերի վերլուծության արդյունքները կարող են մեծապես տարբերվել նախորդներից:

  3. Էվկլիդյան քառակուսի հեռավորությունը:
  4. Երբեմն դուք կարող եք քառակուսի դնել ստանդարտ Էվկլիդեսյան հեռավորությունը, որպեսզի ավելի մեծ կշիռ հաղորդել միմյանցից ավելի հեռու գտնվող առարկաներին: Այս հեռավորությունը հաշվարկվում է հետևյալ կերպ.

  5. Քաղաքի բլոկի հեռավորությունը (Մանհեթենի հեռավորությունը):
  6. Այս հեռավորությունը պարզապես կոորդինատների միջև եղած տարբերությունների միջինն է: Շատ դեպքերում, այս հեռավորության չափումը տալիս է նույն արդյունքները, ինչ սովորական Էվկլիդեսյան հեռավորությունը:

    Այնուամենայնիվ, մենք նշում ենք, որ այս չափման համար առանձին մեծ տարբերությունների (օտարների) ազդեցությունը կրճատվում է (քանի որ դրանք քառակուսի չեն): Մանհեթենի հեռավորությունը հաշվարկվում է բանաձևով.

  7. Չեբիշևի հեռավորությունը.
  8. Այս հեռավորությունը կարող է օգտակար լինել, երբ մեկը ցանկանում է երկու օբյեկտ սահմանել որպես «տարբեր», եթե դրանք տարբերվում են որևէ մեկ կոորդինատով (ցանկացած մեկ հարթությունում): Չեբիշևի հեռավորությունը հաշվարկվում է բանաձևով.

  9. Հզորության հեռավորությունը.

    Երբեմն մարդը ցանկանում է աստիճանաբար ավելացնել կամ նվազեցնել կշիռները, որոնք կապված են չափման հետ, որի համար համապատասխան առարկաները շատ տարբեր են: Դրան կարելի է հասնել՝ օգտագործելով իշխանություն-օրենք հեռավորությունը: Հզորության հեռավորությունը հաշվարկվում է բանաձևով.

    որտեղ r-ը և p-ն օգտագործողի կողմից սահմանված պարամետրեր են:

    Մի քանի օրինակ հաշվարկներ կարող են ցույց տալ, թե ինչպես է «աշխատում» այս չափումը.

    • p պարամետրը պատասխանատու է առանձին կոորդինատների երկայնքով տարբերությունները աստիճանաբար կշռելու համար:
    • r պարամետրը պատասխանատու է առարկաների միջև մեծ հեռավորությունների աստիճանական կշռման համար:
    • Եթե ​​r և p երկու պարամետրերը հավասար են երկուսի, ապա այս հեռավորությունը համընկնում է Էվկլիդեսյան հեռավորության հետ։
  10. Անհամաձայնության տոկոսը.
  11. Այս միջոցը օգտագործվում է, երբ տվյալները կատեգորիկ են: Այս հեռավորությունը հաշվարկվում է բանաձևով.

Ասոցիացիայի կամ կապի կանոններ

Առաջին քայլում, երբ յուրաքանչյուր օբյեկտ առանձին կլաստեր է, այդ օբյեկտների միջև հեռավորությունները որոշվում են ընտրված չափով: Այնուամենայնիվ, երբ մի քանի առարկաներ միմյանց հետ կապված են, հարց է առաջանում՝ ինչպե՞ս պետք է որոշվեն կլաստերների միջև եղած հեռավորությունները:

Այլ կերպ ասած, երկու կլաստերների համար անհրաժեշտ է միության կամ կապի կանոն: Այստեղ կան տարբեր հնարավորություններ. օրինակ, դուք կարող եք կապել երկու կլաստերներ, երբ երկու կլաստերների ցանկացած երկու օբյեկտ ավելի մոտ են միմյանց, քան համապատասխան կապի հեռավորությունը:

Այլ կերպ ասած, դուք օգտագործում եք «ամենամոտ հարեւանի կանոնը»՝ կլաստերների միջև հեռավորությունը որոշելու համար. այս մեթոդը կոչվում է մեկ կապի մեթոդ: Այս կանոնը կառուցում է «թելքավոր» կլաստերներ, այսինքն. կլաստերները «կապված են միասին» միայն առանձին տարրերով, որոնք պատահաբար մոտ են միմյանց:

Որպես այլընտրանք, դուք կարող եք օգտագործել հարևաններ կլաստերներում, որոնք միմյանցից ամենահեռու են մյուս բոլոր զույգ օբյեկտների կողմից: Այս մեթոդը կոչվում է ամբողջական կապի մեթոդ: Գոյություն ունեն նաև կլաստերների համակցման բազմաթիվ այլ մեթոդներ, նմանատիպ թեմաներորոնք դիտարկվել են:

  • Մեկ հղում (մոտակա հարեւանի մեթոդ):
  • Ինչպես նկարագրված է վերևում, այս մեթոդով երկու կլաստերների միջև հեռավորությունը որոշվում է տարբեր կլաստերներում երկու ամենամոտ օբյեկտների (մոտակա հարևանների) միջև եղած հեռավորությամբ:

    Այս կանոնը, ինչ-որ իմաստով, պետք է լարային առարկաները միասին կազմի կլաստերներ ձևավորելու համար, և արդյունքում ստացված կլաստերները հակված են ներկայացնելու երկար «շղթաներով»:

  • Ամբողջական հղում (ամենահեռավոր հարեւանների մեթոդ):
  • Այս մեթոդով կլաստերների միջև հեռավորությունները որոշվում են տարբեր կլաստերների ցանկացած երկու օբյեկտների միջև ամենամեծ հեռավորությամբ (այսինքն՝ «ամենահեռավոր հարևաններ»):

    Այս մեթոդը սովորաբար շատ լավ է աշխատում, երբ առարկաները գալիս են իրականում տարբեր «պուրակներից»:

    Եթե ​​կլաստերներն ունեն փոքր-ինչ ձգված ձև կամ դրանց բնական տեսակը «շղթայական» է, ապա այս մեթոդը պիտանի չէ:

  • Չկշռված զույգ զույգ միջին:
  • Այս մեթոդով երկու տարբեր կլաստերների միջև հեռավորությունը հաշվարկվում է որպես դրանցում գտնվող բոլոր զույգ առարկաների միջև եղած միջին հեռավորություն: Մեթոդն արդյունավետ է, երբ առարկաները իրականում ձևավորում են տարբեր «պուրակներ», բայց այն հավասարապես լավ է աշխատում ընդլայնված («շղթայական» տիպի) կլաստերների դեպքում:

    Նկատի ունեցեք, որ իրենց գրքում Sneath-ը և Sokal-ը (1973) ներկայացնում են UPGMA հապավումը՝ այս մեթոդը որպես չկշռված զույգ-խմբային մեթոդ՝ օգտագործելով թվաբանական միջինները:

  • Զույգ կշռված միջին:
  • Մեթոդը նույնական է չկշռված զույգ միջին մեթոդին, բացառությամբ, որ հաշվարկներում որպես կշռման գործոն օգտագործվում է համապատասխան կլաստերների չափը (այսինքն՝ դրանցում պարունակվող օբյեկտների քանակը)։ Հետևաբար, առաջարկվող մեթոդը պետք է օգտագործվի, երբ ակնկալվում են կլաստերների անհավասար չափեր:

    Սնեթի և Սոկալի (1973) գիրքը ներկայացնում է WPGMA հապավումը՝ այս մեթոդը որպես կշռված զույգ-խմբային մեթոդ՝ օգտագործելով թվաբանական միջինները:

  • Չկշռված ցենտրոիդ մեթոդ.
  • Այս մեթոդով երկու կլաստերների միջև հեռավորությունը սահմանվում է որպես նրանց ծանրության կենտրոնների միջև հեռավորություն:

    Sneath-ը և Sokal-ը (1973) օգտագործում են UPGMC հապավումը՝ այս մեթոդը նշելու որպես չկշռված զույգ-խմբային մեթոդ՝ օգտագործելով կենտրոնական միջինը:

  • Կշռված ցենտրոիդ մեթոդ (միջին):
  • Այս մեթոդը նույնական է նախորդին, բացառությամբ, որ հաշվարկը օգտագործում է կշիռներ՝ հաշվի առնելու կլաստերների չափերի տարբերությունը (այսինքն՝ դրանցում առկա օբյեկտների քանակը):

    Հետևաբար, եթե կան (կամ կասկածվում են) էական տարբերություններ կլաստերի չափերի մեջ, այս մեթոդը նախընտրելի է նախորդից:

    Sneath-ը և Sokal-ը (1973) օգտագործել են WPGMC հապավումը՝ այն անվանելու որպես կշռված զույգ-խմբային մեթոդ՝ օգտագործելով կենտրոնական միջինը:

  • Ուորդի մեթոդը.
  • Այս մեթոդը տարբերվում է բոլոր մյուս մեթոդներից, քանի որ այն օգտագործում է շեղումների վերլուծություն՝ կլաստերների միջև հեռավորությունները գնահատելու համար: Մեթոդը նվազագույնի է հասցնում քառակուսիների գումարը (SS) ցանկացած երկու (հիպոթետիկ) կլաստերների համար, որոնք կարող են ձևավորվել յուրաքանչյուր քայլում:

    Մանրամասները կարելի է գտնել Ward-ում (1963): Ընդհանուր առմամբ, մեթոդը շատ արդյունավետ է թվում, բայց այն հակված է ստեղծել փոքր կլաստերներ:

Երկու մուտքային համակցություն

Այս մեթոդը նախկինում քննարկվել է «օբյեկտների» առումով, որոնք պետք է հավաքվեն: Մնացած բոլոր տեսակի վերլուծություններում հետազոտողին հետաքրքրող հարցը սովորաբար արտահայտվում է դիտարկումների կամ փոփոխականների տեսքով: Ստացվում է, որ կլաստերավորումը թե՛ դիտարկումների, թե՛ փոփոխականների միջոցով կարող է հանգեցնել բավականին հետաքրքիր արդյունքների։

Օրինակ, պատկերացրեք, որ բժշկական հետազոտողը տվյալներ է հավաքում սրտի հիվանդությամբ տառապող հիվանդների վիճակի (դեպքերի) տարբեր բնութագրերի (փոփոխականների) վերաբերյալ: Հետազոտողը կարող է ցանկանալ խմբավորել դիտարկումները (հիվանդներին)՝ նույնական ախտանիշներով հիվանդների կլաստերները բացահայտելու համար:

Միևնույն ժամանակ, հետազոտողը կարող է ցանկանալ խմբավորել փոփոխականները՝ բացահայտելու փոփոխականների կլաստերները, որոնք կապված են նմանատիպ ֆիզիկական պայմանների հետ: Դիտարկումների կամ փոփոխականների կլաստերավորման վերաբերյալ այս քննարկումից հետո կարելի է հարցնել՝ ինչո՞ւ չխմբավորել երկու ուղղություններով:

Կլաստերի վերլուծության մոդուլը պարունակում է արդյունավետ երկկողմանի միացման ռեժիմ, որը թույլ է տալիս հենց դա անել: Այնուամենայնիվ, երկկողմանի միավորումն օգտագործվում է (համեմատաբար հազվադեպ) այն հանգամանքներում, երբ ինչպես դիտարկումները, այնպես էլ փոփոխականները միաժամանակ կնպաստեն իմաստալից կլաստերների հայտնաբերմանը:

Այսպիսով, վերադառնալով նախորդ օրինակին, մենք կարող ենք ենթադրել, որ բժշկական հետազոտողը պետք է բացահայտի հիվանդների կլաստերները, որոնք նման են ֆիզիկական վիճակի բնութագրերի որոշակի կլաստերների:

Ստացված արդյունքների մեկնաբանման դժվարությունը ծագում է այն փաստից, որ տարբեր կլաստերների միջև նմանությունները կարող են առաջանալ (կամ պատճառ լինել) փոփոխականների ենթաբազմությունների որոշ տարբերություններից: Հետեւաբար, ստացված կլաստերներն իրենց բնույթով տարասեռ են:

Սա կարող է սկզբում մի փոքր մշուշոտ թվալ. Իրականում, կլաստերի վերլուծության նկարագրված այլ մեթոդների համեմատ, երկկողմանի միացումը հավանաբար ամենաքիչ օգտագործվող մեթոդն է: Այնուամենայնիվ, որոշ հետազոտողներ կարծում են, որ այն առաջարկում է հետախուզական տվյալների վերլուծության հզոր միջոց (լրացուցիչ տեղեկությունների համար տե՛ս Հարթիգանի (1975) այս մեթոդի նկարագրությունը):

K-ն նշանակում է մեթոդ

Կլաստերավորման այս մեթոդը էականորեն տարբերվում է այնպիսի ագլոմերատիվ մեթոդներից, ինչպիսիք են միությունը (ծառերի խմբավորումը) և երկկողմանի միացումը: Ենթադրենք, դուք արդեն վարկածներ ունեք կլաստերների քանակի վերաբերյալ (հիմնված դիտարկումների կամ փոփոխականների վրա):

Դուք կարող եք համակարգին ասել, որ ձևավորի ճիշտ երեք կլաստեր, որպեսզի դրանք հնարավորինս հստակ լինեն: Սա հենց այն տեսակի խնդիրն է, որը լուծում է K-means ալգորիթմը: Ընդհանուր առմամբ, K-means մեթոդը կառուցում է հենց K տարբեր կլաստերներ, որոնք տեղակայված են միմյանցից հնարավորինս մեծ հեռավորությունների վրա:

Ֆիզիկական վիճակի օրինակում, բժշկական հետազոտողը կարող է իր կլինիկական փորձից «կարծում» ունենալ, որ իր հիվանդները հիմնականում դասվում են երեք տարբեր կատեգորիաների: Հաջորդը, նա կարող է ցանկանալ իմանալ, թե արդյոք իր ինտուիցիան կարող է թվայինորեն հաստատվել, այսինքն, արդյոք K-means կլաստերային վերլուծությունը իրականում արտադրում է հիվանդների երեք կլաստերներ, ինչպես և սպասվում էր:

Եթե ​​դա այդպես է, ապա յուրաքանչյուր կլաստերի համար ֆիզիկական պարամետրերի տարբեր չափումների միջինները կապահովեն հետազոտողի վարկածները ներկայացնելու քանակական եղանակ (օրինակ՝ 1-ին կլաստերի հիվանդներն ունեն բարձր պարամետր 1, ցածր պարամետր 2 և այլն): .

Հաշվողական տեսանկյունից այս մեթոդը կարող եք դիտարկել որպես հակադարձ շեղումների վերլուծություն:

Ծրագիրը սկսվում է K պատահականորեն ընտրված կլաստերներով, այնուհետև փոխում է դրանցում օբյեկտների անդամակցությունն այնպես, որ.

  1. նվազագույնի հասցնել փոփոխականությունը կլաստերների ներսում,
  2. առավելագույնի հասցնել փոփոխականությունը կլաստերների միջև:

Այս մեթոդը նման է հակադարձ ANOVA-ին, քանի որ ANOVA-ում նշանակության թեստը համեմատում է խմբի և ներսում խմբի փոփոխականությունը այն վարկածը ստուգելիս, որ խմբի միջինները տարբերվում են միմյանցից:

K-means կլաստերավորման ժամանակ ծրագիրը տեղափոխում է օբյեկտները (այսինքն՝ դիտարկումները) մի խմբից (կլաստերի) մյուսը՝ առավելագույնը ստանալու համար։ նշանակալի արդյունքվարիանսի վերլուծություն (ANOVA): Սովորաբար, երբ K-means կլաստերային վերլուծության արդյունքները ձեռք բերվեն, յուրաքանչյուր չափման երկայնքով յուրաքանչյուր կլաստերի համար կարող են հաշվարկվել միջինները՝ գնահատելու համար, թե որքանով են տարբեր են կլաստերները միմյանցից:

Իդեալում, դուք պետք է ստանաք շատ տարբեր միջոցներ վերլուծության մեջ օգտագործված չափումների մեծ մասի համար, եթե ոչ բոլորի համար: F-վիճակագրության արժեքները, որոնք ստացվել են յուրաքանչյուր հարթության համար, ևս մեկ ցուցիչ են, թե որքանով է համապատասխան չափումը տարբերում կլաստերների միջև:

Աղբյուր՝ «biometrica.tomsk.ru»

Օբյեկտների դասակարգումն ըստ նրանց բնութագրերի

Կլաստերային վերլուծությունը բազմաչափ վիճակագրական մեթոդների մի շարք է՝ առարկաները դասակարգելու համար, ըստ նրանց բնութագրող բնութագրերի, օբյեկտների մի շարք բաժանելով միատարր խմբերի, որոնք նման են չափորոշիչների սահմանմանը և նույնականացնել որոշակի խմբի օբյեկտները:

Կլաստերը օբյեկտների խումբ է, որը բացահայտվում է կլաստերային վերլուծության արդյունքում՝ հիմնված օբյեկտների միջև նմանության կամ տարբերությունների տվյալ չափման վրա: Օբյեկտ – սրանք հետազոտության հատուկ օբյեկտներ են, որոնք պետք է դասակարգվեն: Դասակարգման օբյեկտները, որպես կանոն, դիտարկումներն են։ Օրինակ՝ ապրանքների սպառողներ, երկրներ կամ տարածաշրջաններ, ապրանքներ և այլն։

Չնայած հնարավոր է կլաստերի վերլուծություն իրականացնել ըստ փոփոխականների։ Կլաստերների բազմաչափ վերլուծության մեջ օբյեկտների դասակարգումը տեղի է ունենում միաժամանակ մի քանի չափանիշների համաձայն: Այսպիսով, կլաստերային վերլուծության հիմնական նպատակը նմուշում նմանատիպ օբյեկտների խմբեր գտնելն է:

Կլաստերային վերլուծության բազմաչափ վիճակագրական մեթոդների ամբողջությունը կարելի է բաժանել հիերարխիկ մեթոդների (ագլոմերատիվ և բաժանարար) և ոչ հիերարխիկ (k-means մեթոդ, երկփուլ կլաստերային վերլուծություն):

Այնուամենայնիվ, չկա մեթոդների ընդհանուր ընդունված դասակարգում, և կլաստերային վերլուծության մեթոդները երբեմն ներառում են նաև որոշումների ծառերի, նեյրոնային ցանցերի, դիսկրիմինանտ վերլուծության և լոգիստիկ ռեգրեսիայի կառուցման մեթոդներ:

Կլաստերային վերլուծության կիրառման շրջանակը, իր բազմակողմանիության շնորհիվ, շատ լայն է: Կլաստերային վերլուծությունը օգտագործվում է տնտեսագիտության, մարքեթինգի, հնագիտության, բժշկության, հոգեբանության, քիմիայի, կենսաբանության, պետական ​​կառավարման, բանասիրության, մարդաբանության, սոցիոլոգիայի և այլ ոլորտներում:

Ահա կլաստերային վերլուծության օգտագործման որոշ օրինակներ.

  • բժշկություն - հիվանդությունների դասակարգում, դրանց ախտանիշները, բուժման մեթոդները, հիվանդների խմբերի դասակարգումը.
  • շուկայավարում - ընկերության արտադրանքի գիծը օպտիմալացնելու, շուկայի սեգմենտավորումն ըստ ապրանքների կամ սպառողների խմբերի, պոտենցիալ սպառողների բացահայտման խնդիրներ.
  • սոցիոլոգիա - հարցվողների բաժանումը միատարր խմբերի.
  • հոգեբուժություն - ախտանիշների խմբերի ճիշտ ախտորոշումը որոշիչ է հաջող թերապիայի համար.
  • կենսաբանություն - օրգանիզմների դասակարգում ըստ խմբի;
  • տնտեսագիտություն - Ռուսաստանի Դաշնության սուբյեկտների դասակարգում ըստ ներդրումային գրավչության:

Աղբյուր՝ «statmethods.ru»

Հասկանալով կլաստերային վերլուծություն

Կլաստերային վերլուծությունը ներառում է դասակարգման տարբեր ալգորիթմների մի շարք: Շատ ոլորտներում հետազոտողների կողմից տրվող ընդհանուր հարցն այն է, թե ինչպես կազմակերպել դիտարկված տվյալները տեսողական կառուցվածքների մեջ:

Օրինակ, կենսաբանները նպատակ ունեն կենդանիներին դասակարգել տարբեր տեսակների, որպեսզի իմաստալից նկարագրեն նրանց միջև եղած տարբերությունները:

Կլաստերային վերլուծության խնդիրն է օբյեկտների սկզբնական հավաքածուն բաժանել նմանատիպ օբյեկտների խմբերի, որոնք մոտ են միմյանց: Այս խմբերը կոչվում են կլաստերներ:

Այլ կերպ ասած, կլաստերային վերլուծությունը օբյեկտների դասակարգման եղանակներից մեկն է՝ ըստ նրանց բնութագրերի։ Ցանկալի է, որ դասակարգման արդյունքներն ունենան բովանդակալից մեկնաբանություն։

Կլաստերային վերլուծության մեթոդներով ստացված արդյունքներն օգտագործվում են մի շարք ոլորտներում.

  1. Մարքեթինգում սա մրցակիցների և սպառողների սեգմենտավորումն է:
  2. Հոգեբուժության մեջ հաջող թերապիայի համար որոշիչ է այնպիսի ախտանիշների ճիշտ ախտորոշումը, ինչպիսիք են պարանոյան, շիզոֆրենիան և այլն։
  3. Կառավարման մեջ կարևոր է դասակարգել մատակարարներին և բացահայտել նմանատիպ արտադրական իրավիճակները, որոնցում առաջանում են թերություններ:
  4. Սոցիոլոգիայում հարցվողների բաժանումը միատարր խմբերի.
  5. Պորտֆելի ներդրումների ժամանակ կարևոր է խմբավորել արժեթղթերը՝ ըստ եկամտաբերության միտումների նմանության, որպեսզի ֆոնդային շուկայի մասին ձեռք բերված տեղեկատվության հիման վրա ստեղծվի օպտիմալ ներդրումային պորտֆել, որը թույլ է տալիս առավելագույնի հասցնել ներդրումների եկամուտները ռիսկի որոշակի աստիճանի դեպքում:

Փաստորեն, կլաստերային վերլուծությունն իրեն լավ է ապացուցել մարդկային կյանքի բոլոր ոլորտներում։ Ընդհանրապես, ամեն անգամ, երբ անհրաժեշտ է դասակարգել այս կարգի մեծ քանակությամբ տեղեկատվություն և ներկայացնել այն հետագա մշակման համար հարմար ձևով, կլաստերային վերլուծությունը շատ օգտակար և արդյունավետ է ստացվում:

Կլաստերային վերլուծությունը թույլ է տալիս դիտարկել բավականին մեծ քանակությամբ տեղեկատվություն և մեծապես սեղմել մեծ տարածքներսոցիալ-տնտեսական տեղեկատվություն, դարձնել դրանք կոմպակտ և տեսողական:

Կլաստերային վերլուծությունը մեծ նշանակություն ունի տնտեսական զարգացումը բնութագրող ժամանակային շարքերի (օրինակ՝ ընդհանուր տնտեսական և ապրանքային պայմանների) առնչությամբ։

Այստեղ դուք կարող եք ընդգծել այն ժամանակահատվածները, երբ համապատասխան ցուցանիշների արժեքները բավականին մոտ են եղել, ինչպես նաև որոշել ժամանակային շարքերի խմբերը, որոնց դինամիկան առավել նման է: Սոցիալ-տնտեսական կանխատեսման առաջադրանքներում շատ խոստումնալից է կլաստերային վերլուծության համադրությունը այլ քանակական մեթոդների հետ (օրինակ՝ ռեգրեսիոն վերլուծություն):

Առավելություններն ու թերությունները

Կլաստերային վերլուծությունը թույլ է տալիս օբյեկտիվ դասակարգել ցանկացած օբյեկտ, որը բնութագրվում է մի շարք բնութագրերով: Կան մի շարք առավելություններ, որոնք կարելի է ստանալ դրանից.

  • Ստացված կլաստերները կարելի է մեկնաբանել, այսինքն՝ նկարագրել, թե իրականում ինչ խմբեր կան։
  • Առանձին կլաստերները կարող են անտեսվել: Սա օգտակար է այն դեպքերում, երբ տվյալների հավաքագրման ընթացքում կատարվել են որոշակի սխալներ, ինչի արդյունքում առանձին օբյեկտների համար ցուցիչների արժեքները կտրուկ շեղվում են: Կլաստերային վերլուծություն կիրառելիս նման օբյեկտներն ընկնում են առանձին կլաստերի մեջ։
  • Հետագա վերլուծության համար կարող են ընտրվել միայն այն կլաստերները, որոնք ունեն հետաքրքրության առանձնահատկություններ:

Ինչպես ցանկացած այլ մեթոդ, կլաստերային վերլուծությունն ունի որոշակի թերություններ և սահմանափակումներ: Մասնավորապես:

  1. կլաստերների կազմը և քանակը կախված է բաժանման ընտրված չափանիշներից,
  2. սկզբնական տվյալների զանգվածը ավելի կոմպակտ ձևի կրճատելիս կարող են առաջանալ որոշակի աղավաղումներ,
  3. Առանձին օբյեկտների անհատական ​​հատկանիշները կարող են կորցնել՝ դրանք փոխարինելով կլաստերի պարամետրերի ընդհանրացված արժեքների բնութագրերով:

Մեթոդներ

Ներկայումս հայտնի են ավելի քան հարյուր տարբեր կլաստերի ալգորիթմներ: Նրանց բազմազանությունը բացատրվում է ոչ միայն տարբեր հաշվարկային մեթոդներով, այլ նաև կլաստերավորման հիմքում ընկած տարբեր հասկացություններով: Կլաստերավորման այս կամ այն ​​մեթոդի ընտրության վերաբերյալ առաջարկությունները կարող են տրվել միայն ընդհանուր գծերով, իսկ ընտրության հիմնական չափանիշը արդյունքի գործնական օգտակարությունն է:

Statistica փաթեթն իրականացնում է կլաստերավորման հետևյալ մեթոդները.

  • Հիերարխիկ ալգորիթմներ - ծառերի խմբավորում: Հիերարխիկ ալգորիթմները հիմնված են հաջորդական կլաստերավորման գաղափարի վրա: Սկզբնական փուլում յուրաքանչյուր օբյեկտ դիտարկվում է որպես առանձին կլաստեր: Հաջորդ քայլում միմյանց ամենամոտ կլաստերներից մի քանիսը կմիավորվեն առանձին կլաստերի մեջ:
  • K-միջոցների մեթոդ. Այս մեթոդը առավել հաճախ օգտագործվում է: Այն պատկանում է կլաստերային վերլուծության, այսպես կոչված, հղումային մեթոդների խմբին։ K կլաստերների թիվը նշվում է օգտագործողի կողմից:
  • Երկու մուտքային համակցություն: Այս մեթոդի կիրառման ժամանակ կլաստերավորումն իրականացվում է միաժամանակ և՛ փոփոխականների (սյունակների), և՛ դիտարկումների (տողերի) միջոցով:

Երկկողմանի միավորման ընթացակարգն օգտագործվում է այն դեպքերում, երբ փոփոխականների և դիտարկումների համաժամանակյա կլաստերավորումը կարող է ակնկալվել, որ զգալի արդյունքներ կտա:

Ընթացակարգի արդյունքները փոփոխականների և դիտարկումների նկարագրական վիճակագրություն են, ինչպես նաև երկչափ գունային աղյուսակ, որում տվյալների արժեքները գունային կոդավորված են: Գույնի բաշխման հիման վրա կարող եք պատկերացում կազմել համասեռ խմբերի մասին:

Փոփոխականների նորմալացում

Օբյեկտների սկզբնական հավաքածուն կլաստերների բաժանելը ներառում է օբյեկտների միջև հեռավորությունների հաշվարկ և օբյեկտների ընտրություն, որոնց հեռավորությունը ամենափոքրն է: Ամենատարածվածը բոլորիս ծանոթ էվկլիդեսյան (երկրաչափական) հեռավորությունն է: Այս մետրիկը համապատասխանում է տարածության մեջ առարկաների մոտիկության մասին ինտուիտիվ պատկերացումներին (կարծես առարկաների միջև հեռավորությունը չափվում է ժապավենով):

Բայց տվյալ չափման համար օբյեկտների միջև հեռավորությունը կարող է մեծապես ազդել մասշտաբների (չափման միավորների) փոփոխություններից: Օրինակ, եթե հատկանիշներից մեկը չափվում է միլիմետրերով, իսկ հետո դրա արժեքը վերածվում է սանտիմետրերի, ապա օբյեկտների միջև էվկլիդյան հեռավորությունը մեծապես կփոխվի։ Սա կհանգեցնի նրան, որ կլաստերային վերլուծության արդյունքները կարող են զգալիորեն տարբերվել նախորդներից:

Եթե ​​փոփոխականները չափվում են տարբեր չափման միավորներով, ապա պահանջվում է դրանց նախնական նորմալացում, այսինքն՝ սկզբնական տվյալների փոխակերպում, որը դրանք վերածում է չափազուրկ մեծությունների։

Նորմալացումը մեծապես աղավաղում է սկզբնական տարածության երկրաչափությունը, ինչը կարող է փոխել կլաստերավորման արդյունքները: Statistica փաթեթում ցանկացած x փոփոխականի նորմալացումն իրականացվում է բանաձևով.

Դա անելու համար աջ սեղմեք փոփոխականի անվան վրա և բացվող մենյուում ընտրեք հրամանների հաջորդականությունը՝ լրացնել/Ստանդարտացնել բլոկը/ստանդարտացնել սյուները: Նորմալացված փոփոխականի արժեքները կդառնան հավասար զրոյի, իսկ շեղումը կդառնա հավասար մեկի:

K-means մեթոդը Statistica ծրագրում

K-means մեթոդը օբյեկտների մի շարք բաժանում է տարբեր կլաստերների տրված K թվի, որոնք գտնվում են միմյանցից հնարավորինս մեծ հեռավորության վրա: Սովորաբար, երբ K-means կլաստերային վերլուծության արդյունքները ձեռք բերվեն, յուրաքանչյուր չափման երկայնքով յուրաքանչյուր կլաստերի համար կարող են հաշվարկվել միջինները՝ գնահատելու համար, թե որքանով են տարբեր են կլաստերները միմյանցից:

Իդեալում, վերլուծության մեջ օգտագործվող չափումների մեծ մասի համար դուք պետք է ստանաք շատ տարբեր միջոցներ: F-վիճակագրության արժեքները, որոնք ստացվել են յուրաքանչյուր հարթության համար, ևս մեկ ցուցիչ են, թե որքանով է համապատասխան չափումը տարբերում կլաստերների միջև:

Որպես օրինակ՝ դիտարկենք ձեռնարկության 17 աշխատակիցների հարցման արդյունքները՝ իրենց կարիերայի որակի ցուցանիշներից գոհունակության վերաբերյալ: Աղյուսակում տրված են հարցման հարցերի պատասխանները տասը բալանոց սանդղակով (1-ը նվազագույն միավորն է, 10-ը՝ առավելագույնը):

Փոփոխականների անունները համապատասխանում են հետևյալ հարցերի պատասխաններին.

  1. SLC - անձնական նպատակների և կազմակերպչական նպատակների համադրություն.
  2. OSO - վարձատրության մեջ արդարության զգացում;
  3. TBD - տարածքային հարևանություն տան հետ;
  4. OEB - տնտեսական բարեկեցության զգացում;
  5. KR - կարիերայի աճ;
  6. JSR - աշխատանքը փոխելու ցանկություն;
  7. RSD - սոցիալական բարեկեցության զգացում:


Օգտագործելով այս տվյալները՝ անհրաժեշտ է աշխատակիցներին բաժանել խմբերի և բացահայտել կառավարման ամենաարդյունավետ լծակները նրանցից յուրաքանչյուրի համար։ Միևնույն ժամանակ, խմբերի միջև տարբերությունները պետք է ակնհայտ լինեն, իսկ խմբի ներսում հարցվողները պետք է հնարավորինս նման լինեն:

Այսօր սոցիոլոգիական հարցումների մեծ մասը տալիս է ձայների միայն տոկոսը. դրական արձագանքողների հիմնական թիվը կամ դժգոհների տոկոսը հաշվվում է, բայց այս հարցը համակարգված չի դիտարկվում։ Ամենից հաճախ հարցումը իրավիճակի միտում չի ցույց տալիս։

Կլաստերային վերլուծության ընթացակարգերը կարող են օգտագործվել հետազոտության տվյալների հիման վրա որոշ իրականում գոյություն ունեցող հարաբերություններ բնութագրելու և դրա հիման վրա դրանց տիպաբանությունը ստեղծելու համար: Կլաստերային վերլուծության ընթացակարգեր իրականացնելիս սոցիոլոգի որևէ a priori վարկածի առկայությունը չկա անհրաժեշտ պայման.

Statistica-ում կլաստերային վերլուծությունը կատարվում է հետևյալ կերպ.

  1. Ստեղծեք տվյալների ֆայլ:
  2. Ընտրեք մոդուլի վիճակագրություն/ Multivariable Exploratory Techniques/ Cluster Analysis: Սեղմեք OK, որի արդյունքում կհայտնվի երկխոսության տուփ.

  3. Բացվող պատուհանում ընտրեք K-means կլաստերավորման մեթոդը և սեղմեք OK:
  4. Երկխոսության վանդակում, որը հայտնվում է, դուք պետք է սահմանեք հետևյալ պարամետրերը.


    • Ընտրեք փոփոխականներ՝ օգտագործելով Variables կոճակը:
    • Ընտրեք խմբավորման օբյեկտներ. դրանք կարող են լինել փոփոխականներ՝ սյունակներ (Փոփոխականներ сolumns)), կամ դիտարկումներ՝ տողեր (Պատյաններ (Տողեր)): Նախ, եկեք խմբավորենք ըստ տողերի (Պատյաններ(տողեր)):
    • Ընտրեք կլաստերների քանակը:
      Այս ընտրությունը կատարվում է օգտագործողի կողմից՝ հիմնվելով նմանատիպ օբյեկտների խմբերի քանակի վերաբերյալ իր իսկ ենթադրությունների վրա։

      Կլաստերների քանակն ընտրելիս առաջնորդվեք հետևյալով.

      1. Կլաստերների թիվը, հնարավորության դեպքում, չպետք է չափազանց մեծ լինի:
      2. Հեռավորությունը, որով միավորվել են տվյալ կլաստերի առարկաները, պետք է, հնարավորության դեպքում, շատ ավելի փոքր լինի, քան այն հեռավորությունը, որով մեկ այլ բան միանում է այս կլաստերին:
      Կլաստերների քանակն ընտրելիս ամենից հաճախ լինում են մի քանիսը միաժամանակ ճիշտ որոշումներ. Մեզ հետաքրքրում է, օրինակ, թե ինչպես են հարցման հարցերի պատասխանները համեմատվում սովորական աշխատողների և ձեռնարկության ղեկավարության միջև: Հետևաբար մենք ընտրում ենք K=2: Հետագա հատվածավորման համար կարող եք ավելացնել կլաստերների քանակը:
    • Հաջորդը, դուք պետք է ընտրեք օբյեկտների նախնական բաժանումը կլաստերների (Initial cluster centers): Statistica փաթեթն առաջարկում է.
      1. ընտրել կլաստերային կենտրոնների միջև առավելագույն հեռավորությամբ դիտարկումներ.
      2. տեսակավորել հեռավորությունները և ընտրել դիտարկումները կանոնավոր պարբերականությամբ (կանխադրված կարգավորում);
      3. վերցրեք առաջին դիտարկումները որպես կենտրոններ և կցեք դրանց մնացած առարկաները:

      Առաջին տարբերակը հարմար է մեր նպատակների համար:

Կլաստերավորման շատ ալգորիթմներ հաճախ տվյալների վրա «պարտադրում են» անբնական կառուցվածք և ապակողմնորոշում հետազոտողին: Հետևաբար, չափազանց անհրաժեշտ է կիրառել կլաստերային վերլուծության մի քանի ալգորիթմներ և եզրակացություններ անել՝ հիմնվելով ալգորիթմների արդյունքների ընդհանուր գնահատման վրա:

Վերլուծության արդյունքները կարող են դիտվել երկխոսության վանդակում, որը հայտնվում է.

Եթե ​​ընտրեք «Միջոցների գրաֆիկ» ներդիրը, ապա կստեղծվի կլաստերի կենտրոնների կոորդինատների գրաֆիկ.


Այս գրաֆիկի յուրաքանչյուր կոտրված գիծ համապատասխանում է կլաստերներից մեկին.

  • Գրաֆիկի հորիզոնական առանցքի յուրաքանչյուր բաժանումը համապատասխանում է վերլուծության մեջ ներառված փոփոխականներից մեկին:
  • Ուղղահայաց առանցքը համապատասխանում է կլաստերներից յուրաքանչյուրում ներառված օբյեկտների փոփոխականների միջին արժեքներին:

Կարելի է նշել, որ գրեթե բոլոր հարցերում մարդկանց երկու խմբերի վերաբերմունքն իրենց կարիերայի նկատմամբ զգալի տարբերություններ կան։ Լիակատար միաձայնություն կա միայն մեկ հարցում՝ սոցիալական բարեկեցության զգացում (ՍՍԲ), ավելի ճիշտ՝ դրա բացակայություն (2,5 միավոր 10-ից):

Կարելի է ենթադրել, որ.

  1. Կլաստեր 1-ը ցույց է տալիս աշխատողներին,
  2. կլաստեր 2 – առաջնորդություն.
    • Կառավարիչները ավելի շատ գոհ են կարիերայի աճից (CG), անձնական նպատակների և կազմակերպչական նպատակների համակցումից (SLC):
    • Նրանք ունեն ընկալվող տնտեսական բարեկեցության (SEW) և ընկալվող վարձատրության հավասարության (SPE) ավելի բարձր մակարդակներ:
    • Նրանք ավելի քիչ են մտահոգված տան տարածքային մոտիկությամբ (TPH), քան աշխատողների համար, հավանաբար տրանսպորտի հետ կապված ավելի քիչ խնդիրների պատճառով:
    • Բացի այդ, ղեկավարներն ավելի քիչ ցանկություն ունեն փոխել աշխատանքը (JSR):

Չնայած այն հանգամանքին, որ աշխատողները բաժանված են երկու կատեգորիայի, նրանք շատ հարցերին պատասխանում են համեմատաբար հավասար: Այսինքն՝ եթե ինչ-որ բան հարիր չէ աշխատողների ընդհանուր խմբին, նույնը չի հարիր բարձր ղեկավարությանը, և հակառակը։

Ժամանակացույցերի համակարգումը թույլ է տալիս եզրակացություններ անել, որ մի խմբի բարեկեցությունն արտացոլվում է մյուսի բարեկեցության մեջ:

Կլաստեր 1-ին չի բավարարում տան տարածքային մոտիկությունը: Այս խումբն այն բանվորների հիմնական մասն է, ովքեր ձեռնարկություն են գալիս հիմնականում քաղաքի տարբեր մասերից։ Հետևաբար, հնարավոր է հիմնական ղեկավարությանը առաջարկել շահույթի մի մասը հատկացնել ընկերության աշխատակիցների համար բնակարանաշինությանը:

Մարդկանց երկու խմբերի վերաբերմունքում իրենց կարիերային զգալի տարբերություններ կան.

  1. Այն աշխատակիցները, ովքեր գոհ են իրենց կարիերայի աճից, ովքեր ունեն բարձր մակարդակի համաձայնություն իրենց անձնական նպատակների և կազմակերպության նպատակների միջև, ցանկություն չունեն փոխել աշխատանքը և իրենց բավարարված են զգում իրենց աշխատանքի արդյունքներից:
  2. Ընդհակառակը, այն աշխատակիցները, ովքեր ցանկանում են փոխել աշխատանքը և դժգոհ են իրենց աշխատանքի արդյունքներից, գոհ չեն նշված ցուցանիշներից։

Բարձրագույն ղեկավարությունը պետք է հատուկ ուշադրություն դարձնի ներկա իրավիճակին։

Տարբերակման վերլուծության արդյունքները յուրաքանչյուր հատկանիշի համար ցուցադրվում են՝ կտտացնելով Անալիզի շեղումների կոճակը.

Արդյունքներ:

  • Կլաստերային կենտրոններից օբյեկտների քառակուսի շեղումների գումարը (SS ներսում),
  • կլաստերային կենտրոնների միջև քառակուսի շեղումների գումարը (SS Between),
  • F- վիճակագրական արժեքներ,
  • նշանակության մակարդակները p.
Մեր օրինակի համար երկու փոփոխականների համար նշանակության մակարդակները բավականին մեծ են, ինչը բացատրվում է փոքր թվով դիտարկումներով: Ուսումնասիրության ամբողջական տարբերակում, որը կարելի է գտնել աշխատանքում, կլաստերային կենտրոնների համար միջոցների հավասարության վարկածը մերժվում է 0,01-ից պակաս նշանակալիության մակարդակներում:

Պահպանել դասակարգումները և հեռավորությունները կոճակը ցույց է տալիս յուրաքանչյուր կլաստերի մեջ ներառված օբյեկտների թիվը և յուրաքանչյուր կլաստերի կենտրոնից առարկաների հեռավորությունները:

Յուրաքանչյուր կլաստերի կազմը և օբյեկտների հեռավորությունը կենտրոնից

Աղյուսակում ներկայացված են դիտարկման համարները (CASE_NO), CLUSTER թվերով բաղկացուցիչ կլաստերները և յուրաքանչյուր կլաստերի կենտրոնից հեռավորությունը (DISTANCE):

Կլաստերներին պատկանող օբյեկտների մասին տեղեկատվությունը կարող է գրվել ֆայլում և օգտագործվել հետագա վերլուծության մեջ: Այս օրինակում ստացված արդյունքների համեմատությունը հարցաթերթիկների հետ ցույց տվեց, որ 1-ին կլաստերը հիմնականում բաղկացած է սովորական աշխատողներից, իսկ կլաստերը 2-ը՝ ղեկավարներից:

Այսպիսով, կարելի է նշել, որ հետազոտության արդյունքները մշակելիս պարզվել է, որ կլաստերային վերլուծություն է հզոր մեթոդ, որը թույլ է տալիս եզրակացություններ անել, որոնց հնարավոր չէ հասնել միջինների հիստոգրամա կառուցելով կամ տարբեր որակի ցուցանիշներով բավարարվածների տոկոսը հաշվարկելով աշխատանքային կյանք.

Ծառերի խմբավորումը հիերարխիկ ալգորիթմի օրինակ է, որի սկզբունքն է հաջորդաբար միավորել կլաստերի մեջ՝ սկզբում ամենամոտ, իսկ հետո ավելի հեռու գտնվող տարրերը միմյանցից: Այս ալգորիթմների մեծ մասը սկսվում է նմանության (հեռավորության) մատրիցից, և յուրաքանչյուր առանձին տարր նախ դիտարկվում է որպես առանձին կլաստեր:

Կլաստերային վերլուծության մոդուլը բեռնելուց և Միացում (ծառերի խմբավորում) ընտրելուց հետո խմբավորման պարամետրերի մուտքագրման պատուհանում կարող եք փոխել. հետևյալ պարամետրերը:

  1. Սկզբնական տվյալներ (մուտք): Դրանք կարող են լինել ուսումնասիրվող տվյալների մատրիցայի (Raw data) և հեռավորության մատրիցի (Distance matrix) տեսքով։
  2. Դիտարկումների կլաստերավորում (Պատյաններ (հում)) կամ փոփոխականներ (Փոփոխական (սյունակներ)) օբյեկտի վիճակը նկարագրող:
  3. Հեռավորության չափում. Այստեղ դուք կարող եք ընտրել հետևյալ միջոցներից.
    • Էվկլիդյան հեռավորություններ,
    • Էվկլիդյան քառակուսի հեռավորություններ,
    • քաղաքային բլոկների հեռավորություն (Մանհեթենի հեռավորություն, քաղաք-բլոկ (Մանհեթեն) հեռավորություն), Չեբիչևի հեռավորության չափում,
    • հզորության հեռավորություն (Power...;),
    • Տոկոսային անհամաձայնություն.
  4. Կլաստերավորման մեթոդ (Միացման (կապակցման) կանոն):
    Այստեղ հնարավոր են հետևյալ տարբերակները.
    • մեկ հղում (մոտակա հարեւանի մեթոդ) (Single Linkage),
    • ամբողջական կապ (ամենահեռավոր հարեւանների մեթոդ),
    • չկշռված զույգ խմբերի միջին,
    • կշռված զույգ-խմբային միջին,
    • չկշռված ցենտրոիդ մեթոդ (չկշռված զույգ-խմբային ցենտրոիդ),
    • կշռված զույգ-խմբային ցենտրոիդ (միջին) մեթոդ,
    • Ուորդի մեթոդը.

Կլաստերավորման արդյունքում կառուցվում է հորիզոնական կամ ուղղահայաց դենդրոգրամ՝ գրաֆիկ, որի վրա որոշվում են առարկաների և կլաստերների միջև հեռավորությունները, երբ դրանք հաջորդաբար համակցվում են։

Գրաֆիկի ծառի կառուցվածքը թույլ է տալիս սահմանել կլաստերներ՝ կախված ընտրված շեմից՝ կլաստերների միջև նշված հեռավորությունը:

Բացի այդ, ցուցադրվում է սկզբնական օբյեկտների միջև հեռավորությունների մատրիցա (Distance matrix). միջին և ստանդարտ շեղումներ յուրաքանչյուր աղբյուրի օբյեկտի համար (Distiptive statistics): Դիտարկված օրինակի համար մենք կկատարենք փոփոխականների կլաստերային վերլուծություն՝ լռելյայն կարգավորումներով: Ստացված դենդրոգրամը ներկայացված է նկարում.


Դենդրոգրամի ուղղահայաց առանցքը ցույց է տալիս առարկաների և առարկաների և կլաստերների միջև եղած հեռավորությունները: Այսպիսով, OEB և OSD փոփոխականների միջև հեռավորությունը հինգ է: Առաջին քայլում այս փոփոխականները միավորվում են մեկ կլաստերի մեջ:

Դենդրոգրամի հորիզոնական հատվածները գծվում են տվյալ կլաստերի քայլի համար ընտրված շեմային հեռավորության արժեքներին համապատասխանող մակարդակներում:

Գրաֆիկը ցույց է տալիս, որ «աշխատանքները փոխելու ցանկություն» (WSW) հարցը կազմում է առանձին կլաստեր: Ընդհանրապես, ցանկացած տեղ գնալու ցանկությունը հավասարապես այցելում է բոլորին։ Հաջորդը, առանձին կլաստեր է տան հետ տարածքային հարևանության հարցը (TDP):

Կարևորությամբ այն երկրորդ տեղում է, ինչը հաստատում է K-means մեթոդով կատարված ուսումնասիրության արդյունքների հիման վրա կատարված եզրակացությունը բնակարանաշինության անհրաժեշտության մասին։

Տնտեսական բարեկեցության ընկալումը (SEW) և վարձատրության հավասարությունը (WFE) համակցված են. սա տնտեսական խնդիրների բլոկ է: Կարիերայի զարգացումը (CR) և անձնական և կազմակերպչական նպատակների համադրությունը (LOG) նույնպես համակցված են:

Կլաստերավորման այլ մեթոդներ, ինչպես նաև հեռավորությունների այլ տեսակների ընտրությունը չեն հանգեցնում դենդրոգրամի էական փոփոխության:

արդյունքները

  1. Կլաստերային վերլուծությունը հզոր գործիք է ցանկացած առարկայի հետախուզական տվյալների վերլուծության և վիճակագրական հետազոտությունների համար:
  2. Statistica ծրագիրն իրականացնում է կլաստերային վերլուծության ինչպես հիերարխիկ, այնպես էլ կառուցվածքային մեթոդներ: Այս վիճակագրական փաթեթի առավելությունները բխում են նրանց գրաֆիկական հնարավորություններից: Ստացված կլաստերների երկչափ և եռաչափ գրաֆիկական ցուցադրումներն ուսումնասիրված փոփոխականների տարածության մեջ, ինչպես նաև օբյեկտների խմբավորման հիերարխիկ ընթացակարգի արդյունքները:
  3. Անհրաժեշտ է կիրառել կլաստերի վերլուծության մի քանի ալգորիթմներ և եզրակացություններ անել՝ հիմնվելով ալգորիթմների արդյունքների ընդհանուր գնահատման վրա:
  4. Կլաստերային վերլուծությունը կարելի է հաջողված համարել, եթե այն իրականացվում է տարբեր ձևերով, արդյունքները համեմատվում են և ընդհանուր օրինաչափություններ են գտնվում, իսկ կայուն կլաստերները՝ անկախ կլաստերավորման մեթոդից:
  5. Կլաստերային վերլուծությունը թույլ է տալիս բացահայտել խնդրահարույց իրավիճակները և նախանշել դրանց լուծման ուղիները: Հետևաբար, ոչ պարամետրիկ վիճակագրության այս մեթոդը կարելի է դիտարկել որպես համակարգի վերլուծության անբաժանելի մաս:

Մենք ազատեցինք նոր գիրք«Բովանդակության շուկայավարում սոցիալական մեդիայում. ինչպես մտնել ձեր հետևորդների գլխում և ստիպել նրանց սիրահարվել ձեր ապրանքանիշին»:

Բաժանորդագրվել

Իմաստային միջուկի կլաստերավորումը բազմաթիվ տարասեռ հարցումների բաժանումն է խմբերի՝ ըստ նշանակության:


Լրացուցիչ տեսանյութեր մեր ալիքում. սովորեք ինտերնետ մարքեթինգ SEMANTICA-ի հետ

Ավելի լավ հասկանալու համար, թե ինչ է խմբավորումը, կարող եք պատկերացնել լվացք պատրաստելուց առաջ: Լվացքն արագ և արդյունավետ դարձնելու համար իրերը բաժանվում են մի քանի խմբերի՝ ըստ գույնի։ Իսկ փորձառու տնային տնտեսուհիները ավելի մանրամասն դասավորում են լվացքը։ Յուրաքանչյուր գունային խմբում կան բաներ, որոնք հատուկ ջերմաստիճանի ռեժիմի կարիք ունեն։ Նրանք բաժանված են առանձին խմբերի: Նման բան տեղի է ունենում, երբ հիմնաբառերը հավաքվում են: Դա մի գործընթաց է, որը հարյուրավոր և հազարավոր օգտատերերի հարցումները վերածում է կազմակերպված կառուցվածքի:

Իդեալում, բանալիների կլաստերավորումը պետք է իրականացվի այս բանալիները բնութագրող օբյեկտների հատկությունների ցանկի, ինչպես նաև դրանց օգտագործման համատեքստի հիման վրա: Այնուամենայնիվ, այս պահին բաց տվյալների բազաներ չկան, որոնք պահում են նման տեղեկատվություն։ Այս պատճառով հիմնաբառերը խմբավորվում են որոնման արդյունքների հիման վրա:

Կլաստերավորման փուլեր.

  1. Խմբավորման համար օբյեկտների ընտրության ձեռքբերում:
  2. Նմուշում օբյեկտների գնահատման չափանիշների ցանկի նշում:
  3. Վերլուծված օբյեկտների նմանության աստիճանի որոշում:
  4. Կլաստերային վերլուծություն իրականացնել՝ օբյեկտների խմբեր ձևավորելու համար:
  5. Կլաստերավորման արդյունքների ներկայացում.

Ինչու՞ պետք է հավաքել SYNOPSIS-ը:

Գրագետ գործիքների օգնությամբ դուք կարող եք խմբավորել մեծ իմաստային միջուկներ նվազագույն ժամանակում: Եթե ​​նախկինում միջուկ ստեղծելու համար ամիսներ էին պահանջվում, ապա այժմ այս աշխատանքը տեւում է ընդամենը մի քանի ժամ։ Կլաստերավորման առավելություններից մեկը որոնման հարցումների բաշխումն է էջերում, որպեսզի դրանք միաժամանակ առաջ մղվեն:

Իմաստային միջուկի կլաստերավորումը թույլ է տալիս ստանալ.

  • Ժամանակի զգալի խնայողություն՝ նվազեցնելով սովորական աշխատանքը:
  • Տեղեկատվական ուղեցույց օգտվողների շրջանում տարածված թեմաների վերաբերյալ:
  • Խթանման պլան.
  • Մշակվող կայքի կառուցվածքի ներկայացում.
  • Նշված խորշում ապրանքների ժողովրդականության օբյեկտիվ գնահատում:
  • Ռեսուրսների օպտիմալացման բանալիների ցանկ:
  • Վեբ էջերի ճիշտ վերահղման իրականացում.
  • Ստեղծելով որոնման հարցումների մեծ պոչ:

Ի՞նչ կլինի, եթե չհավաքեք:

Եթե ​​մենք անտեսենք կայքի իմաստային միջուկը կլաստերների բաժանելը, ապա դրա սեփականատերը չի ստանա իր ռեսուրսի առաջմղման ամբողջական պատկերը: Նմանատիպ արդյունք կարելի է ստանալ որոնման արտահայտությունների սխալ բաշխման պատճառով։

Ահա խնդիրների ցանկը, որոնք կառաջանան բանալիների սխալ խմբավորումից հետո.

  • Որոնման արդյունքների TOP-ի դիրքը կորել է.
  • Կաննիբալիզացիա է տեղի ունենում, և արդյունքում բազմաթիվ կրկնօրինակներ հայտնվում են որոնման համակարգերի ինդեքսներում.
  • Առաջանում է վարքագծային գործոնների ապակողմնորոշում, որը խանգարում է ռեսուրսի առաջմղմանը.
  • Մեծ գումարներ են ծախսվում «լրացուցիչ» կոնտենտ ստեղծելու վրա։

Նման խնդիրների վերացումը և կանխարգելումը հարցի հիմնական պատասխանն է՝ «ինչու՞ կլաստերավորում»:

Կլաստերավորման ալգորիթմներ

SEO-ի մասնագետները առանձնացնում են կլաստերավորման ալգորիթմների դասակարգման երկու տեսակ.

Հիերարխիկ և հարթ

Հիերարխիկ ալգորիթմները (նաև կոչվում են տաքսոնի ալգորիթմներ) կազմում են ոչ միայն բազմության մեկ բաժանումը հատվող կլաստերների, այլ բազմաստիճան միջնապատերի կառուցվածքը: Արդյունքում գոյանում է ողկույզների ծառ։ Ընդհանուր նմուշը հանդես է գալիս որպես նրա արմատ, իսկ ամենափոքր խմբերը՝ որպես տերևներ։

Հարթ ալգորիթմները կազմում են օբյեկտների մեկ բաժանում խմբերի:

Պարզ և մշուշոտ

Մաքուր ալգորիթմները կապում են յուրաքանչյուր նմուշի տարր կլաստերի համարի հետ: Fuzzy ալգորիթմները կապում են յուրաքանչյուր նմուշի տարր իրական արժեքների համակցության հետ, որոնք արտացոլում են կլաստերներում տարրի անդամակցության չափը: Այսպիսով, յուրաքանչյուր նմուշի տարր պատկանում է յուրաքանչյուր խմբին որոշակի հավանականությամբ:

Ինչպես ձեռքով խմբավորել հարցումները

Կայքի իմաստային միջուկը ձեռքով հավաքելու համար բավական է ինքնուրույն վերլուծել հիմնաբառերը և դրանք բաժանել խմբերի։ Այս աշխատանքը կարելի է հեշտացնել Excel, LibreOffice, OpenOffice գործիքների միջոցով: Այս հավելվածները թույլ են տալիս աշխատել տվյալների աղյուսակների հետ, տեսակավորել և զտել ըստ որոշակի պարամետրերի:

Ներկայացված գործիքներն ունեն մի շարք առավելություններ.

  • Բազմակողմանիություն - խմբավորումն իրականացվում է հաշվի առնելով բազմաթիվ տարբեր չափանիշներ.
  • Մշակման բարձր ճշգրտություն;
  • LibreOffice, OpenOffice - անվճար:

Նրանց թերությունների թվում.

  • Պարբերական կրկնօրինակումների անհրաժեշտությունը;
  • Մշակման ցածր արագություն;
  • Արտոնագրված Excel - վճարովի:

Կայքի իմաստային միջուկի ձեռքով կլաստերավորումն ավելի բարդ է և ժամանակատար՝ համեմատած ավտոմատացված կլաստերավորման հետ: Բայց դուք կարող եք անձամբ վերահսկել ամբողջ գործընթացը: Եթե ​​դրան պատշաճ ուշադրություն դարձնեք, արդյունքը որակապես գերազանցում է ավտոմատ կլաստերավորմանը:

Ավտոմատացված կլաստերավորում

Իմաստային միջուկի բաժանումը խմբերի տեղի է ունենում ինքնաբերաբար:

Բավական է, որ վեբ վարպետը գնահատի ստացված արդյունքները։ Այս մոտեցման միակ թերությունը մեքենայի տրամաբանության և օգտագործողի գաղափարների միջև երբեմն անհամապատասխանությունն է:

Որոնման հարցումների խմբավորման կիսաավտոմատ մեթոդը կարող է շրջանցել այս խնդիրը: Դա անելու համար մասնագետը պետք է ինքնուրույն ընտրի խմբեր՝ ստացված հարցումների հիման վրա: Իսկ ավտոմատացված համակարգը ինքնին հարցումները կբաժանի օգտատիրոջ կողմից նշված խմբերի: Այս մոտեցումը թույլ է տալիս զգալիորեն նվազագույնի հասցնել մեքենայի ալգորիթմի սխալները:

Ինչպես խմբավորել հարցումները՝ օգտագործելով Key Collector

Key Collector-ը համարվում է կլաստերավորման լավագույն հավելվածներից մեկը: Ծրագիրը թույլ է տալիս արագ ձեռք բերել բանալիներ, որոնց հիման վրա կձևավորվի իմաստային միջուկ: Համակարգը կարող է գնահատել բանալիների մրցունակությունը, արդյունավետությունը և արժեքը, ինչպես նաև վերլուծել ռեսուրսը իր բովանդակության համապատասխանության համար ստացված միջուկին:

Key Collector-ի աշխատանքի եղանակը բավականին պարզ է: Ստացված բոլոր հարցումներն առանձնացնելու համար պետք է օգտագործել «Խմբի վերլուծություն» տարբերակը: Այս դեպքում համակարգը պետք է նշի կլաստերավորման ռեժիմը («կողմ առանձին բառեր«, «ըստ արտահայտությունների կազմի», «ըստ որոնման արդյունքների», «ըստ արտահայտությունների կազմի և որոնման արդյունքների»): «Ըստ առանձին բառերի» ռեժիմը խմբավորում է որոնման հարցումները, որոնք համընկնում են նույնիսկ մեկ բառի մեջ: «Ըստ արտահայտությունների կազմի» ռեժիմը ուղղված է հիմնական արտահայտությունների կառուցվածքին Սա մեծ թվով հարցումների բաժանման ամենահարմար եղանակն է որոնման արդյունքներ» ռեժիմը միավորում է նախորդ երկու չափանիշները:

Key Collector համակարգում իմաստային միջուկների կլաստերավորման օրինակ.

Ստացված խմբերը գնահատելու համար դրանք կարող են վերբեռնվել աղյուսակների խմբագրիչում (օրինակ՝ Excel):

Կլաստերային վերլուծություն

Հետազոտողների մեծամասնությունը հակված է կարծելու, որ առաջին անգամ «կլաստերի վերլուծություն» տերմինը (անգլերեն) կլաստեր- փունջ, թրոմբ, փունջ) առաջարկել է մաթեմատիկոս Ռ.Տրիոնը։ Հետագայում առաջացան մի շարք տերմիններ, որոնք ներկայումս համարվում են «կլաստերի վերլուծություն» տերմինի հոմանիշ. ավտոմատ դասակարգում; բոտրիոլոգիա.

Կլաստերային վերլուծությունը բազմաչափ վիճակագրական ընթացակարգ է, որը հավաքում է տվյալներ, որոնք պարունակում են տեղեկատվություն օբյեկտների նմուշի մասին և այնուհետև դասավորում առարկաները համեմատաբար միատարր խմբերի (կլաստերի) (Q-կլաստերի կամ Q-տեխնիկա, ինքնին կլաստերային վերլուծություն): Կլաստեր - տարրերի խումբ, որը բնութագրվում է ընդհանուր սեփականություն, կլաստերային վերլուծության հիմնական նպատակը նմուշում նմանատիպ օբյեկտների խմբեր գտնելն է։ Կլաստերային վերլուծության կիրառությունների շրջանակը շատ լայն է՝ այն օգտագործվում է հնագիտության, բժշկության, հոգեբանության, քիմիայի, կենսաբանության, պետական ​​կառավարման, բանասիրության, մարդաբանության, մարքեթինգի, սոցիոլոգիայի և այլ բնագավառներում: Այնուամենայնիվ, կիրառման ունիվերսալությունը հանգեցրել է մեծ թվով անհամատեղելի տերմինների, մեթոդների և մոտեցումների առաջացմանը, ինչը դժվարացնում է կլաստերային վերլուծության միանշանակ օգտագործումը և հետևողական մեկնաբանությունը: Օրլով Ա.Ի.-ն առաջարկում է տարբերակել հետևյալը.

Նպատակներ և պայմաններ

Կլաստերային վերլուծությունը կատարում է հետևյալը հիմնական նպատակները:

  • Տիպաբանության կամ դասակարգման մշակում:
  • Օբյեկտների խմբավորման համար օգտակար հայեցակարգային սխեմաների ուսումնասիրություն:
  • Տվյալների հետազոտության վրա հիմնված վարկածների առաջացում:
  • Վարկածների թեստավորում կամ հետազոտություն՝ պարզելու, թե այս կամ այն ​​կերպ հայտնաբերված տեսակները (խմբերը) իրականում առկա են առկա տվյալների մեջ:

Անկախ ուսումնասիրության առարկայից, կլաստերային վերլուծության օգտագործումը ներառում է Հաջորդ քայլերը:

  • Կլաստերավորման համար նմուշի ընտրություն: Հետևանքն այն է, որ իմաստ ունի խմբավորել միայն քանակական տվյալները:
  • Փոփոխականների հավաքածուի որոշում, որով կգնահատվեն նմուշի օբյեկտները, այսինքն՝ հատկանիշի տարածությունը:
  • Օբյեկտների միջև նմանության (կամ տարբերության) որոշակի չափման արժեքների հաշվարկ:
  • Կլաստերային վերլուծության մեթոդի օգտագործումը նմանատիպ օբյեկտների խմբեր ստեղծելու համար:
  • Կլաստերային լուծման արդյունքների հուսալիության ստուգում:

Կլաստերային վերլուծությունը ներկայացնում է հետևյալը տվյալների պահանջները:

  1. ցուցանիշները չպետք է փոխկապակցվեն միմյանց հետ.
  2. ցուցանիշները չպետք է հակասեն չափման տեսությանը.
  3. ցուցանիշների բաշխումը պետք է մոտ լինի նորմալին.
  4. ցուցանիշները պետք է համապատասխանեն «կայունության» պահանջին, ինչը նշանակում է պատահական գործոններով դրանց արժեքների վրա ազդեցության բացակայություն.
  5. նմուշը պետք է լինի միատարր և չպարունակի «արտաքին կետեր»:

Դուք կարող եք գտնել տվյալների երկու հիմնարար պահանջների նկարագրությունը՝ միատարրություն և ամբողջականություն.

Միատարրությունը պահանջում է, որ աղյուսակում ներկայացված բոլոր սուբյեկտները լինեն նույն բնույթի: Ամբողջականության պահանջն այն է, որ կոմպլեկտները ԻԵվ Ջներկայացրել է դիտարկվող երեւույթի դրսեւորումների ամբողջական գույքագրում։ Եթե ​​դիտարկենք մի աղյուսակ, որում Ի- ամբողջությունը, և Ջ- այս պոպուլյացիան նկարագրող փոփոխականների մի շարք, այն պետք է լինի հետազոտվող պոպուլյացիայի ներկայացուցչական նմուշ և բնութագրերի համակարգը Ջպետք է տա ​​անհատների բավարար վեկտորային ներկայացում եսհետազոտողի տեսանկյունից.

Եթե ​​կլաստերի վերլուծությանը նախորդում է գործոնային վերլուծությունը, ապա նմուշը «վերանորոգման» կարիք չունի. նշված պահանջները կատարվում են ավտոմատ կերպով՝ գործոնային մոդելավորման ընթացակարգով (կա ևս մեկ առավելություն՝ z-ստանդարտացում առանց բացասական հետևանքներնմուշառման համար; եթե այն ուղղակիորեն իրականացվում է կլաստերային վերլուծության համար, դա կարող է հանգեցնել խմբերի բաժանման հստակության նվազմանը): Հակառակ դեպքում, նմուշը պետք է ճշգրտվի:

Կլաստերավորման խնդիրների տիպաբանություն

Ներածման տեսակները

Ժամանակակից գիտության մեջ օգտագործվում են մուտքային տվյալների մշակման մի քանի ալգորիթմներ։ Բնութագրերի հիման վրա օբյեկտների համեմատությամբ վերլուծություն (կենսաբանական գիտությունների մեջ առավել տարածված) կոչվում է Ք- վերլուծության տեսակը, իսկ հատկանիշների համեմատության դեպքում՝ օբյեկտների հիման վրա. Ռ- վերլուծության տեսակը. Փորձեր կան օգտագործել վերլուծության հիբրիդային տեսակներ (օրինակ. RQ-վերլուծություն), սակայն այս մեթոդաբանությունը դեռ պատշաճ կերպով մշակված չէ:

Կլաստերավորման նպատակները

  • Տվյալների ըմբռնումը՝ կլաստերի կառուցվածքը բացահայտելու միջոցով: Նմուշը նմանատիպ օբյեկտների խմբերի բաժանելը հնարավորություն է տալիս պարզեցնել տվյալների հետագա մշակումն ու որոշումների կայացումը՝ կիրառելով վերլուծության տարբեր մեթոդ յուրաքանչյուր կլաստերի համար («բաժանիր և նվաճիր» ռազմավարություն):
  • Տվյալների սեղմում. Եթե ​​բնօրինակ նմուշը չափազանց մեծ է, ապա դուք կարող եք կրճատել այն՝ թողնելով մեկ առավել բնորոշ ներկայացուցիչ յուրաքանչյուր կլաստերից:
  • Նորույթի հայտնաբերում նորույթի հայտնաբերում). Հայտնաբերվում են ոչ տիպիկ օբյեկտներ, որոնք չեն կարող կցվել կլաստերներից որևէ մեկին:

Առաջին դեպքում փորձում են կլաստերների թիվը փոքրացնել։ Երկրորդ դեպքում ավելի կարևոր է ապահովել օբյեկտների նմանության բարձր աստիճանը յուրաքանչյուր կլաստերի ներսում, և կարող է լինել ցանկացած քանակի կլաստեր: Երրորդ դեպքում ամենահետաքրքիրն առանձին առարկաներ են, որոնք չեն տեղավորվում կլաստերներից ոչ մեկի մեջ։

Այս բոլոր դեպքերում կարելի է օգտագործել հիերարխիկ կլաստերավորում, երբ մեծ կլաստերները բաժանվում են փոքրերի, որոնք իրենց հերթին բաժանվում են նույնիսկ ավելի փոքրերի և այլն։ Նման խնդիրները կոչվում են տաքսոնոմիայի խնդիրներ։ Տաքսոնոմիան հանգեցնում է ծառի նման հիերարխիկ կառուցվածքի: Այս դեպքում յուրաքանչյուր օբյեկտ բնութագրվում է թվարկելով բոլոր այն կլաստերները, որոնց պատկանում է, սովորաբար մեծից փոքր:

Կլաստերավորման մեթոդներ

Կլաստերավորման մեթոդների ընդհանուր ընդունված դասակարգում չկա, սակայն կարելի է նշել Վ. Ս. Բերիկովի և Գ. Ս. Լբովի ամուր փորձը: Եթե ​​ընդհանրացնենք կլաստերավորման մեթոդների տարբեր դասակարգումները, ապա կարող ենք առանձնացնել մի շարք խմբեր (որոշ մեթոդներ կարելի է դասակարգել միանգամից մի քանի խմբերի, ուստի առաջարկվում է այս տիպավորումը դիտարկել որպես որոշակի մոտարկում կլաստերավորման մեթոդների իրական դասակարգմանը).

  1. Հավանական մոտեցում. Ենթադրվում է, որ յուրաքանչյուր դիտարկվող օբյեկտ պատկանում է k դասերից մեկին։ Որոշ հեղինակներ (օրինակ՝ Ա. Ի. Օրլովը) կարծում են, որ այս խումբն ընդհանրապես չի առնչվում կլաստերավորմանը և դեմ է դրան «խտրականություն» անվան տակ, այսինքն՝ օբյեկտներ նշանակելու հայտնի խմբերից մեկին (վերապատրաստման նմուշներ):
  2. Արհեստական ​​ինտելեկտի համակարգերի վրա հիմնված մոտեցումներ. Շատ պայմանական խումբ, քանի որ AI մեթոդները շատ են, և մեթոդաբանորեն դրանք շատ տարբեր են:
  3. Տրամաբանական մոտեցում. Դենդրոգրամը կառուցված է որոշման ծառի միջոցով:
  4. Գրաֆիկի տեսական մոտեցում.
    • Գրաֆիկների կլաստերավորման ալգորիթմներ
  5. Հիերարխիկ մոտեցում. Ենթադրվում է բնադրված խմբերի (տարբեր կարգի կլաստերների) առկայությունը։ Ալգորիթմներն իրենց հերթին բաժանվում են ագլոմերատիվ (միավորող) և բաժանարար (տարանջատող): Բնութագրերի քանակից ելնելով երբեմն առանձնացնում են դասակարգման մոնոթետիկ և պոլիթետիկ եղանակները։
    • Հիերարխիկ բաժանման կլաստերավորում կամ տաքսոնոմիա: Կլաստերավորման խնդիրները լուծվում են քանակական տաքսոնոմիայի մեջ:
  6. Այլ մեթոդներ. Նախորդ խմբերում ներառված չէ:
    • Վիճակագրական կլաստերավորման ալգորիթմներ
    • Կլաստերիզատորների անսամբլ
    • KRAB ընտանիքի ալգորիթմներ
    • Մաղման մեթոդի վրա հիմնված ալգորիթմ
    • DBSCAN et al.

4-րդ և 5-րդ մոտեցումները երբեմն համակցվում են կառուցվածքային կամ երկրաչափական մոտեցման անվան տակ, որն ունի հարևանության ավելի պաշտոնական հայեցակարգ: Չնայած թվարկված մեթոդների զգալի տարբերություններին, դրանք բոլորն էլ հիմնվում են բնօրինակի վրա: կոմպակտության վարկածՕբյեկտների տարածության մեջ բոլոր մոտ գտնվող օբյեկտները պետք է պատկանեն միևնույն կլաստերին, և բոլոր տարբեր առարկաները, համապատասխանաբար, պետք է լինեն տարբեր կլաստերներում:

Կլաստերավորման խնդրի պաշտոնական ձևակերպում

Թող լինի օբյեկտների բազմություն և թող լինի կլաստերների թվերի (անուններ, պիտակներ): Նշված է օբյեկտների միջև հեռավորության գործառույթը: Առկա է առարկաների վերապատրաստման վերջավոր նմուշ: Պահանջվում է նմուշը բաժանել բաժանված ենթաբազմությունների, որոնք կոչվում են կլաստերներ, այնպես որ յուրաքանչյուր կլաստեր բաղկացած է այնպիսի առարկաներից, որոնք մետրային նման են, իսկ տարբեր կլաստերների օբյեկտները զգալիորեն տարբերվում են։ Այս դեպքում յուրաքանչյուր օբյեկտին վերագրվում է կլաստերի համար:

Կլաստերավորման ալգորիթմֆունկցիա է, որը ցանկացած օբյեկտի կլաստերի համար է հատկացնում: Որոշ դեպքերում, հավաքածուն նախապես հայտնի է, բայց ավելի հաճախ խնդիր է դրված որոշել կլաստերների օպտիմալ թիվը՝ այս կամ այն ​​տեսանկյունից: որակի չափանիշներխմբավորում.

Կլաստերավորումը (չվերահսկվող ուսուցումը) տարբերվում է դասակարգումից (վերահսկվող ուսուցում) նրանով, որ սկզբնական օբյեկտների պիտակները ի սկզբանե նշված չեն, և հավաքածուն ինքնին կարող է նույնիսկ անհայտ լինել:

Կլաստերավորման խնդրի լուծումը սկզբունքորեն երկիմաստ է, և դրա համար կան մի քանի պատճառներ (ինչպես կարծում են մի շարք հեղինակներ).

  • Կլաստերավորման որակի հստակ լավագույն չափանիշ չկա: Հայտնի ամբողջ գիծըէվրիստիկ չափորոշիչներ, ինչպես նաև մի շարք ալգորիթմներ, որոնք չունեն հստակ սահմանված չափանիշ, բայց իրականացնում են բավականին խելամիտ կլաստերավորում «կառուցվածքով»: Նրանք բոլորը կարող են տալ տարբեր արդյունքներ. Հետևաբար, կլաստերավորման որակը որոշելու համար անհրաժեշտ է տիրույթի փորձագետ, ով կարող է գնահատել կլաստերի ընտրության իմաստը:
  • Կլաստերների թիվը սովորաբար նախապես անհայտ է և սահմանվում է որոշ սուբյեկտիվ չափանիշի համաձայն: Սա ճշմարիտ է միայն խտրականության մեթոդների դեպքում, քանի որ կլաստերավորման մեթոդներում կլաստերները բացահայտվում են պաշտոնական մոտեցման միջոցով, որը հիմնված է մոտիկության չափումների վրա:
  • Կլաստերավորման արդյունքը էապես կախված է մետրիկից, որի ընտրությունը, որպես կանոն, նույնպես սուբյեկտիվ է և որոշվում է փորձագետի կողմից։ Բայց հարկ է նշել, որ կան մի շարք առաջարկություններ տարբեր խնդիրների համար հարևանության միջոցներ ընտրելու համար:

Դիմում

Կենսաբանության մեջ

Կենսաբանության մեջ կլաստերավորումը բազմաթիվ կիրառություններ ունի տարբեր ոլորտներում: Օրինակ, կենսաինֆորմատիկայում այն ​​օգտագործվում է վերլուծելու փոխազդող գեների բարդ ցանցերը, որոնք երբեմն բաղկացած են հարյուրավոր կամ նույնիսկ հազարավոր տարրերից։ Կլաստերային վերլուծությունը հնարավորություն է տալիս բացահայտել ուսումնասիրվող համակարգի ենթացանցերը, խցանները, հանգույցները և այլ թաքնված հատկությունները, ինչը, ի վերջո, հնարավորություն է տալիս պարզել յուրաքանչյուր գենի ներդրումը ուսումնասիրվող երևույթի ձևավորման մեջ:

Էկոլոգիայի բնագավառում այն ​​լայնորեն կիրառվում է օրգանիզմների տարածական համասեռ խմբերի, համայնքների և այլնի բացահայտման համար: Ավելի հազվադեպ, կլաստերային վերլուծության մեթոդներն օգտագործվում են ժամանակի ընթացքում համայնքներն ուսումնասիրելու համար: Համայնքի կառուցվածքի տարասեռությունը հանգեցնում է կլաստերային վերլուծության ոչ տրիվիալ մեթոդների առաջացմանը (օրինակ՝ Չեկանովսկու մեթոդը)։

Ընդհանրապես, հարկ է նշել, որ պատմականորեն կենսաբանության մեջ հաճախ օգտագործվում են որպես հարևանության չափումներ, այլ ոչ թե տարբերության (հեռավորության) չափումներ:

Սոցիոլոգիայում

Արդյունքները վերլուծելիս սոցիոլոգիական հետազոտությունԽորհուրդ է տրվում վերլուծությունն իրականացնել հիերարխիկ ագլոմերատիվ ընտանիքի մեթոդներով, մասնավորապես՝ Ward մեթոդով, որտեղ նվազագույն դիսպերսիան օպտիմիզացված է կլաստերների ներսում, ինչը հանգեցնում է մոտավորապես կլաստերների: հավասար չափսեր. Ուորդի մեթոդն առավել հարմար է սոցիոլոգիական տվյալների վերլուծության համար։ Տարբերության ավելի լավ չափանիշը քառակուսի Էվկլիդեսյան հեռավորությունն է, որն օգնում է մեծացնել կլաստերների հակադրությունը: Հիերարխիկ կլաստերային վերլուծության հիմնական արդյունքը դենդրոգրամն է կամ «սառցաբեկորային դիագրամը»: Այն մեկնաբանելիս հետազոտողները բախվում են նույն տեսակի խնդրի հետ, ինչ գործոնային վերլուծության արդյունքների մեկնաբանությունը՝ կլաստերների նույնականացման միանշանակ չափանիշների բացակայությունը: Խորհուրդ է տրվում օգտագործել երկու հիմնական մեթոդ՝ դենդրոգրամի տեսողական վերլուծություն և տարբեր մեթոդներով կատարված կլաստերի արդյունքների համեմատություն։

Դենդրոգրամի տեսողական վերլուծությունը ներառում է ծառի «կտրումը» նմուշի տարրերի նմանության օպտիմալ մակարդակով: Ցանկալի է «կտրել խաղողի ճյուղը» (M. S. Oldenderfer-ի և R. K. Blashfield-ի տերմինաբանությունը) Rescaled Distance Cluster Combine սանդղակի 5-րդ մակարդակում, այդպիսով ձեռք կբերվի նմանության 80% մակարդակ: Եթե ​​այս պիտակի օգտագործմամբ կլաստերների նույնականացումը դժվար է (մի քանի փոքր կլաստերներ միավորվում են մեկ մեծի մեջ), ապա կարող եք ընտրել մեկ այլ պիտակ: Այս տեխնիկան առաջարկվել է Օլդենդերֆերի և Բլաշֆիլդի կողմից:

Այժմ հարց է առաջանում ընդունված կլաստերային լուծման կայունության մասին։ Ըստ էության, կլաստերավորման կայունությունը ստուգելը հանգում է նրա հուսալիության ստուգմանը: Այստեղ ընդհանուր կանոն կա՝ կլաստերավորման մեթոդները փոխվելիս պահպանվում է կայուն տիպաբանություն։ Հիերարխիկ կլաստերային վերլուծության արդյունքները կարող են ստուգվել կրկնվող կլաստերային վերլուծության միջոցով՝ օգտագործելով k-means մեթոդը: Եթե ​​հարցվողների խմբերի համեմատվող դասակարգումները ունեն 70%-ից ավելի համընկնման գործակից (համընկնումների 2/3-ից ավելին), ապա կլաստերային որոշում է կայացվում:

Անհնար է ստուգել լուծույթի համարժեքությունը՝ առանց այլ տեսակի վերլուծության դիմելու: Գոնե տեսական առումով այս խնդիրը չի լուծվել։ Օլդդերֆերի և Բլաշֆիլդի դասական աշխատությունը՝ Կլաստերի վերլուծությունը, մանրամասնորեն քննարկում և ի վերջո մերժում է կայունության փորձարկման լրացուցիչ հինգ մեթոդներ.

Համակարգչային գիտության մեջ

  • Որոնման արդյունքների կլաստերավորում – օգտագործվում է արդյունքների «խելացի» խմբավորման համար ֆայլեր, կայքեր և այլ օբյեկտներ որոնելիս՝ օգտվողին հնարավորություն տալով արագ կողմնորոշվել, ընտրել ակնհայտորեն ավելի համապատասխան ենթաբազմություն և բացառել ակնհայտորեն պակաս համապատասխանը. բարձրացնել ինտերֆեյսի օգտագործելիությունը՝ համեմատած ելքի հետ՝ ըստ համապատասխանության դասավորված պարզ ցուցակի:
    • Clusty-ը Vivísimo-ի կլաստերավորման որոնման համակարգ է
    • Նիգմա - ռուսական որոնողական համակարգ՝ արդյունքների ավտոմատ կլաստերավորմամբ
    • Quintura - տեսողական կլաստերավորում բանալի բառի ամպի տեսքով
  • Պատկերի հատվածավորում պատկերի հատվածավորում) - Կլաստերավորումը կարող է օգտագործվել բաժանման համար թվային պատկերսահմանները հայտնաբերելու համար առանձին տարածքների մեջ (eng. եզրերի հայտնաբերում) կամ օբյեկտի ճանաչում:
  • Տվյալների հանքարդյունաբերություն տվյալների արդյունահանում)- Տվյալների հանքարդյունաբերության մեջ կլաստերավորումը արժեք է ձեռք բերում, երբ այն գործում է որպես տվյալների վերլուծության և ամբողջական վերլուծական լուծման կառուցման փուլերից մեկը: Վերլուծաբանի համար հաճախ ավելի հեշտ է նույնականացնել նմանատիպ օբյեկտների խմբերը, ուսումնասիրել դրանց առանձնահատկությունները և յուրաքանչյուր խմբի համար առանձին մոդել կառուցել, քան բոլոր տվյալների համար մեկ ընդհանուր մոդել ստեղծել: Այս տեխնիկան մշտապես օգտագործվում է մարքեթինգում՝ բացահայտելով հաճախորդների, գնորդների, ապրանքների խմբերը և նրանցից յուրաքանչյուրի համար առանձին ռազմավարություն մշակելով:

տես նաեւ

Նշումներ

Հղումներ

Ռուսերեն
  • www.MachineLearning.ru - պրոֆեսիոնալ վիքի ռեսուրս՝ նվիրված մեքենայական ուսուցմանը և տվյալների արդյունահանմանը
Անգլերեն
  • ԿՈՄՊԱԿՏ - Կլաստերի գնահատման համեմատական ​​փաթեթ. Matlab անվճար փաթեթ, 2006 թ.
  • Պ. Բերխին, Կլաստերավորման տվյալների մշակման տեխնիկայի հետազոտություն, Accrue Software, 2002 թ.
  • Ջեյն, Մուրթին և Ֆլինը. Տվյալների կլաստերավորում. վերանայում,ACM Comp. Surv., 1999:
  • Հիերարխիկ, k-միջինների և մշուշոտ c-միջոցների մեկ այլ ներկայացման համար տե՛ս կլաստերավորման այս ներածությունը: Նաև բացատրություն ունի գաուսների խառնուրդի վերաբերյալ:
  • Դեյվիդ Դոու Mixture Modeling էջ- այլ կլաստերի և խառնուրդի մոդելի հղումներ:
  • կլաստերավորման վերաբերյալ ձեռնարկ
  • Առցանց դասագիրք. Տեղեկատվության տեսություն, եզրակացություն և ուսուցման ալգորիթմներ, հեղինակ՝ Դեյվիդ Ջ. MacKay-ն ներառում է գլուխներ k-միջոցների կլաստերավորման, փափուկ k-միջոցների կլաստերավորման և ածանցյալների մասին, ներառյալ E-M ալգորիթմը և E-M ալգորիթմի փոփոխական տեսքը:
  • «Ինքնակազմակերպված գեն», ձեռնարկ, որը բացատրում է կլաստերավորումը մրցակցային ուսուցման և ինքնակազմակերպվող քարտեզների միջոցով:
  • kernlab - R փաթեթ միջուկի վրա հիմնված մեքենայական ուսուցման համար (ներառում է սպեկտրային կլաստերի իրականացում)
  • Ձեռնարկ - Կլաստերավորման ալգորիթմների ներդրմամբ ձեռնարկ (k-միջոցներ, fuzzy-c-միջոցներ, հիերարխիկ, գաուսների խառնուրդ) + որոշ ինտերակտիվ ցուցադրություններ (java հավելվածներ)
  • Տվյալների արդյունահանման ծրագրակազմ - Տվյալների արդյունահանման ծրագրակազմը հաճախ օգտագործում է կլաստերավորման տեխնիկա:
  • Java Competitive Learning Application Չվերահսկվող նեյրոնային ցանցերի հավաքածու՝ կլաստերավորման համար: Գրված է Java-ով: Լրացրեք բոլոր կոդով:
  • Մեքենայական ուսուցման ծրագրակազմ - պարունակում է նաև շատ կլաստերային ծրագրեր:

, պետական ​​կառավարում, բանասիրություն, մարդաբանություն, մարքեթինգ, սոցիոլոգիա, երկրաբանություն և այլ առարկաներ։ Այնուամենայնիվ, կիրառման ունիվերսալությունը հանգեցրել է մեծ թվով անհամատեղելի տերմինների, մեթոդների և մոտեցումների առաջացմանը, ինչը դժվարացնում է կլաստերային վերլուծության միանշանակ օգտագործումը և հետևողական մեկնաբանությունը:

Հանրագիտարան YouTube

  • 1 / 5

    Կլաստերային վերլուծությունը կատարում է հետևյալ հիմնական խնդիրները.

    • Տիպաբանության կամ դասակարգման մշակում:
    • Օբյեկտների խմբավորման համար օգտակար հայեցակարգային սխեմաների ուսումնասիրություն:
    • Տվյալների հետազոտության վրա հիմնված վարկածների առաջացում:
    • Վարկածների թեստավորում կամ հետազոտություն՝ պարզելու, թե այս կամ այն ​​կերպ հայտնաբերված տեսակները (խմբերը) իրականում առկա են առկա տվյալների մեջ:

    Անկախ ուսումնասիրության առարկայից, կլաստերային վերլուծության օգտագործումը ներառում է հետևյալ քայլերը.

    • Կլաստերավորման համար նմուշի ընտրություն: Հետևանքն այն է, որ իմաստ ունի խմբավորել միայն քանակական տվյալները:
    • Փոփոխականների հավաքածուի որոշում, որով կգնահատվեն նմուշի օբյեկտները, այսինքն՝ հատկանիշի տարածությունը:
    • Օբյեկտների միջև նմանության (կամ տարբերության) որոշակի չափման արժեքների հաշվարկ:
    • Կլաստերային վերլուծության մեթոդի օգտագործումը նմանատիպ օբյեկտների խմբեր ստեղծելու համար:
    • Կլաստերային լուծման արդյունքների հուսալիության ստուգում:

    Դուք կարող եք գտնել տվյալների երկու հիմնարար պահանջների նկարագրություն՝ միատարրություն և ամբողջականություն: Միատարրությունը պահանջում է, որ բոլոր կլաստերային սուբյեկտները լինեն միևնույն բնույթի և նկարագրվեն միանման բնութագրերի շարքով: Եթե ​​կլաստերային վերլուծությանը նախորդում է գործոնային վերլուծությունը, ապա նմուշը «վերանորոգման» կարիք չունի. նշված պահանջները կատարվում են ինքնաբերաբար գործոնային մոդելավորման ընթացակարգի միջոցով (կա ևս մեկ առավելություն՝ z-ստանդարտացում առանց բացասական հետևանքների նմուշի. եթե. այն իրականացվում է ուղղակիորեն կլաստերային վերլուծության համար, դա կարող է հանգեցնել խմբերի բաժանման հստակության նվազմանը): Հակառակ դեպքում, նմուշը պետք է ճշգրտվի:

    Կլաստերավորման խնդիրների տիպաբանություն

    Ներածման տեսակները

    Ժամանակակից գիտության մեջ օգտագործվում են մուտքային տվյալների մշակման մի քանի ալգորիթմներ։ Բնութագրերի հիման վրա օբյեկտների համեմատությամբ վերլուծություն (կենսաբանական գիտությունների մեջ առավել տարածված) կոչվում է Ք- վերլուծության տեսակը, իսկ հատկանիշների համեմատության դեպքում՝ օբյեկտների հիման վրա. Ռ- վերլուծության տեսակը. Փորձեր կան օգտագործել վերլուծության հիբրիդային տեսակներ (օրինակ. RQ-վերլուծություն), սակայն այս մեթոդաբանությունը դեռ պատշաճ կերպով մշակված չէ:

    Կլաստերավորման նպատակները

    • Տվյալների ըմբռնումը՝ կլաստերի կառուցվածքը բացահայտելու միջոցով: Նմուշը նմանատիպ օբյեկտների խմբերի բաժանելը հնարավորություն է տալիս պարզեցնել տվյալների հետագա մշակումն ու որոշումների կայացումը՝ կիրառելով վերլուծության տարբեր մեթոդ յուրաքանչյուր կլաստերի համար («բաժանիր և նվաճիր» ռազմավարությունը):
    • Տվյալների սեղմում. Եթե ​​բնօրինակ նմուշը չափազանց մեծ է, ապա դուք կարող եք կրճատել այն՝ թողնելով մեկ առավել բնորոշ ներկայացուցիչ յուրաքանչյուր կլաստերից:
    • Նորույթի հայտնաբերում. Հայտնաբերվում են ոչ տիպիկ օբյեկտներ, որոնք չեն կարող կցվել կլաստերներից որևէ մեկին:

    Առաջին դեպքում փորձում են կլաստերների թիվը փոքրացնել։ Երկրորդ դեպքում ավելի կարևոր է ապահովել օբյեկտների նմանության բարձր աստիճանը յուրաքանչյուր կլաստերի ներսում, և կարող է լինել ցանկացած քանակի կլաստեր: Երրորդ դեպքում ամենահետաքրքիրն առանձին առարկաներ են, որոնք չեն տեղավորվում կլաստերներից ոչ մեկի մեջ։

    Այս բոլոր դեպքերում կարելի է օգտագործել հիերարխիկ կլաստերավորում, երբ մեծ կլաստերները բաժանվում են փոքրերի, որոնք իրենց հերթին բաժանվում են նույնիսկ ավելի փոքրերի և այլն։ Նման խնդիրները կոչվում են տաքսոնոմիայի խնդիրներ։ Տաքսոնոմիան հանգեցնում է ծառի նման հիերարխիկ կառուցվածքի: Այս դեպքում յուրաքանչյուր օբյեկտ բնութագրվում է թվարկելով բոլոր այն կլաստերները, որոնց պատկանում է, սովորաբար մեծից փոքր:

    Կլաստերավորման մեթոդներ

    Կլաստերավորման մեթոդների ընդհանուր ընդունված դասակարգում չկա, սակայն կարելի է առանձնացնել մոտեցումների մի շարք խմբեր (որոշ մեթոդներ կարելի է դասակարգել միանգամից մի քանի խմբերի, ուստի առաջարկվում է այս տիպավորումը դիտարկել որպես որոշակի մոտարկում կլաստերիավորման մեթոդների իրական դասակարգմանը։ ):

    1. Հավանական մոտեցում. Ենթադրվում է, որ յուրաքանչյուր դիտարկվող օբյեկտ պատկանում է k դասերից մեկին։ Որոշ հեղինակներ (օրինակ՝ Ա. Ի. Օրլովը) կարծում են, որ այս խումբն ընդհանրապես չի առնչվում կլաստերավորմանը և դեմ է դրան «խտրականություն» անվան տակ, այսինքն՝ օբյեկտներ նշանակելու հայտնի խմբերից մեկին (վերապատրաստման նմուշներ):
    2. Արհեստական ​​ինտելեկտի համակարգերի վրա հիմնված մոտեցումներ. շատ պայմանական խումբ, քանի որ մեթոդները շատ են և մեթոդաբանորեն շատ տարբեր են:
    3. Տրամաբանական մոտեցում. Դենդրոգրամը կառուցված է որոշման ծառի միջոցով:
    4. Գրաֆիկա-տեսական մոտեցում.
    5. Հիերարխիկ մոտեցում. Ենթադրվում է բնադրված խմբերի (տարբեր կարգի կլաստերների) առկայությունը։ Ալգորիթմներն իրենց հերթին բաժանվում են ագլոմերատիվ (միավորող) և բաժանարար (տարանջատող): Բնութագրերի քանակից ելնելով երբեմն առանձնացնում են դասակարգման մոնոթետիկ և պոլիթետիկ եղանակները։
      • Հիերարխիկ բաժանման կլաստերավորում կամ տաքսոնոմիա: Կլաստերավորման խնդիրները լուծվում են քանակական տաքսոնոմիայի մեջ:
    6. Այլ մեթոդներ. Նախորդ խմբերում ներառված չէ:
      • Վիճակագրական կլաստերավորման ալգորիթմներ
      • Կլաստերիզատորների անսամբլ
      • KRAB ընտանիքի ալգորիթմներ
      • Մաղման մեթոդի վրա հիմնված ալգորիթմ

    4-րդ և 5-րդ մոտեցումները երբեմն համակցվում են կառուցվածքային կամ երկրաչափական մոտեցման անվան տակ, որն ունի հարևանության ավելի պաշտոնական հայեցակարգ: Չնայած թվարկված մեթոդների զգալի տարբերություններին, դրանք բոլորն էլ հիմնվում են բնօրինակի վրա: կոմպակտության վարկածՕբյեկտների տարածության մեջ բոլոր մոտ գտնվող օբյեկտները պետք է պատկանեն միևնույն կլաստերին, և բոլոր տարբեր առարկաները, համապատասխանաբար, պետք է լինեն տարբեր կլաստերներում:

    Կլաստերավորման խնդրի պաշտոնական ձևակերպում

    Թող X (\displaystyle X)- շատ առարկաներ, Y (\displaystyle Y)- կլաստերների թվերի (անուններ, պիտակներ) մի շարք: Նշված է օբյեկտների միջև հեռավորության գործառույթը ρ (x, x ′) (\ցուցադրման ոճ \rho (x,x)). Առկա է առարկաների վերապատրաստման վերջավոր նմուշ X m = ( x 1 , … , x m ) ⊂ X (\ցուցադրման ոճ X^(m)=\(x_(1),\կետեր,x_(m)\)\ենթաբազմություն X). Պահանջվում է նմուշը բաժանել բաժանված ենթաբազմությունների, որոնք կոչվում են կլաստերներ, այնպես որ յուրաքանչյուր կլաստեր բաղկացած է մետրիկականորեն նման օբյեկտներից ρ (\displaystyle \rho), իսկ տարբեր կլաստերների օբյեկտները զգալիորեն տարբերվում էին։ Միեւնույն ժամանակ, յուրաքանչյուր օբյեկտ x i ∈ X m (\ցուցադրման ոճ x_(i)\ X^(մ))կլաստերի համարը նշանակված է y i (\displaystyle y_(i)).

    Կլաստերավորման ալգորիթմֆունկցիա է ա՝ X → Y (\ցուցադրման ոճ a\ երկու կետ X\ դեպի Y), որը ցանկացած օբյեկտի x ∈ X (\ցուցադրման ոճ x\ X-ում)համապատասխանում է կլաստերի համարին y ∈ Y (\displaystyle y\in Y). Մի փունջ Y (\displaystyle Y)որոշ դեպքերում դա նախապես հայտնի է, բայց ավելի հաճախ խնդիր է դրված որոշել կլաստերների օպտիմալ թիվը՝ այս կամ այն ​​տեսանկյունից. որակի չափանիշներխմբավորում.

    Ընդհանրապես, հարկ է նշել, որ պատմականորեն կենսաբանության մեջ հաճախ օգտագործվում են որպես հարևանության չափումներ, այլ ոչ թե տարբերության (հեռավորության) չափումներ:

    Սոցիոլոգիայում

    Սոցիոլոգիական հետազոտության արդյունքները վերլուծելիս խորհուրդ է տրվում վերլուծությունը կատարել հիերարխիկ ագլոմերատիվ ընտանիքի մեթոդներով, մասնավորապես՝ Ward մեթոդով, որտեղ օպտիմիզացված է նվազագույն ցրվածությունը կլաստերներում՝ ի վերջո ստեղծելով մոտավորապես հավասար չափերի կլաստերներ: Ուորդի մեթոդն առավել հարմար է սոցիոլոգիական տվյալների վերլուծության համար։ Տարբերության ավելի լավ չափանիշը քառակուսի Էվկլիդեսյան հեռավորությունն է, որն օգնում է մեծացնել կլաստերների հակադրությունը: Հիերարխիկ կլաստերային վերլուծության հիմնական արդյունքը դենդրոգրամն է կամ «սառցաբեկորային դիագրամը»: Այն մեկնաբանելիս հետազոտողները բախվում են նույն տեսակի խնդրի հետ, ինչ գործոնային վերլուծության արդյունքների մեկնաբանությունը՝ կլաստերների նույնականացման միանշանակ չափանիշների բացակայությունը: Խորհուրդ է տրվում օգտագործել երկու հիմնական մեթոդ՝ դենդրոգրամի տեսողական վերլուծություն և տարբեր մեթոդներով կատարված կլաստերի արդյունքների համեմատություն։

    Դենդրոգրամի տեսողական վերլուծությունը ներառում է ծառի «կտրումը» նմուշի տարրերի նմանության օպտիմալ մակարդակով: Ցանկալի է «կտրել խաղողի ճյուղը» (M. S. Oldenderfer-ի և R. K. Blashfield-ի տերմինաբանությունը) Rescaled Distance Cluster Combine սանդղակի 5-րդ մակարդակում, այդպիսով ձեռք կբերվի նմանության 80% մակարդակ: Եթե ​​այս պիտակի օգտագործմամբ կլաստերների նույնականացումը դժվար է (մի քանի փոքր կլաստերներ միավորվում են մեկ մեծի մեջ), ապա կարող եք ընտրել մեկ այլ պիտակ: Այս տեխնիկան առաջարկվել է Օլդենդերֆերի և Բլաշֆիլդի կողմից:

    Այժմ հարց է առաջանում ընդունված կլաստերային լուծման կայունության մասին։ Ըստ էության, կլաստերավորման կայունությունը ստուգելը հանգում է նրա հուսալիության ստուգմանը: Այստեղ ընդհանուր կանոն կա՝ կլաստերավորման մեթոդները փոխվելիս պահպանվում է կայուն տիպաբանություն։ Հիերարխիկ կլաստերային վերլուծության արդյունքները կարող են ստուգվել կրկնվող կլաստերային վերլուծության միջոցով՝ օգտագործելով k-means մեթոդը: Եթե ​​հարցվողների խմբերի համեմատվող դասակարգումները ունեն 70%-ից ավելի համընկնման գործակից (համընկնումների 2/3-ից ավելին), ապա կլաստերային որոշում է կայացվում:

    Անհնար է ստուգել լուծույթի համարժեքությունը՝ առանց այլ տեսակի վերլուծության դիմելու: Գոնե տեսական առումով այս խնդիրը չի լուծվել։ Օլդդերֆերի և Բլաշֆիլդի դասական աշխատությունը՝ Կլաստերի վերլուծությունը, մանրամասնորեն քննարկում և ի վերջո մերժում է կայունության փորձարկման լրացուցիչ հինգ մեթոդներ.

    1. կոֆենետիկ հարաբերակցություն - խորհուրդ չի տրվում և սահմանափակ է օգտագործման մեջ.
    2. նշանակության թեստեր (տարբերակի վերլուծություն) - միշտ նշանակալի արդյունք են տալիս.
    3. կրկնակի (պատահական) նմուշառման տեխնիկան, որը, սակայն, չի ապացուցում որոշման վավերականությունը.
    4. Արտաքին հատկանիշների նշանակության թեստերը հարմար են միայն կրկնվող չափումների համար.
    5. Մոնտե Կառլոյի մեթոդները շատ բարդ են և հասանելի են միայն փորձառու մաթեմատիկոսներին [ (անգլ. եզրերի հայտնաբերում) կամ օբյեկտների ճանաչում:
    6. Խելացի տվյալների վերլուծություն ( անգլ. ՝ data mining ) - Data Mining-ում կլաստերավորումը արժեք է ձեռք բերում, երբ այն գործում է որպես տվյալների վերլուծության և ամբողջական վերլուծական լուծման կառուցման փուլերից մեկը։ Հաճախ վերլուծաբանի համար ավելի հեշտ է նույնականացնել նմանատիպ օբյեկտների խմբերը, ուսումնասիրել դրանց առանձնահատկությունները և յուրաքանչյուր խմբի համար առանձին մոդել կառուցել, քան բոլոր տվյալների համար մեկ ընդհանուր մոդել ստեղծել: Այս տեխնիկան մշտապես օգտագործվում է մարքեթինգում՝ բացահայտելով հաճախորդների խմբերը, գնորդները, ապրանքները և մշակելով նրանցից յուրաքանչյուրի համար առանձին ռազմավարություն:


     
Հոդվածներ Ըստթեմա:
Ինչպես և որքան թխել տավարի միս
Ջեռոցում միս թխելը տարածված է տնային տնտեսուհիների շրջանում։ Եթե ​​պահպանվեն բոլոր կանոնները, ապա պատրաստի ուտեստը մատուցվում է տաք և սառը վիճակում, իսկ սենդվիչների համար կտորներ են պատրաստվում։ Տավարի միսը ջեռոցում կդառնա օրվա կերակրատեսակ, եթե ուշադրություն դարձնեք մսի պատրաստմանը թխելու համար։ Եթե ​​հաշվի չես առնում
Ինչու՞ են ամորձիները քոր գալիս և ի՞նչ անել տհաճությունից ազատվելու համար.
Շատ տղամարդկանց հետաքրքրում է, թե ինչու են իրենց գնդիկները սկսում քոր առաջացնել և ինչպես վերացնել այս պատճառը: Ոմանք կարծում են, որ դա պայմանավորված է անհարմար ներքնազգեստով, իսկ ոմանք կարծում են, որ դրա պատճառը ոչ կանոնավոր հիգիենան է։ Այսպես թե այնպես այս խնդիրը պետք է լուծվի։ Ինչու են ձվերը քորում:
Աղացած միս տավարի և խոզի կոտլետների համար. բաղադրատոմս լուսանկարով
Մինչեւ վերջերս կոտլետներ էի պատրաստում միայն տնական աղացած մսից։ Բայց հենց օրերս փորձեցի պատրաստել դրանք մի կտոր տավարի փափկամիսից, և ճիշտն ասած, ինձ շատ դուր եկան, և իմ ամբողջ ընտանիքը հավանեց: Կոտլետներ ստանալու համար
Երկրի արհեստական ​​արբանյակների ուղեծրեր տիեզերանավերի արձակման սխեմաներ
1 2 3 Ptuf 53 · 10-09-2014 Միությունը, անշուշտ, լավն է: բայց 1 կգ բեռը հանելու արժեքը դեռ ահավոր է։ Նախկինում մենք քննարկել ենք մարդկանց ուղեծիր հասցնելու մեթոդները, բայց ես կցանկանայի քննարկել բեռները հրթիռներ հասցնելու այլընտրանքային մեթոդները (համաձայն եմ.