Statistical Package for Social Science (SPSS – статистически пакет за социални науки) е компютърна програма, работеща в средата на операционна система Windows, която е специализирана за систематизиране, обработка и анализ на статистическа информация. Както подсказва
наименованието, тя е насочена предимно към изследвания в областта на социологическите и маркетинговите проучвания.
SPSS (originally, Statistical Package for the Social Sciences) was released in its first version in 1968 after being developed by Norman H. Nie and C. Hadlai Hull. Norman Nie was then a political science postgraduate at Stanford University,
The original SPSS manual (Nie, Bent & Hull, 1970) has been described as one of "sociology's most influential books".[4] In addition to statistical analysis, data management (case selection, file reshaping, creating derived data) and data documentation (a metadata dictionary is stored in the datafile) are features of the base software.
The company announced July 28, 2009 that it was being acquired by IBM for US$1.2 billion.[2] As of January 2010, it became "SPSS: An IBM Company".
Стартираме програмата SPSS от операционната система Window по следния начин: Start → Programs → SPSS for Windows → SPSS 13.0 for Windows. След отварянето виждаме прозореца SPSS Data Edition.
SPSS работи с два прозореца Data Editor - за въвеждане и редактиране на данни и Output Viewer - за отпечатване на резултатите от статистическата обработката - таблици и графики. Като за да превключваме между двата
прозореца използваме табулаторите в долната лента на екрана. В прозореца за данни (SPSS Data Editor) се дефинират, въвеждат и редактират статистическите данни. Output Viewer не е видим още, защото той се активира автоматично след осъществяване на статистическа обработка. В него се извеждат изчислените статистически показатели или графични изображения.
Менюто и на двата прозореца е еднакво, но иконите са различни. Менюто на SPSS съдържа някои от основните за Windows програмите подменюта, както и някои специализирани функции.
Стартиране на програмата:
Start -> Programs --> SPSS 16.0 for Windows (или съответната налична версия)
Отваряне на работен файл
File --> Open -->Data -> Избиране на файла със съхранените данни, който има удължение .sav;
Data editor
Data view – изглед на данните, колоните представляват различните променливи (различните въпроси), а редовете – случаите/наблюденията (респондентите);
Variable view - изглед на променливите, всеки ред представлява различна променлива, а всяка колона – атрибут, отнасящ се към съответната променлива.
Variable view – полета за редакция:
Name: Вписват се наименованията на променливите, специалните символи са забранени, препоръчително е да се изписват на латиница;
Type
Обозначава типа на променливата, може да се избере от падащото меню, което се активира чрез бутона в дясно на полето;
Width
Обозначава броя на броя цифрите/символите на променливата;
Decimals
Обозначава броя на цифрите след десетичната запетая;
Label
Етикет на променливата - до 255 символа, представлява описание на променливата или разширено нейно наименование, може да се изпише на кирилица;
Values
Етикети на стойностите на променливата (кодове), допуска се кирилица;
Missing
Липсващи или неправилно въведени данни се трансформират от програмата в system-missing; могат да се дължат на различни причини и понякога са обект на отделен анализ, броят им винаги трябва да се следи;
Columns
Показва ширината на колоната в Data view;
Align
Показва начина на подравняване на колоната в Data view;
Measure
Показва равнището на измерване – номинално, ординално или скалово;
Дефинирането на скалата на променливите може да бъде от полза при определяне на променливите за анализ или графики (неподходящите не излизат в прозорците за избор на променливи). По подразбиране числовите са интервални/скалови (scale), а символните - номинални (nominal). Възможно е да се определят някои числови, които са кодове за номинални, а други, за които наредбата на стойностите има значение за наредени/ординални (ordinal).
Output
Резултатите от всяка извършена статистическа обработка (Output) се излагат в прозореца Data viewer; те могат да представени под формата на статистически таблици, графики, карти и др., в зависимост от избраната процедура, файлът с резултатите (output) e с удължение .spv;
Основни менюта
Meню Data - Менюто се отнася до данните, с които се работи.
Меню Transform - Менюто включва възможности за създаване на нови променливи или промяната на стойностите на съществуващите. При тази промяна ни важи действието на select, а се задават с аналогичен набор от възможности, за случаите, с които ще се работи.
Меню Analyze – Основното меню в SPSS, чрез което се извършва статистическата обработка на данните.
Аритметична средна величина – Средните величини са силно концентрирани описателни средства, често се третират като измерители на така наречената централна тенденция, тъй като само с една стойност ни дават представа за цяла съвкупност от стойности.
В SPSS – Analyze -> Descriptive statistics -> Descriptives -> (Select variable)
->Options -> Mean
Едномерни разпределения
Q1, Q46, Q47, Q48 ( Притежание на книжка, Пол, Образование, Семейно положение).
Вариация
В SPSS – Analyze -> Descriptive statistics -> Descriptives -> (Select variable)
-> Options -> Mean, St.Dev., Range;
Средна аритметична величина
Средните величини са силно концентрирани описателни средства, често се третират като измерители на т.нар. централна тенденция - областта, в която се групират наблюденията, тъй като само с една стойност ни дават представа за цяла съвкупност от стойности.
Вариация
За статистическия анализ се интересуваме не само от обобщенията, но и от обкръжението на тези обобщения. За възраст, доход – огромен масив от хора с ниско доходи и малък масив с извънредно високи доходи.
Размах на разсейването – представлява разликата между най-голямата и най-малката стойност сред осредняваните. Размахът на разсейването е слабо познавателно и описателно средство, когато повечето когато повечето осреднявани стойности са групирани около средната,а граниничните са силно изтеглени от нея. В този случай размахът е представителен главно за тези грснични стойности, а не за цялата съвкупност – т.е. размахът на разсейването е толкова по-мощно статистическо средство, колкото по-хомогенно са разпределени стойностите на отделните случаи.
Средно аритметично отклонение – измерва доколко отделните осреднявани величини са приближени или отдалечени от аритметичната средна/как варират около нея, без да се взима пососката на отдалечеността/приближеноастта, слабо реагира на различията в степента на разсейване на различните изучавани съвкупности.
Делта
=
x – стойностите на отделните случаи;
N – обемът на съвкупността;
(mi) - средната на съвкупността.
Стандартно отклонение – сигма – измерва разликите между стойностите на осредняваните и тяхната средна, преодолява се нечувствителността на предишния метод, като разликите се повдигат на квадрат.
Дисперсия – квадратът на стандартното отклонение.
The variance is another statistics for calculating the mean deviation of a group of scores from the mean, such as our 100 students.
Съхранение на файловете:
SPSS Viewer (Output document) – File -> Save as -> Type name -> Ok (Удължение .spv) supporting pivot tables
SPSS Editor (Data document) -> File -> Exit -> No (Удължение .sаv)
Едномерни разпределения. Разчитане на таблицата с едномерно разпределение. Графично представяне на едномерно разпределение.
Едномерни разпределения.
Analyze -> Descriptive statistics -> Frequencies -> (Select variable) -> OK
Графично представяне на едномерно разпределение.
Graphs -> Legacy dialogs -> Bar -> Simple -> Bars represent: N of cases -> Category axis -> Select variable -> OK
Двумерни разпределения. Разчитане на таблицата на двумерно разпределение.
Analyze -> Descriptive statistics -> Crosstabs -> Select variables
Работа с подизвадки (Select cases). Едномерни и двумерни разпределения по подизвадки. Обединяване на файлове по случаи (Merge files-Add cases)
Работа с подизвадки (Select cases).
Data -> Select cases -> If condition is satisfied -> IF -> (Define condition) -> Continue -> OK
Едномерни разпределения по подизвадки.
1. a) Data -> Select cases -> If condition is satisfied -> IF -> q1=1 -> Continue -> OK
b) Analyze -> Descriptive statistics -> Frequencies -> select q5
Statistics
|
||
На Вас лично случвало ли се е да участвате в решението за закупуване на лична лека кола, независимо дали нова или употре
|
||
N
|
Valid
|
1987
|
Missing
|
26
|
|
Mean
|
1.12
|
На Вас лично случвало ли се е да участвате в решението за закупуване на лична лека кола, независимо дали нова или употре
|
|||||
Frequency
|
Percent
|
Valid Percent
|
Cumulative Percent
|
||
Valid
|
Участвал е
|
1746
|
86.7
|
87.9
|
87.9
|
Не е участвал
|
241
|
12.0
|
12.1
|
100.0
|
|
Total
|
1987
|
98.7
|
100.0
|
||
Missing
|
System
|
26
|
1.3
|
||
Total
|
2013
|
100.0
|
2. a) Data -> Select cases -> If condition is satisfied -> IF -> q1=2 -> Continue -> OK
b) Analyze -> Descriptive statistics -> Frequencies -> select q5
Statistics
|
||
На Вас лично случвало ли се е да участвате в решението за закупуване на лична лека кола, независимо дали нова или употре
|
||
N
|
Valid
|
353
|
Missing
|
0
|
|
Mean
|
1.67
|
На Вас лично случвало ли се е да участвате в решението за закупуване на лична лека кола, независимо дали нова или употре
|
|||||
Frequency
|
Percent
|
Valid Percent
|
Cumulative Percent
|
||
Valid
|
Участвал е
|
115
|
32.6
|
32.6
|
32.6
|
Не е участвал
|
238
|
67.4
|
67.4
|
100.0
|
|
Total
|
353
|
100.0
|
100.0
|
Двумерни разпределения по подизвадки
1. a) Data -> Select cases -> If condition is satisfied -> IF -> q1=1 -> Continue -> OK
b) Analyze -> Descriptive statistics -> Crosstabs -> Rows: q46 -> Columns-> q1
2. a) Data -> Select cases -> If condition is satisfied -> IF -> q1=2 -> Continue -> OK
b) Analyze -> Descriptive statistics -> Crosstabs -> Rows: q46 -> Columns-> q1
Изчисления на променливи с множествени отговори (Multiple response). Дефиниране на наборите (Define variables sets) и изчисления. Разчитане на таблицата. Q4, Q6
- Analyze -> Multiple response -> Define variable sets -> (Select variables in set) -> Dichotomies -> Counted value: 1 -> Type name -> Type label -> Add
- Analyze -> Multiple response -> Frequencies -> Select set -> OK
Преобразуване на данни. Групиране на метрична променлива и получаване на неметрична (Transform-Compute variable).
RECODE q52 (501 thru 1000=1) (1001 thru 1500=2) (1501 thru 2000=3) (2001 thru 2500=4) (2501 thru 3000=5) (3001 thru 9300=6) INTO Dohod.
EXECUTE.
FREQUENCIES VARIABLES=Dohod
Dohod
|
|||||
Frequency
|
Percent
|
Valid Percent
|
Cumulative Percent
|
||
Valid
|
1
|
154
|
11.0
|
11.0
|
11.0
|
2
|
350
|
25.0
|
25.0
|
36.1
|
|
3
|
458
|
32.8
|
32.8
|
68.8
|
|
4
|
263
|
18.8
|
18.8
|
87.6
|
|
5
|
133
|
9.5
|
9.5
|
97.1
|
|
6
|
40
|
2.9
|
2.9
|
100.0
|
|
Total
|
1398
|
100.0
|
100.0
|
RECODE q45 (0=SYSMIS) (20 thru 25=1) (26 thru 30=2) (31 thru 35=3) (36 thru 40=4) (41 thru 45=5) (46 thru 50=5) (51 thru 55=6) (56 t
hru 60=7) INTO Vuzrast.
EXECUTE.
FREQUENCIES VARIABLES=Vuzrast
Vuzrast
|
|||||
Frequency
|
Percent
|
Valid Percent
|
Cumulative Percent
|
||
Valid
|
1
|
309
|
13.0
|
13.1
|
13.1
|
2
|
439
|
18.5
|
18.7
|
31.8
|
|
3
|
412
|
17.4
|
17.5
|
49.3
|
|
4
|
180
|
7.6
|
7.6
|
56.9
|
|
5
|
547
|
23.1
|
23.2
|
80.2
|
|
6
|
347
|
14.6
|
14.7
|
94.9
|
|
7
|
119
|
5.0
|
5.1
|
100.0
|
|
Total
|
2353
|
99.2
|
100.0
|
||
Missing
|
System
|
18
|
.8
|
||
Total
|
2371
|
100.0
|
Сравняване на средни. Понятие за независима и зависима променлива. Разчитане на таблицата.
- Групиране на подоходните и възрастовите групи.
- Двумерни разпределения за медиите, по пол и занятие, по пол и притежание на шофьорска книжка, по първа посочена и пол, по най-важните неща и по пол.
- За различните марки –Aуди, БМВ, Мерцедес, Форд, Пежо и Опел–
Демографски профил
поведенчески профил,
Разпределение по пол,
Разпределение по най-важните качества,
Известност на марките, проникване на марките,
намерение за покупка – структура,
удовлетвореност,
лоялност,
имидж на марките сред мъжете и жените.
- средна възраст, двумерно разпределение по пол и занятие, по доход, семейно положение, икономически статус, лоялност към марката, имидж на марките сред жените, имидж на марките сред мъжете.
The independent variable is typically the variable being manipulated or changed and the dependent variable is the observed result of the independent variable being manipulated.
Нулева хипотеза : Според нея разликите между действително наблюдаваните и очаквани стойности може да бъде отдадена единствено на случайни фактори(няма разлика, оттам- нулева хипотеза), Алтернативната хипотеза обяснява наличните разлики като дължащи се на не случайни, закономерни фактори.
Равнище на значимост: Когато бъде отхвърлена нулевата хипотеза, когато тя е вярна – грешка от I-ви род, вероятността за допускане на грешка от този род се нарича равнище на значимост, определянето му е управленски въпрос, най-често използваните равнища са 0,1, 0,05, 0,01, които съответстват на гаранционни(доверителни) коефициенти от 0,9, 0,95 и 0,99.
При равнище на значимост от 0,05% съществува 5% вероятност нулевата хипотеза да е вярна, когато Asymp. Sig. e по-голяма от 0,05 вероятността нулевата хипотеза да бъде вярна е значителна и тя се приема, когато е по-малка вероятността нулевата хипотеза да бъде вярна е много малка и тя се отхвърля, т.е. налице е статистически значима разлика.
Непараметрични тестове – когато се работи със слабите скали-номинална и ординална, когато данните са от малка извадка.
U-тест на Ман-Утни при две извадки – предназначен за тестване на хипотези относно идентичността на разпределението на две съвкупности, данните трябва да са ординални, а извадките несвързани (несвързани са извадки, при които отговорите на едната извадка не са свързани с отговорите на другата)
One-Tailed and Two-Tailed Significance Tests
One important concept in significance testing is whether you use a one-tailed or two-tailed test of significance. The answer is that it depends on your hypothesis. When your research hypothesis states the direction of the difference or relationship, then you use a one-tailed probability. For example, a one-tailed test would be used to test these null hypotheses: Females will not score significantly higher than males on an IQ test. Blue collar workers are will not buy significantly more product than white collar workers. Superman is not significantly stronger than the average person. In each case, the null hypothesis (indirectly) predicts the direction of the difference. A two-tailed test would be used to test these null hypotheses: There will be no significant difference in IQ scores between males and females. There will be no significant difference in the amount of product purchased between blue collar and white collar workers. There is no significant difference in strength between Superman and the average person. The one-tailed probability is exactly half the value of the two-tailed probability.
Възраст и доход, Занятие и доход, Възраст, занятие и доход, Възраст и брой на лицата в домакинството, Пол на лицата и доход, Занятие и брой на лицата в домакинството, Икономически статус и доход, Пол, занятие и доход, Занятие и възраст
- Доход и занятие.
- Възраст и занятие.
- Възраст и брой на лицата в домакинството.
- Възраст и доход.
- Икономически статус и доход.
- Образование и доход.
- Занятие, образование и доход.
Т-тест за значимост на разликата между две средни при независими извадки. Analyze -> Compare means -> Independent samples T-test.
- Доход и пол (q52>2).
- Брой на притежаваните автомобили и пол (условие q12<5).
- Притежание на собствен автомобил и доход (условие q1=1 и q52>2)
Корелационен анализ
Дава отговор на три въпроса:
1.Съществува ли закономерна връзка между две променливи?
2. Каква е посоката на тази връзка (права или обратна)?
3. Колко тясна/силна е тази връзка?
Под закономерна връзка разбираме положението при което, в рамките на дадено изследване промяната в стойностите на едната променлива е съпроводена от промяна в стойностите на другата и обратното, не установява връзки между изследванията изобщо.
Прието е, че корелация със стойност под 0,4 се смята за ниска, от 0,4 до 0,8 – за средна и над 0,8 – висока.
Неметрична корелация
Analyze -> Descriptive statistics -> Crosstabs -> Statistics
In a negative correlation, as the values of one of the variables increase, the values of the second variable decrease.
Изследване на връзки между номинално измерени променливи
Хи-квадрат тест за съответствие – определя дали честотите на дадена наблюдавана категориална променлива отговарят на определено очаквано разпределение.
- Занятие и притежание на собствен автомобил ( с условие q1=1)
- Намерение за покупка и материално положение.
- Намерение за покупка и занятие.
- Образование и занятие.
- Пол и образование.
Равнище на значимост е 0,000 означава, че нулевата хипотеза за липса на връзка между променливите се отхвърля, стойността на коефициентите показва доколко силна е връзката.
V коефициент на Крамър – мярка за връзка между две номинални променливи, основаваща се върху Хи-квадрат, стойността му варира в интервала от 0 до 1, където 0 изразява липсата на каквато и да било връзка, а 1 – силна връзка.
Фи-коефициент – основан върху хи-квадрат, за таблици с размерност 2х2 фи-коефициентът е равен на корелационния коефициент на Пиърсън и приема стойности от -1 до +1, за таблици с по-голяма размерност може да надхвърля по абсолютна стойност 1.В общия случай, при условие че коя да е от двете променливи има повече от две категории, се препоръчва да се гледа по-скоро равнището на значимост, а не коефициента.
Коефициент на контингенцията С – измерва връзката между номинално измерени променливи, основан на хи-квадрат. Коефициентът на контингенцията приема стойности от 0 до 1, без 1, има две слабости – никога не е в състояние да приеме стойност 1 и величината му зависи от размерноста на таблицата
Друг подход за изследване на корелацията между две променливи се гради върху идеята да се установи доколко честотата на едната променлива може да бъде предсказана от честотата на другата променлива., представители на този подход са ламбда коефициентът и коефициентът на несигурността.
Ламбда коефициент – мярка за връзка между две номинално измерени променливи, който показва пропорционалното свеждане в грешката, когато стойностите на независимата променлива се използват за предсказване стойностите на зависимата. При стойност 1 независимата променлива изцяло предсказва зависимата, стойност 0 означава, че независимата променлива не е от никаква полза за предсказване на зависимата.
Коефициент на несигурността – основава се на идеята за ентропията – (величина, характеризираща състоянието на една термодинамична система, т.е. изразяването на броя на възможните конфигурации или подреждания на градивните частици на системата. Ентропията е критерий за това колко близко до термодинамично равновесие е дадена система. Тя е по-голяма, когато хаосът, а следователно и неговата вероятност, са по-големи) – колкото повече стойността му клони към 1, толкова повече информация за предсказване на зависимата променлива е налице и колкото повече клони към 0, толкова повече е ненужна независимата променлива, защото информацията която предоставя за предсказването на зависимата е нищожна.
Изследване на връзки между ординално измерени променливи
Analyze-Correlate-Bivariate – Kendal-Spearman
Ординално измерени са онези променливи, чиито стойности са подредени, но не е задължително да бъдат смислени като числа
Коефициент на Кендал – приема стойности от -1 до +1, като крайните стойности могат да бъдат достигнати само при квадратни таблици, знакът на коефициентът показва посоката на корелацията, а абсолютната й величина – силата.
Коефициент ро на Спирман – едно от най-често използваните средства за измерване на корелацията между две ординално измерени променливи. По отношение на всички изследвани случаи, стойностите на променливите се подреждат от най-ниската до най-високата и после се прилага коефициентаът на Пиърсън по отношение на така получените рангове.
- Възраст и ползване на интернет.
- Ползване на интернет и образование.
- Образование и материално положение.
- Възраст и доход.
- Чета книги/ходя на театър.
- Отделям твърде много време за работа/Отделям време за хобита.
- Прекарвам времето си със семейство/Посещавам нощни барове дискотеки.
Метрична корелация
Отнася се до променливи, които са измерени в силните скали, при тях числата имат същинско количествено съдържание
Проста линейна корелация
Analyze -> Correlate -> Bivariate->
За изчисляването на проста линейна корелация между две променливи се използва корелационният коефициент r на Пиърсън, примащ стойности от -1 до +1, като граничните стойности показват съвършено отрицателна или съвършено положителна връзка между променливите.
- Доход и брой на притежаваните автомобили.
- Доход и брой на лицата в домакинството.
- Възраст и доход.
Клъстърен анализ
- Analyze-> Classify->Hierarchical cluster->Variables->Plots-Dendrogram->Method-Binary-Ok
- Analyze-> Classify->K-means->Number of clusters
- Форд – 4 клъстъра
- Рено-2 клъстъра
- Пежо
- Според марките под съображение – 4 клъстъра
Моля, сравни с учебника, дали това е всичко!!!
Клъстърният анализ е група от статистически техники, предназначени за групиране на множество обекти едновременно по няколко или повече критерия в относително хомогенни малко на брой категории, наречени клъстъри. Обектите във всеки клъстър са подобни помежду си и различни от тези в другите клъстъри.
В качеството на обекти при клъстърния анализ могат да встъпват както случаи, така и променливи. В по-общото му приложение като обекти се използват предимно случаите. Като знаем, те могат да бъдат индивидуални или групови потребители (например домакинствата); различни търговски или индустриални фирми; училища или болнични заведения и т.н. Клъстърният анализ обаче има смисъл главно тогава, когато обектите са множество на брой и в желанието си да ги обхванем и разберем ние се стремим да ги класифицираме в някакви хомогенни категории.
В сегментационните изследвания, които са основният обект на клъстърния анализ в маркетинговите проучвания, се използват множество критерии за класификация. Всички сегметационни променливи например могат успешно да бъдат използвани за тази цел. Колкото повече променливи се използват в рамките на една класификационна процедура, толкова по-богати като съдържание клъстъри могат да бъдат получени., но същевременно и толкова по-трудно тълкуваме е „физиономията” на клъстърите.
Други приложени на клъстърния анализ извън задачите по сегментирането
Разбиране на покупателското поведение
Идентифициране на нови продуктови възможности
Определяне на класификационните критерии
|
↓
|
Избиране на мярката за дистанция
|
↓
|
Избиране на клъстърен метод
|
↓
|
Определяне броя на клъстърите
|
↓
|
Тълкуване съдържанието на клъстърите
|
↓
|
Оценяване валидността на клъстърите
|
↓
|
Профилиране на клъстърите
|
Определянето на класификационните критерии е задача, която трябва да се решава в строго съответствие с изследователските проблеми и цели. Зад избора на една или друга променлива в качеството J на класификационна обикновено стоят и някакви теория, хипотеза, опит от предходни изследвания или просто изследователска интуиция.
За да групираме изследваните обекти, в случая фирмите – потребители на компютри марка Х, в еднородния клъстър, е нужно да определим мерките, които ще използваме за измерване на подобието между тях. Най-често използван подход за решаване на тази задача е прилагането на някаква мярка за отдалеченост (дистанция) между два обекта. Алтернативният подход е този на мерките за близост.
Нейерархични методи на клъстъризация
Нейерархичните методи на клъстъризация, често наричани клъстъризация на К-средните, включват три основни процедури.
Последователно прескачане
Паралелно прескачане
За разлика от двете посочени процедури тази на оптималното разпределение позволява прескачането на едни обект в различни клъстъри с цел удовлетворяване някакъв критерий за оптимизация (например средното вътрешноклъстърно разстояние за даден брой клъстъри).
Няма коментари:
Публикуване на коментар