X
تبلیغات
وبلاگ علی اکبر براتی - استفاده از spss در تحلیل های آماری
آشنایی با مدل لوجیت (Logit Model) و نحوه محاسبه آن در نرم افزار SPSS

در تحليل روابط بين متغيرها برخی مواقع پیش می آید که متغیر وابسته دارای دو سطح است (دامی یا مجازی). مثلا ممکن است متغیر وابسته مشارکت و یا عدم مشارکت یک فرد در یک برنامه باشد. در این موارد برای تحلیل داده ها باید از مدل احتمالی خطی (لوجیت یا پرابیت) استفاده نمود. در ارتباط با مدل های احتمال خطی چند مسئله وجود دارد:
1. غیر نرمال بودن توزیع
2. ناهمگونی پراکنش واریانس های توزیع ها
3. عدم احتمال وجود Y بین صفر و یک
4. مشکوک بودن مقدار R2 بعنوان معیاری جهت نیکویی برازش
مدل های احتمالی خطی از لحاظ منطقی مدل های جذابی نیستند. زیرا فرض می کنند احتمال اين كه Y =1 باشد (وجود صفت در متغيير وابسته) بشکلی خطی با X ارتباط دارد. یعنی اثرات جانبی ثابت فرض می شود. این موضوع برخی اوقات بیش از حد ایده آل است.
بنابراین، نیاز به یک مدل احتمالی است که دارای دو ویژگی باشد:
(1) همچنانکه X افزایش می یابدPi نیز افزایش یابد اما از دامنه 0-1 خارج نشود، و
(2) رابطه بین Xi و Pi غیرخطی است، و هر چه به یک یا صفر نزدیکتر می شود با نرخ کمتر و کمتری در نتیجه زیاد و کم شدن مقادیر X تغییر می کند.
فرآیند تحلیل لگاریتم خطی لوجیت به تحلیل رابطه بین یک یا چند متغیر وابسته و چند متغیر مستقل می پردازد. در این تحلیل متغیرهای وابسته همواره طبقه ای بوده حال آنکه متغیرهای مستقل می توانند طبقه ای باشند یا نباشد. سایر متغیرهای مستقل، مانند متغیرهای کمکی (cell covariates)، می توانند پیوسته باشند، اما در این موارد تمامی سطوح متغیر مورد بررسی قرار نمیگیرد بلکه میانگین وزنی متغیر در خانه مربوط به آن متغیر لحاظ می گردد. و لگاریتم بخت متغیرهای وابسته بعنوان ترکیب خطی متغیرها مورد استفاده قرار میگیرد. این روش پارامترهای مدل های لگاریتم خطی لوجیت را با استفاده از الگوریتم نیومن راپسون تخمین می زند. مدل احتمالی خطی تکنیکی است که به ما اجازه می دهد احتمال وقوع یا عدم وقوع یک واقعه را برآورد نماییم. این کار با پیش بینی یک متغیر دو سطحی وابسته از طریق مجموعه ای از متغیرهای مستقل ممکن می گردد.

Pi = E(Y=1 | Xi ) = β1 + β2Xi

هرگاه درنتیجه ورود X مقدار Y = 1 گردد به این معنی است که مثلا فرد مشارکت خواهد کرد.
در مدل لوجیت بجای Pi از Ln نسبت بخت یا [P/(1-P)] استفاده میشود یعنی

Li = Ln [P/(1-P)]= Zi = β1 + β2Xi

1- همانگونه که P مقداری بین صفر تا یک می گیرد، لوجیت L نیز مقادیری بین ∞- تا ∞+ میگیرد.
2- اگر چه L رابطه ای خطی با X دارد احتمال آنها دارای رابطه خطی با X نیست.
3- تفسیر مدل لوجیت نیز به این شکل است : β2، شیب، میزان تغییر L به ازای یک واحد تغییر در X . β1 مقدار لگاریتم بخت است هنگامی که مقدار X برابر صفر است.
4- مدل احتمالی خطی فرض می کند که P1 ارتباطی خطی با Xi دارد، مدل لوجیت فرض می کند که این لگاریتم نسبت بخت است که ارتباطی خطی با Xi دارد.
پس مدل لوجیت همانند مدل های لگاریتم خطی و پرابیت نوع خاصی از مدل های خطی عمومی (general linear models) است (GLM، که شامل رگرسیون و مدل های ANOVA می گردد) که برای عملکرد بهتر بر روی متغیرهای دو بخشی و طبقه ای ارائه شده اند. مدل لوجیت شبیه مدل لگاریتم خطی است اما یک یا بیش از یک متغیر وابسته طبقه بندی شده را توضیح می دهد. البته زمانی که یک متغیر وابسته طبقه بندی شده وجود دارد، استفاده از رگرسیون لوجستیک دو و چند جمله ای نسبت به مدل لوجیت رایج تر است. همچنین رگرسیون لوجستیک بیشتر زمانی استفاده می شود که متغیرهای مستقل حالت پیوسته نیز دارند. مدل پروبیت نیز شکل متفاوتی از لوجیت است که پیش فرض های مربوط به داده های آن متفاوت است. مدل پروبیت زمانی که فرض نرمال بودن توزیع متغیر وابسته برقرار باشد کاربردش معمول تر است.
مدل های لگاریتم خطی به این منظور ایجاد شده اند که روابط شرطی دو یا تعداد بیشتری متغیر طبقه ای را تحلیل نماید. تجزیه و تحلیل لگاریتم خطی نسبت به رگرسیون لجستیک از ابعاد زیر متفاوت است:
1. توزیع مورد انتظار متغیرهای طبقه ای پواسون است، نه دو یا چند جمله ای. (توزیع پواسون توزیعی گسسته است. این توزیع نشان دهنده احتمال وقوع یک رویداد به تعداد n بار در یک زمان مشخص است در صورتی که نرخ متوسط رخ دادن این رویداد مشخص باشد.
2. در تجزیه و تحلیل لگاریتم خطی در تابع پیش بینی از لگاریتم طبیعی (Ln) متغیر وابسته استفاده میشود، نه از لوجیت (Logit) متغیر وابسته آنگونه که در رگرسیون لجستیک وجود دارد.
3. در تجزیه و تحلیل لگاریتم خطی، پیش بینی ها تخمین مقادیر خانه های جداول وابستگی هستند نه لوجیت مقدار y.
جهت دریافت فایل PDF کامل این مطلب اینجا را کلیک کنید.

لینک فایل در سرور googledocs.


روش انجام رگرسیون لوجستیک در spss

با دنبال نمودن مثال زیر می توانید روش محاسبه رگرسیون لوجستیک را بهتر فراگیرید.
1- موضوع تحقیق: می خواهیم بررسی نماییم آیا متغیر های جنسیت، سن، سطح تحصیلات (شامل بیسواد، دیپلم و دانشگاهی)، و اشتغال در مزرعه خانواده آیا بر احتمال اشتغال یک فرد روستایی به مشاغل غیر کشاورزی در سطح روستا تاثیر دارد یا خیر. برای این منظور از یک نمونه شامل 596 فرد روستایی که بصورت تصادفی از بین خانوارهای روستایی شهرستان قوچان انتخاب شده اند استفاده نموده ایم.
2- فرضیه مورد بررسی: اشتغال یا عدم اشتغال یک فرد روستایی در مشاغل غیرکشاورزی (nonfarem) تابعی از متغیر های جنسیت (sex)، سن (age)، سطح تحصیلات (شامل بیسواد (unedu)، دیپلم (higedu) و دانشگاهی (univedu)، و اشتغال در مزرعه خانواده (farmem) است.
3- جامعه آماری مورد مطالعه: جامعة آماري اين تحقيق را خانوارهاي روستايي شهرستان قوچان تشكيل مي‌دهند ،‌شهرستان قوچان يكي از شهرستان هاي استان خراسان است كه در شمال استان واقع شده، و مركز آن شهر قوچان است كه فاصلة‌آن تا مركز استان (مشهد) در حدود 125 كيلومتر مي‌باشد،‌ اين شهرستان داراي سه بخش است كه اين سه بخش خود مشتقل بر 3 شهر، 9 دهستان و 333 پارچه آبادي است. جمعیت روستایی این شهرستان 337،140 نفر می باشد.
4- متغیرهای تحقیق: 3-1- متغیر وابسته (Y): اشتغال یا عدم اشتغال یک فرد روستایی در مشاغل غیرکشاورزی (nonfarem). 3-2- متغیرهای مستقل تحقیق (Xi): جنسیت (sex)، سن (age)، سطح تحصیلات (شامل بیسواد (unedu)، دیپلم (higedu) و دانشگاهی (univedu) که بشکل مجازی وارد شدند، و اشتغال در مزرعه خانواده (farmem). تمامی این متغیرها دارای مقیاس ترتیبی می باشند بجز سن که مقیاس سنجش آن نسبتی است.

جهت دریافت فایل PDF کامل این مطلب اینجا را کلیک کنید.



تحلیل تشخیصی Discriminant Analysis با استفاده از spss

توابع تحلیل تشخیصی که جزو گروه (GLM) یا همان مدل های خطی عمومی لحاظ می گردند، در واقع همانند تابع رگرسیون لجستیک نوعی ترکیب وزنی هستند که به منظور پیش بینی عضویت یک فرد یا موضوع مورد بررسی در یکی از چند گروه ممکن بکار می روند. با این تفاوت که در تحلیل تشخیصی متغیر مستقل حتماً باید دارای مقیاس فاصله ای یا نسبتی بوده و در آن نمی توان متغیرهای دارای مقیاس ترتیبی یا اسمی را وارد نمود. متغییر وابسته نیز مانند رگرسیون لجستیک می تواند اسمی یا ترتیبی باشد. همچنین تفاوت این تحلیل با تحلیل واریانس چند متغیره در این است که در تحلیل واریانس این متغیر وابسته است که حالت کمی داشته و متغیر(های) مستقل حالت کیفی یا مقوله ای دارند. پیشنهاد می گردد که حجم نمونه مورد استفاده در تحلیل تشخیص حداقل 20 برابر تعداد متغیرهای مستقل باشد. معادله تحلیل تشخیصی را می توان همانند معادله رگرسیون چند متغیره بصورت زیر نوشت:
Yi = a + b1X1 + b2X2 + . . . + bnXn
در ادامه با ذکر یک مثال به نحوه محاسبه و تفسیر نتایج با استفاده از این تحلیل می پردازیم.
1- مسئله مورد بررسی:
یک شرکت بزرگ حمل و نقل هوایی کارکنان خود در سه طبقه شغلی طبقه بندی نموده است که عبارتند از ؛ 1) مهمانداران، 2) مکانیکان و 3) توزیع کنندگان. مدیر منابع انسانی شرکت می خواهد بداند که آیا هر یک از این گروه ها دارای ویژگی های شخصیتی متفاوتی هستند؟ برای این منظور یک تست روانشناسی که شامل سه بخش علاقه به فعالیت در فضای باز، جامعه پذیری (یا معاشرت) و محافظه کاری است را اعمال می نماید و در نهایت می خواهد بداند که آیا سه فاکتور می توانند این سه گروه از کارکنان را از هم تفکیک نمایند.
جهت دریافت فایل pdf کامل این مطلب اینجا را کلیک کنید.