Dalam penyusunan dan pengembangan
skala psikologi prosedur analisis dan seleksi item merupakan salah satu hal
pokok yang perlu mendapat perhatian . hal ini ,emjadi teramat penting karena
kualitas skala psikologi sangat ditentukan oleh kualitas aitem-aitem didalamnya.
Penulisan item dilakukan dengan berpedoman pada blue-print skala dan di bombing
dan di bombing oleh kaidah-kaidah penulisan aitem yang berlaku bagi setiap
jenis dan format instrument yuang sedang di susun. Hanya aitem-aitem yang
ditulis dengan mengikuti blue-print dan bimbingan kaidah penulisan yang benar
sajalah yang akan berfungsi sebagaimana seharusnya dan dapat mendukung
validitas skala secara keseluruhan.
Prosedur seleksi atau pemilihan
aitem menyangkut beberapa tahap kerja. Prosedur yang paling sederhana meliputi
dua tahap yaitu tahap pertama adalah
analisis dan seleksi aitem berdasarkan evaliatif kualitatif. Evaluasi ini
melihat apakah aitem yang ditulis sudah sesuai dengan blue-print dan indicator
perilaku yang hendak di ungkapnya, melihat apakah aitem telah ditulis sesuai
dengan kaidah penulisan yang benar, dan melihat apakah aitem-aitem yang ditulis
masih mengandung social desirability yang tinggi. Evaluasi dan seleksi aitem
dalam tahap ini dikerjakan oleh suatu panel ahli.
Sedapat mungkin para panel ahli ini
terdiri atas ahli pengukuran dan ahli dalam masalah atribut yang hendak di ukur
oleh skala yang sedang di susun. Apabila prosedur tahap pertama selesai dan
telah diperoleh kumpulan aitem dalam jumlah yang cukup maka kumpulan aitem ini
dikomplikasikan dalamk bentuk semifinal yang siap untuk di ujicobakan secara
empiris ( Field-tested) pada kelompok subjek yang seharusnya.
Tahap
kedua adalah prosedur seleksi aitem berdasarkan data empiris (data hasil
uji-coba aitem pada kelompok subjek yang karakteristiknya setara dengan subjek
yang hendak dikenai skala itu nantinya) dengan melakukan analisis kuantitatif terhadap
param,eter-parameter aitem. Pada tahap ini paling tidak akan dilakukan seleksi
aitem berdasarkan daya diskriminasinya. Seleksi aitem yang lebih lengkap akan
meliputi analsis validitas dan reliabilitas aitem, distribusi jawaban, dan
aplikasi analisis factor. Pada tahapan lebih lanjut, terdapat prosedur analisis
item bias fungsi informasi aitem, dan lain-lain.
Uji-Coba Aitem
Ujia coba empiris harus dilakukan
dalam situasi dan kondisi testing yangs ebenarnya sehingga respons atau jawaban
subjek merupakan respons yang sesungguhnya pula. Oleh sebab itu, subjek tidak
boleh mengetahui bahwa pengenalan skala yang bersangkutan sebenarnya dilakukan
sebagai suatu uji-coba. Guna menghasilkan kondisi testing yang ideal perlu di
awali dari kompilasi aitem-aitem yang sudah harus disajikan dalam format final
skala, yaitu dalam bentuk berkas atau buku yang dilengkapi dengan petunjuk cara
pengerjaan misalnya pengerjaan , tata letak yang menarik dan mudah dibaca,
lempar jawaban yang mudah digunakan, dan sebagainya. Tempat duduk responden
tidak boleh berdesakan atau kurang leluasa sehingga memungkinkan responden
merundingkan atau meniru jawaban responden lain sehingga tidak sesuai dengan
keadaan seharusnya. Sekalipun responden tidak boleh diletakkan dalam situasi
“sedang di uji” namun suasananya haruslah tetap serius.
Untuk menghasilkan
parameter-parameter yang cukup akurat dan stabil antar kelompok sampel, data
empiris dari uji coba ini harus diperoleh dari subjek dalam jumlah yang banyak.
Dengan subjek yasng jumlahnya cukup banyak diharapkan dapat diperoleh skor-skor
yang variasinya menyebar secara noprmal atau mengikuti distribusi normal. Parameter-parameter
aitem yang diperoleh dari skor yang terdistribusi secara normal akan lebih
representative dan menggambarkan estimasi yang cermat terhadap sifat
aitem-aitem yang dianalisis.
Secara tradisional, statistika
menganggap jumnlah sampel yang lebih dari 60 orang sudah cukup banyak. Namun
secara metodologis besar-kecilnjya sampel yang representative harus di acukan
pada heterogenitas populasi. Semakin heterogen populasi maka semakin banyak
sampel yang di ambil. Heterogenitas populasi ini erat berkaitan dengan
banyaknya cirri atau karakteristik populasi yang relevan untuk ikut
dipertimbangkan.
Banyaknya subjek yang perlu
dijadikan sampel pengujian aitem dapat seratrus, dua ratus, empat ratus bahkan
mungkin seribu atau beberapa ribu orang. Pada prinsipnya dalam ketrbatasan
sumber daya yang ada dan mengingat pertimbangan teknik pelaksanaannya, harus
tetap di usahakan untuk mengambil subjek dalam jumlah sebesar mungkin. Jumlah
subjek yang terlalu sedikit akan mendatangkan keraguan mengenai distribusi skor
subjek, mengenai kestabilan parameter yang diperoleh. Semakin banyak semakin
baik.
Hal ini mengingat bahwa
parameter-parameter aitem akan dihasilkan oleh prosedur analisis aitem
merupakan parameter yang secara kuantitatif tergantung pada karakteristik kelompok
yang di gunakan sebagai sampel artinya parameter aitem yang diperoleh dari
hasil analisis data pada suatu kelompok biasanya berbedadari parameter aitem
yang sama apabila dihitung pada data kelompok yang lain. Parameter aitem akan
semakin sensitive terhadap perbedaan yang terjadi apabila data yang digunakan
berasal dari kelompok yang jumlahnya sangat sedikit atau yang merupakan
kelompok pilihan. Itulah sebabnya jumlah subjek yang banyak dalam kelompok
uji-coba akan memberikan rasa aman dan kepercayaan terhadap parameter aitem
yang diperoleh.
Parameter Aitem Untuk
Skala Psikologi
Daya beda atau daya diskriminasi
aitem merupakan parameter yang paling penting dalam seleksi aitem skala
psikologi yang mengukur atribut afektif. Daya diskriminasi aitem adalah sejauh
mana aitem mampu membedakan antara individu atau kelompok individu yang
memiliki dan yang tidak memiliki atribut yang di ukur. Contohnya pada suatu
skala yang disusun untuk mengungkap agresivitas, maka aitem yang berdaya beda
tinggi adalah aitem yang mampu menunjukkan mana individu atau kelompok individu
yang memiliki agresivitas tinggi dan mana yang tidak. Untuk skala sikap, aitem
yang berdaya beda tinggi adalah aitem yang mampu membedakan mana subjek yang
bersikap positif dan mana subjek yang bersikap negative.
Indkes daya diskriminasi aitem
merupakan pula indicator keselarasan atau konsistensi antara fungsi aitem
dengan fungsi skala secara keseluruhan yang dikenal dengan istilah konsistensi
aitem total. Prinsip kerja yang dijadikan dasar untuk melakukan seleksi aitem
dalam hal ini adalah memilih aitem yang fungsi ukurnya selaras atau sesuai
dengan fungsi ukur skala sebagaimana dikehendaki oleh penyusunnya. Atau dapat
dikatakan memilih aitem yang mengukur hal sama dengan apa yang di ukur oleh skala
sebagai keseluruhan.
Pengujian daya diskriminasi aitem
menghendaki dilakukannya komputasi koefisien korelasi antara distribusi skor
aitem dengan suatu kriterian yang relevan, yaitu distribusi skor skala itu
sendiri. Komputasi ini akan menghasilkan koefisien korelasi aitem-total yang
dikenal pula dengan sebutan parameter daya beda aitem.
Formula korelasi yang tepat untuk
digunakan dalam komputasinya tergantung pada sifat penskalaan dan distribusi
skor aitem dan skor skala itu sendiri. Bagi skala-skala yang setiap aitemnya
diberi skor pada level interval dapat digunakan formula koefisien korelasi
positif antara skor aitemdengan skor skala berarti semakin tinggi konsistensi
antara aitem tersebut dengan skala keseluruhan yang berarti semakin tinggi daya
bedanya. Bila koefisien korelasinya rendah mendekati nol berarti fungsi aitem
tersebut tidak cocok dengan fungsi ukur skala dan daya bedanya tidak baik. Bila
koefisien korelasi yang dimaksud ternyata negative artinya terdapat cacat
serius pada aitem yang bersangkutan.
Bila menggunakan formula person
untuk komputasi koefisien korelasi aitem-total, dapat dipakai rumusan :
rix
= ∑iX – (
∑i)(∑X)/n
√[∑i2 – ( ∑i)2
/ n][∑X2 – (∑X)2 /n]
I = Skor aitem
X
= Skor skala
N
= Banyaknya subjek
Koreksi Terhadap Efek
Spurios Overlap
Apabila koefisien korelasi aitem
total itu dihitung pada suatu skala yang berisi hanya sedikit aitem maka sangat
mungkin akan diperol;eh koefisien korelasi aitem-total yang overestimated
(lebih tinggi daripada sebenarnya) dikarenakan adanya overlap antara skor aitem
dengan skor skala (Guilford,1965). Overestimasi ini dapat terjadi dikarenakan
pengaruh kontribusi skor masing-masing aitem dalam ikut menentukan besarnya
skor skala.
Sebagai contoh misalnya dalam sebuah skala skor di
dapatkan dari penjumlahan skor-skor yang terdapat pada aitem-aitemnya, oleh
karena itu dengan sendirinya skor setiap aitem menjadi bagian atau porsi dari
skor skala tersebut. Porsi ini akan semakin besar apabila jumlah aitem dalam
skala semakin sedikit. Dengan begitu, sewaktu kita menghitung koefisien
korelasi suatu aitem dengan skor skala, sesungguhnya kita menghitung korelasi
antara skor aitem yang bersangkutan. Dengan kata lain, kita menghitung korelasi
skor dengan bagian dari dirinya sendiri dan hal ini tentu saja menyebabkan
koefisien korelasinya cenderung menjadi lebih tinggi daripada kalau korelasi
tersebut dihitung antara skor aitem dengan skor skala yang tidak mengandung
aitem yang bersangkutan.
Semakin sedikit aitem yang ada dalam skala akan
semakin besar overlap yang terjadi. Sebaliknya, semakin banyak jumlah aitem
dalam skala maka akibat yang ditimbulkan oleh spurious overlap semakin kecil
dan tidak signifikan. Sebagai pegangan kasar, bila jumlah aitem dalam skala
lebih dari 30 buah maka umumnya efek spurious overlap tidak begitu besar dan
karenanya dapat di abaikan, sedangkan apabila jumlah aitem dalam skala kurang
dari 30 buah maka pengaruhnya menjadi substansial sehingga perlu
diperhitungtkan.
Untuk korelasi aitem total yang dihitung dengan
formula product moment Spearmen, formula koreksi terhadap efek spurious overlap
adalah :
Ri(x-i)
= rixsx
– si
√[Sx2
+ Si2 – 2rixSiSx ]
Ri(x-i) =
koefisien korelasi aitem total setelah dikoreksi dari efek spurious overlap
rix =
Koefisien korelasi aitem total sebelum dikoreksi
si =
deviasi standar skor aitem yang bersangkutan
sx =
Deviasi skor standar skala
Memilih Aitem
Berdasarkan Koefisien Korelasi Aitem Total
Parameter daya beda aitem yang
berupa koefisien korelasi aitem total memperlihatkan kesesuaian fungsi aitem
dengan fungsi skala dalam mengungkap perbedaan individual. Dengan demikian guna
mengoptimalkan fungsi skala maka sangat logis apabila pemilihan aitem-aitemnya
didasarkan pada besarnya koefisien korelasi termaksud.
Besarnya koefisien korelasi aitem total bergerak
dari 0 sampai dengan 1,00 dengan tanda positif atau negative. Semakin baik daya
diskriminasi aitem maka koefisien korelasinya semakin mendekati angka 1,00.
Koefisien yang mendekati angka 0 atau yang memiliki tanda negative
mengindikasikan daya diskriminasi yang tidak baik.
Sebagai kriteria pemilihan aitem berdasar korelasi
aitem total biasanya digunakan batasan rix ≥ 0,30. Semua aitem yang
mencapai koefisien korelasi minimal 0,30 daya pembedanya di anggap memuaskan.
Aitem yang memiliki harga rix atau ri(X-i) kurang dari
0,30 dapat di interpretasikan sebagai aitem yang memiliki daya diskriminasi
rendah. Batasan ini merupakan suatu konvensi. Penyusun tes boleh menentukan
sendiri batasan daya diskriminasi aitemnya dengan mempertimbangkan isi dan
tujuan skala yangs edang disusun.
Apabila aitem yang memiliki indeks diskriminasi sama
dengan atau lebih besar daripada 0,30 jumlahnya melebihi jumlah aitem yang
direncanakan untuk dijadikan skala, maka kita dapat memilih aitem-aitem yang
memiliki indeks daya diskriminasi tertinggi. Sebaliknya apabila jumlah aitem
yang lolos ternyata masih tidak mencukupi jumlah yang di inginkan, kita dapat
mempertimbangkan untuk menurunkan sedikit batas kriteria 0,30 – menjadi 0,25
misalnya sehingga jumlah aitem yang di inginkan dapat tercapai. Apabila hal ini
tidak juga menolong, maka sangat mungkin kita harus merevisi seluruh aitem
aitem baru sama sekali dan kemudian melakukan field testing kembali karena
menurunkan batas kriteria rix dibawah 0,20 sangat tidak di sarankan.
Harus pula diketahui bahwa tingginya korelasi skor
aitem dengan skor skala, sekalipun berperanan dalam meningkatkan reliabilitas
skala, namun tidak selalu akan meningkatkan validitas skala. Bahkan semata-mata
memilih aitem-aitem yang berkorelasi tinggi dengan skor skala akan berakibat
menurunkan validitas isi dan validitas yang didasarkan pada kriteria ( lemke
& Wiersma, 1976; Azwar, 1997 ).
Oleh karena itu, parameter daya diskriminasi aitem rix
hendaknya tidak dijadikan patokan tunggal dalam menentukan aitem mana yang
akhirnya diikutkan sebagai bagian skala dalam bentuk final dikarenakan di
samping korelasi aitem total tersebut masih ada pertimbangan lain yang juga
tidak kalah besar peranannya dalam menentukan kualitas skala. Pettimbangan itu
antara lain adalah tujuan penggunaan hasil ukur skala dan komposisi aspek-aspek
atau komponen-komponen yang dicakup oleh kawasan ukur yang harus diungkap oleh
skala.
Atribut
Tungga vs Atribut Komposit
Sekalipun suatu skala psikologi
bertujuan untuk mengukur variable yang konstraknya merupakan atribut tunggal,
namun dalam perancangannya atribut tersebut seringkali perlu di uraikan menjadi
beberapa dimensi atau komponen guna memperluas cakupan afektifnya dan
memperjelas operasionalisasinya.
Pada skala yang dibuat untuk mengukur atribut
tunggal seperti itu interkorelasi antar komponen atau dimensinya di harapkan
tinggi karena memang komponen-komponen tersebut dirancang untuk mengukur hal
yang sama. Dalam seleksi aitem aitemnya pun kita memilih daya beda aitem
tertinggi yang ada dengan membandingkan indeksnya secara keseluruhan, bukan
perkomponen. Adanya komponen yang ternyata berisi aitem aitem yang berkoefisien
korelasi rix rendah menunjukkan antara lain bahwa komponen yang
bersangkutan memang tidak relevan dengan tujuan pengukuran dan dapat
dihapuskan. Lebih lanjut, untuk pengujian reliabilitasnya cukup dilakukan satu
pengujian saja bagi seluruh aitem yang terpilih sehingga yanga ada adalah koefisien
reliabilitas skala bukan koefisien-koefisien reliabilitas komponen.
Di sisi lain, ada skala psikologi yang dirancang
untuk mengukur satu atribut namun atribut tersebut dikonsepkan sebagai terdiri
atas beberapa aspek atau dimensi yang mengungkap subdomain yang berbeda satu
sama lain. Skor-skor dari setiap aspek tersebut akan dijadikan satu skor
komposit yang mengindikasikan ada tidaknya atribut semula sebagai tujuan
ukurnya. Misalnya WAIS, WAIS bertujuan untuk mengukur IQ. IQ sendiri
disimpulkan dari intelegensi yang konsepsinya terdiri atas 11 aspek kecakapan
yang berbeda beda. Tidak satupun di antara aspek kecakapan yanga da dalam WAIS
itu yang dinamai intelegensi. Setelah skor dari setiap aspek diperoleh dan
dikompositkan sedemikian rupa, barulah skor akhir tersebut dinamai IQ yang
mencerminkan intelegensi sebagaimana tujuan ukur semula.
Daslam hal pengukuran atribut komposit seperti ini,
kita mengharapkan agar interkorelasi antaraspek atau anatardimensi itu rendah
karena hal itu berarti bahwa setiap aspek memiliki fungsi ukur yang unik dan
tidak ada tumpang tindih. Dari segi pemilihan aitemnya, kita harus melakukan
analisis aitem bagi setiap aspek ( menghitung korelasi aitem dengta skor aspek,
bukan denga skor skala), dengan membandingkan indeks daya deskrimminasinya
dalam aspek masing-masing, bukan secara keseluruhan. Begitu juga dalam emnguji
reliabilitasnya, lebih dahulu dilakukan komputasi koefisien reliabilitas bagi
masing masing aspek, baru kemudian dihitung reliabilitas secara keseluruhan yang
dikenal dengan nama reliabilitas skor komposit ( Mosier, 1943 dalam Azwar ,
1997) .
Sebagaimana telah dijelaskan , seleksi aitem dengan
menggunakan komputasi korelasi antara skor aitem dan skor total skala
menghasilkan indeks daya diskriminasi aitem atau dikenal juga dengan indeks
konsistensi aitem total. Peril di ingatkan bahwa indeks daya diskriminasi ini
tidak sama dengan koefisien validitas aitem. Daya deskriminasi aitem dan
validitas aitem merupakan dua hal berbeda dan pengertiannya tidak untuk
dicampuradukkan. Indeks diskriminasi aitem semata-mata menunjukkan sejauh mana
aitem yang bersangkutan berfungsi aseperti skala. Indeks daya diskriminasi
aitem yangrendah berarti bahwa fungsi aitem yang bersangkutan tidak selaras
dengan tujuan ukur skala.
Suatu skala yang seluruhnya berisi aitem dengan
indeks diskriminasi tinggi berarti bahwa skala itu merupakan kumpulan aitem
yang memiliki tujuan dan fungsi yang sama, tapi hal itu belum menunjukkan
fungsi apa yang sebenarnya dimilikinya. Artinya suatu skala yang daya
diskriminasi aitem-aitemnya tinggi, belum tentu valid untuk tujuan ukur yang
direncanakan. Daya diskriminasi aitem tidak memiliki hubungan langsung dengan
validitas skala. Dengan demikian, diharapkan para penyusun skala dan para
peneliti yang menggunakan skala akan dapat melakukan evaluasi kualitas aitem
dan kualitas skalanya dengan cara yang tepat dan menempatkan prosedur seleksi
aitem pada proporsi yang selayaknya.