A. Penelitian Evaluasi
1. Konsep Dasar Penelitian Evaluasi
Konsep dasar penelitian evaluasi dapat dirangkum dalam poin-poin berikut ini:
a. Penelitian evaluasi merupakan salah satu bentuk dari penelitian terapan, sehingga mempunyai kesamaan, baik dalam pemilihan pendekatan, metodologi, penentuan subyek, sampling maupun prosedur risetnya.
b. Nisbet (1999), menyatakan perbedaan esensial antara penelitian evaluasi dan penelitian konvensional (riset dasar) adalah lebih pada tujuan daripada dalam pemilihan subyek dan metode.
c. Penelitian konvensional bersifat conclusion oriented (ber-orientasi pada kesimpulan), sedangkan penelitian evaluasi mempunyai ciri decision oriented (yaitu bertujuan untuk memenuhi kebutuhan akan informasi/data sebagai dasar dalam pengambilan keputusan/perumusan kebijakan).
d. Worthen dan Sanders (1973): aktivitas penelitian (konvensional) bertujuan untuk memperoleh generalisasi pengetahuan berdasarkan perumusan dan pengujian hipotesis tentang hubungan antar variabel atau generalisasi tentang fenomena sedangkan penelitian evaluasi evaluasi didasarkan atas kebutuhan akan informasi untuk merumuskan kebijakan, kebutuhan untuk membuat program, dan menilai dampak kebijakan serta program
2. Fungsi dan Tujuan Penelitian Evaluasi
Penelitian evaluasi berbeda dengan evaluasi formal, evaluasi formal bisa dilakukan oleh para peneliti atau pelaksana dalam bidangnya Penelitian evaluasi bersifat komprehensif membutuhkan data kuantitatif dan kuantitatif. Penelitian evaluasi menambah pengetahuan tentang kegiatan tertentu dan dapat mendorong penelitian atau pengembangan lebih lanjut. Secara umum tujuan dari penelitian evaluasi adalah untuk merancang, menyempurnakan, dan menguji pelaksanaan suatu praktek pendidikan. Selain itu, penelitian evaluasi juga dimaksudkan untuk minilai keberhasilan kegiatan secara spesifik dan minilai manfaat dari kegiatan tersebut.
Secara umum tujuan dari penelitian evaluasi adalah untuk merancang, menyempurnakan, dan menguji pelaksanaan suatu program. Secara terperinci tujuan penelitian evaluasi menurut Sukmadinata (2009) adalah sebagai berikut:
a. Membantu perencanaan pelaksanaan program,
b. Membantu dalam penentuan keputusan penyempurnaan atau perubahan program,
c. Membantu dalam penentuan keputusan keberlanjutan atau penghentian program,
d. Menemukan fakta-fakta dukungan atau penolakan terhdap program, dan
e. Memberikan sumbangan dalam pemahaman proses psikologis, sosial dan politik dalam pelaksanaan program serta faktor yang mempengaruhi.
Jadi tujuan utama dari penelitian evaluasi adalah sebagai penyedia informasi berkaitan dengan program-program pendidikan yang telah dilaksanakan.
3. Karakteristik Penelitian Evaluasi
Karakteristik penelitian evaluasi meliputi:
a. Proses kegiatan penelitian tidak menyimpang dari kaidah-kaidah yang berlaku bagi penelitian pada umumnya.
b. Dalam melaksanakan evaluasi, peneliti berpikir secara sistemis, yaitu memandang program yang diteliti sebagai sebuah kesatuan yang terdiri atas beberapa komponen atau unsur yang saling berkaitan satu sama lain dalam menunjang keberhasilan kinerja dari objek yang dievaluasi, bagi pengawas ialah keberhasilan program pembinaan.
c. Agar bisa mengetahui secara detail kondisi dari objek yang dievaluasi, maka diperlukan adanya identifikasi terhadap komponen yang berkedudukan sebagai faktor penentu bagi keberhasilan program.
d. Menggunakan standar, kriteria, atau tolok ukur sebagai perbandingan dalam menentukan kondisi real dari data yang didapatkan dan untuk mengambil kesimpulan.
e. Kesimpulan atau hasil penelitian dipergunakan untuk masukan atau rekomendasi bagi sebuah kebijakan atau rencana program yang sudah ditentukan, atau dengan kata lain, dalam melakukan evaluasi program, peneliti harus berkiblat pada tujuan program kegiatan sebagai standar, kriteria, atau tolok ukur.
f. Agar informasi yang didapatkan bisa menggambarkan kondisi real secara detail untuk mengetahui bagian mana dari program yang belum terlaksana, maka diperlukan adanya identifikasi terhadap komponen, yang selanjutnya melakukan identifikasi terhadap sub komponen, dan identifikasi pada indikator dari program yang dievaluasi.
g. Standar, kriteria atau tolok ukur, diterapkan pada indikator, yaitu bagian yang paling kecil dari program agar dapat dengan cermat diketahui letak kelemahan dari proses kegiatan.
h. Dari hasil penelitian harus dapat disusun sebuah rekomendasi secara rinci dan akurat sehingga dapat ditentukan tindak lanjut secara tepat.
4. Prinsip-Prinsip Penelitian Evaluasi
Prinsip-prinsip dalam penelitian evaluasi adalah:
a. Komprehensif
Evaluasi harus mencakup bidang sasaran yang luas atau menyeluruh baik aspek personalnya, materialnya maupun aspek operasionalnya.
b. Komparatif
Evaluasi harus dilaksanakan dengan bekerjasama dengan semua pihak agar dapat mencapai obyektifitas dalam mengevaluasi.
c. Kontinyu
Evaluasi hendaknya dilakukan secara terus-menerus selama proses pelaksanaan program. Evaluasi tidak hanya dilakukan terhadap hasil yang telah dicapai, tetapi sejak pembuatan rencana sampai tahap pelaporan.
d. Obyektif
Mengadakan evaluasi harus menilai sesuai kenyataan yang ada dengan dukungan data dan fakta.
e. Berdasarkan kriteria yang valid
Kriteria yang digunakan dalam evaluasi harus konsisten dengan tujuan yang dirumuskan.
f. Fungsional
Evaluasi harus memiliki nilai guna baik secara langsung maupun tidak langsung. Langsung adalah hasil evaluasi dapat digunakan untuk perbaikan program, sedangkan tidak langsung adalah dapat dimanfaatkan untuk penelitian atau keperluan lainnya.
B. Strategi Penelitian Evaluasi
1. Rancangan Penelitian Evaluasi
a. Rancangan Penelitian Evaluasi
Desain atau rancangan evaluasi program yang menggunakan pendekatan kualitatif agak berbeda dengan desain penelitian kualitatif. Penelitian kualitatif dikenal banyak orang mempunyai cirri fleksibel dalam metode pengumpulan datanya dan pada saat proses berlangsung bisa saja penelitinya mengembangkan datanya sejauh itu masih dalam konteks menggali informasi yang nantinya dapat digunakan untuk membangun teori baru. Sedangkan pada evaluasi program informasi apa yang akan dikumpulkan telah ditetapkan pada awal penentuan desain dan sedapat mungkin pada saat pengumpulan informasi tidak terjadi perluasan pencarian informasi dengan alasan mencari titik jenuh kepusan peneliti dalam mengumpulkan informasi (Royse, David et al, 2006). Karakteristik lain yang ada pada penelitian yang menggunakan pendekatan kualitatif seperti posisi peneliti dalam konteks penelitian, unit informasi dan unit analisis, tipe informasi yang dikumpulkan, analisis data serta cara menyimpulkan juga digunakan dalam evaluasi program yang bersifat kualitatif. Format rancangannya mencakup konteks atau pernyataan tentang apa yang mendasari perlunya dilakukan evaluasi terhadap suatu program, kemudian apa tujuan dilakukannya evaluasi program. Selanjutnya akan disepakati dahulu asumsi yang relevan, aturan-aturan dalam pengumpulan informasi serta cara pengumpulan informasi, pengorganisasian data, analisis data, serta verifikasi data (Creswell, John.W, 1994). Pada pendekatan kualitatif, karakteristik yang menonjol adalah pada posisi evaluator dalam pelaksanaan evaluasi. Tujuan evaluasi adalah mengumpulkan informasi tentang suatu program, evaluator walaupun bukan bagian dari pelaku di dalam program, tetapi pada pendekatan kualitatif evaluator harus berada dalam program dan mempunyai aksesibilitas yang tinggi terhadap semua komponen program. Tujuan utama evaluasi program dengan pendekatan kualitatif adalah mendapatkan gambaran yang menyeluruh tentang suatu program di semua aspeknya (Royse, David et al, 2006). Pendekatan ini menekankan pada mendapatkan pemahaman lebih luas dan cenderung membentuk perspektif yang tak berujung dari suatu fenomena atau kejadian tertentu. Tujuan utama digunakannya pendekatan ini adalah menemukan kekuatan dan kelemahan program dari berbagai sudut pandang. Berbeda dengan pendekatan kuantitatif pertanyaan yang menjadi focus evaluasi tidak menggambarkan adanya variable, data yang dikumpulkan akan ditampilkan dalam bentuk natative, tidak terlalu mementingkan metode sampling, dan pengolahan data tidak selalu menggunakan uji statistika tertentu. Biasanya pada pengolahan data akan dipilih cara yang lebih banyak menyatakan kualitas interaksi antara satu data dengan data lainnya dalam konteks menggambarkan situasi dan kondisi pada saat fenomena tertentu muncul. Kesimpulannyapun dinyatakan dalam bentuk pernyataan yang berbentuk deskripsi sehingga orang dapat melihat suatu gambaran yang utuh tentang suatu program.

b. Metode Penelitian Evaluasi
Penelitian evaluasi secara umum bertujuan untuk merancang, menyempurnakan, dan menguji pelaksanaan suatu praktik pendidikan. Langkah-langkah penelitian evaluasi menurut Sukmadinata (2012:133) adalah:
i. Klarifikasi alasan melakukan evaluasi, menjelaskan alasan-alasan mengapa evaluasi diadakan.
ii. Memilih model evaluasi
iii. Mengidentifikasi pihak-pihak yang terkait
iv. Penentuan komponen yang akan di evaluasi
v. Mengidentifikasi pertanyaan-pertanyaan evaluasi
vi. Menyusun desain evaluasi dan jadwal kegiatan
vii. Pengumpulan dan analisis data
viii. Pelaporan hasil evaluasi

Ada beberapa model-model dalam evaluasi program yang dapat dipilih oleh seorang evaluator, tergantung pada karakteristik program yang hendak dievaluasi. Model evaluasi ialah model desain evaluasi yang dibuat oleh ahli-ahli atau pakar-pakar evaluasi yang biasanya dinamakan sama dengan pembuatnya atau tahap pembuatannya. (Tayibnasis, 2008:13).
Masih menurut Tayibnasis (2008: 13-22) beberapa model evaluasi yang populer dan banyak dipakai dalam evaluasi program, yaitu:
i. Model Evaluasi CIPP Stufflebeam
Model ini berorientasi kepada pemegang keputusan, dimana evaluasi berfungsi untuk menggambarkan, memperoleh dan menyediakan informasi yang berguna untuk menilai alternatif keputusan. Dimensi dalam evaluasi ini adalah:
 Context evaluation to serve planning decision. Evaluasi konteks meliputi penggambaran latar belakang program yang dievaluasi, memberikan perkiraan kebutuhan dan tujuan program, menentukan sasaran program dan menentukan sejauh mana tawaran ini cukup responsif terhadap kebutuhan yang sudah diidentifikasi.
 Input evaluation, structuring decision. Evaluasi ini menolong mengatur keputusan, menentukan sumber-sumber yang ada, alternatif apa yang diambil, apa rencana dan strategi untuk mencapai kebutuhan. Bagaimana prosedur kerja untuk mencapainya.
 Process evaluation, to serve implementing decision. Evaluasi proses untuk membantu mengimplementasi keputusan. Sampai sejauh mana rencana telah diterapkan? Apa yang yang harus direvisi? Begitu pertanyaan tersebut terjawab, prosedur dapat dimonitor, dikontrol, dan diperbaiki.
 Product evaluation, to serve recycling decision. Evaluasi produk untuk menolong keputusan selanjutnya. Apa hasil yang telah dicapai? Apa yang dilakukan setelah program berjalan?
ii. Evaluasi Model UCLA
Alkin (1969) menulis tentang kerangka kerja evaluasi yang hampir sama dengan model CIPP. Alkin mendefinisikan evaluasi sebagai suatu proses meyakinkan keputusan, memilih informasi yang tepat, mengumpulkan dan menganalisis informasi sehingga dapat melaporkan ringkasan data yang berguna bagi pembuat keputusan dan memilih beberapa alternatif. Alkin mengemukakan lima macam evaluasi yaitu:
 System assessment, yang memberikan informasi tentang keadaan atau posisi sistem.
 Program planning, membantu pemilihan program tertentu yang mungkin akan berhasil memenuhi kebutuhan program.
 Program implementation, yang menyiapkan informasi apakah program sudah diperkenalkan kepada kelompok tertentu yang tepat seperti yang direncanakan?
 Program improvement, yang memberikan informasi tentang bagaimana program berfungsi, bagaimana program bekerja, atau berjalan? Apakah menuju pencapaian tujuan, adakah hal-hal atau masalah-masalah baru yang muncul tak terduga.
 Program improvement, berfungsi memberikan informasi tentang bagaimana program tersebut bermanfaat dan bagaimana program dapat dilaksanakan.
 Program certification, yang memberi informasi tentang nilai atau guna program.
iii. Model Brikerhoff
Model ini dikembangkan oleh Brinkerhoff dan kawan-kawan, dengan mengemukakan tiga jenis desain yaitu:
 Fixed vs Emergant evaluation design. Desain fixed ditentukan dan direncanakan secara sistematis dan desainnya dikembangkan dengan mengacu pada tujuan program.
 Formatif vs Summative evaluation.Evaluasi formatif digunakan untuk memperoleh data bagi keperluan revisi program, sedangkan evaluasi sumatif dibuat untuk menilai kegunaan suatu program.
 Desain eksperimental dan Quasi eksperimental vs Natural inquiry. Desain eksperimental, quasi eksperimental dan natural inquiry desain merupakan hasil adopsi dari disiplin penelitian. Desain eksperimental dan quasi eksperimental digunakan untuk menilai suatu program yang baru diujicobakan. Sedangkan natural inquiry dilakukan dengan cara evaluator terlibat langsung dengan sumber-sumber informasi serta program yang dilaksanakannya.
iv. Model Evaluasi Stake atau Model Countenance
Model ini dikembangkan oleh Stake (1967), analisis proses evaluasi yang dikemukakannya membawa dampak yang cukup besar dalam bidang ini dan meletakkan dasar yang sederhana namun merupakan konsep yang cukup kuat untuk perkembangan yang lebih jauh dalam bidang evaluasi. Stake menekankan adanya dua dasar kegiatan dalam evaluasi ialah Descriptions dan judgement dan membedakan adanya tiga tahap dalam program pendidikan yaitu: Antecedents (context), transaction (process), dan Outcomes (output).
Penekanan yang umum atau hal yang penting dalam model ini ialah bahwa evaluator yang membuat penilaian tentang program yang dievaluasi. Stake mengatakan bahwa description di satu pihak berbeda dengan judgement atau menilai. Dalam model ini, antecedents (masukan), transaction (proses) dan outcomes (hasil) data dibandingkan tidak hanya untuk menentukan apakah ada perbedaan tujuan dengan keadaan sebenarnya, tetapi juga dibandingkan dengan standar yang absolut, untuk menilai manfaat program.

c. Rumusan Masalah Penelitian Evaluasi
Dalam mengidentifikasi pertanyaan-pertanyaan evaluasi, Lee Cronbach membedakannya menjadi dua fase, yaitu:
1. Fase divergen dalam mengumpulkan suatu daftar pertanyaan, isu, concer dan informasi secara komprehensif dan melibatkan semua stakeholder;
2. Fase konvergen dengan menyeleksi daftar pertanyaan untuk memperoleh pertanyaan-pertanyaan paling penting yang sekiranya dapat dijawab dengan sumber daya yang memungkinkan. Hal ini dapat dilakukan melalui kolaborasi dengan stakeholder yang signifikan.
Beberapa pertanyaan penting yang dapat diajukan dalam penelitian evaluasi adalah:
1. Tujuan atau sasaran apa yang ingin dicapai oleh program pendidikan;
2. Strategi atau metode apa yang digunakan dalam program tersebut;
3. Bagaimana kondisi sumber daya pendidikan pendukung penelitian evaluasi;
4. Bagaimana manajemen pelaksanaan program dan sumber daya pendukung.

d. Tujuan Penelitian Evaluasi
Seorang Fitzpatrick dkk. (2004) mengidentifikasi sejumlah tujuan yang mungkin untuk evaluasi yaitu : untuk memutuskan apakah akan mengadopsi program atau produk baru, untuk menentukan apakah akan melanjutkan, memodifikasi, memperluas, atau menghentikan program yang sudah ada, untuk menguji sejauh mana operasi usaha sesuai dengan desainnya, untuk menilai nilai keseluruhan program dan nilai relatif serta biayanya dibandingkan dengan program pesaing, untuk membantu sponsor evaluasi, klien, peserta, dan pemangku kepentingan menentukan apakah masalah yang teridentifikasi sedang diselesaikan. Fitzpatrick dkk (2004) juga memperingatkan sejumlah tujuan evaluasi yang mengindikasikan tidak melakukan evaluasi. Evaluator harus waspada terhadap evaluasi yang dilakukan tanpa komitmen yang jelas untuk menggunakan hasil, yang keputusannya sudah dibuat dan pengambil keputusan sedang mencari justifikasi atau kasus di mana evaluasi hanya dipandang sebagai aktivitas hubungan masyarakat.
Tentu saja, pengambil keputusan tidak mungkin menggolongkan tujuan evaluasi dalam istilah yang blak-blakan, sehingga evaluator harus sadar dalam menetapkan tujuan yang jelas dengan maksud untuk digunakan sebelum memulai evaluasi yang tepat . Tujuan evaluasi juga merupakan sesuatu yang dapat berubah seiring dengan perkembangan proyek. Misalnya, Wallerstein dan Martinez (1994) mengembangkan model evaluasi pemberdayaan untuk mengevaluasi program pencegahan penyalahgunaan zat pada remaja. Pada tahap awal evaluasi, mereka memandang tujuan sebagai mendokumentasikan proses dan kondisi yang diperlukan untuk program Freirean untuk mendorong perubahan komunitas. (Program Freirean adalah program yang didasarkan pada ajaran Paulo Freire [1971], di mana pemberdayaan dipandang sebagai membangun hubungan dengan orang lain untuk mendapatkan kendali atas kehidupan Anda sendiri dalam konteks meningkatkan kehidupan komunitas.)
e. Tinjauan Pustaka
Kajian pustaka yang merupakan kegiatan menghimpun informasi dapat diperoleh dari berbagai sumber. Sumber bacaan yang baik harus memenuhi tiga kriteria yaitu relevansi, kelengkapan dan kemutakhiran (kecuali penelitian sejarah yang menggunakan sumber-sumber bacaan lama). Relevansi berkenaan dengan kecocokan antara variabel yang diteliti dengan teori yang dikemukakan, kelengkapan berkenaan dengan banyaknya sumber yang dibaca, dan kemutakhiran berkenaan dengan dimensi waktu, makin baru sumber yang digunakan makin mutakhir teori yang dikemukakan. Sugiyono menyebutkan ada 3 sumber-sumber kajian pustaka berdasarkan isinya antara lain:
1. Sumber Primer
Sumber primer adalah deskripsi langsung dari suatu kejadian oleh seseorang yang benar-benar mengamati atau menyaksikan peristiwa-peristiwa tersebut. Sumber primer berasal dari karangan asli yang ditulis oleh orang yang mengalami, mengamati atau mengerjakan sendiri. menurut Ibnu contohnya yaitu buku harian, tesis/disertasi, laporan penelitian, dan hasil wawancara. Sedangkan menurut Howard dan Sharp yang merupakan sumber primer yaitu, artikel jurnal, laporan, publikasi dari pemerintah, dan katalog.
2. Sumber Sekunder
Sumber sekunder adalah setiap publikasi yang ditulis oleh pengarang yang bukan merupakan hasil pengamatan langsung dari peristiwa-peristiwa yang dilukiskan. Menurut Ibnu contohnya yaitu ensiklopedia, textbooks, kamus dan buku pegangan. sedangkan menurut Howard dan Sharp yang merupakan sumber sekunder yaitu buku teks, review dari jurnal dan indeks publikasi.
3. Sumber Tersier
Sumber tersier bisa digunakan sebagai informasi awal dan untuk penelurusan lebih lanjut. Menurut Ibnu, dkk contohnya yaitu indeks, abstrak dan bibliografi (sejenis daftar pustaka). Sedangkan menurut Howard dan Sharp yang merupakan sumber tersier berupa handbooks, bibliografi dan ensiklopedia.
Untuk lebih memahami tentang sumber kajian pustaka secara detail berikut penjelasan menurut Nazir dijelaskan beberapa jenis sumber bacaan yang dapat digunakan untuk memperoleh teori-teori yang relevan antara lain : (1) Buku Teks, (2) Jurnal, (3) Periodical (majalah terbitan berkala), (4) Yearbook, (5) Buletin, (6) Circular, (7) Leaflet, (8) Annual Review, (9) Off Print, (10) Reprint, (11) Recent Advance, (12) Bibliografi, (13) Handbook, (14) Manual, (15) Skripsi Tesis dan Disertasi

2. Teknik dan Analisis Data Penelitian Evaluasi
a. Prosedur Perekaman Data
Teknik pengumpulan atau perekaman data, yaitu merupakan suatu hal yang penting dalam suatu penelitian, yang bertujuan untuk mendapatkan data yang diperlukan. Pengumpulan data dalam penelitian ini dimaksudkan untuk memperoleh informasi Implementasi program pendidikan terkait dengan pembelajaran, sehingga didapatkan gambaran yang utuh tentang program. Teknik pengumpulan data yang digunakan adalah kuesioner (angket), observasi, dokumentasi, dan wawancara. Angket merupakan seperangkat pertanyaan tertulis yang diberikan kepada siswa, dengan maksud untuk mengungkapkan pendapat, keadaan, kesan yang ada pada diri responden maupun di luar dirinya tentang karakteristik siswa, motivasi belajar, pelaksanaan pembelajaran yang dilaksanakan guru, partisipasi siswa dan hubungan antar pribadi dalam pembelajaran. Observasi yang dilengkapi dengan pedoman observasi digunakan untuk mengungkapkan data tentang keadaan sarana dan fasilitas penunjang program pembelajaran.
Dokumentasi digunakan untuk mengumpulkan data tentang perangkat persiapan pembelajaran yang dilakukan guru, karakteristik guru dan prestasi akademik siswa. Wawancara digunakan untuk memperoleh data tentang kondisi akhlak siswa dan data-data lain terkait dengan seluk beluk madrasah. Secara garis besar jenis data yang diperlukan, teknik pengumpulan data dan sumber data. Aspek antencendent, untuk mengumpulkan data tentang karakteristik siswa dan motivasi belajar siswa digunakan angket, dan untuk mengumpulkan data tentang persiapan pembelajaran maka digunakan dokumentasi terhadap rencana pengajaran, sedangkan untuk mengumpulkan data tentang ketersediaan sarana dan prasarana yang mendukung kegiatan pembelajaran juga digunakan instrumen pedoman observasi tentang kesiapan bahan dan alat. kesiapan fasilitas ruangan dengan cara membubuhkan tanda cek (√) pada salah satu pernyataan yang tersedia. Aspek transaction, untuk mengumpulkan data tentang pelaksanaan pembelajaran yang dilaksanakan guru, partisipasi siswa dan hubungan antar pribadi yang digunakan adalah angket. Aspek outcome, untuk mengetahui prestasi akademik siswa digunakan teknik dokumentasi terhadap hasil ujian semester dan prestasi non akademik peserta didik menyangkut aspek akhlak siswa di madrasah setelah dilakukan dengan cara wawancara dengan kepala sekolah madrasah (walisongo.ac.id, 2009)

b. Analisis dan Interpretasi
Menurut Sukmadinata (2012:135) data yang diperoleh dianalisis secara kuantitatif maupun kualitatif. Analisis kuantitatif mengguanakan statistic deskriptif maupun statistic inferensial, analisis kualitatif mengguanakan analisis naratif kualitatif. Hasil analisis kuantitatif berbentuk tabel, grafik, profil, bagan, peta (analisis deskriptif), atau berbentuk skor rata-rata, koefisien korelasi, regresi, perbedaan, analisis jalur, dsb. Hasil kualitatif berupa deskripsi naratif kualitatif tentang hal-hal yang esensial.
Dalam hal interpretasi, evaluator dapat menekankan pengembangan standar untuk digunakan dalam membuat penilaian tentang manfaat atau nilai program. Misalnya, jika sebuah program dirancang untuk mengurangi angka putus sekolah siswa sekolah menengah, apakah pengurangan 50% dianggap berhasil? Bagaimana dengan pengurangan 25%? Standar tersebut sesuai untuk studi yang fokus pada evaluasi dampak, meskipun processoriented standar dapat ditentukan dari segi jumlah klien yang dilayani atau jumlah peserta lokakarya.
Sementara itu, tindak lanjut dari sebuah penelitian evaluasi dapat diwujudkan melalui tiga alternatif yaitu:
1. Program disebarluaskan sebab dipandang baik
2. Program direvisi sebab terdapat hal-hal yang belum sesuai dengan tolol ukur yang dikehendaki
3. Program dihentikan sebab terdapat bukti bahwa kurang atau tidak baik.

c. Validasi dan Realibilitas
Instrumen yang akan digunakan untuk pengambilan data pada suatu evaluasi harus divalidasi terlebih dahulu. Validitas yang dimaksud meliputi:
1. Validitas isi
Yang dimaksud validitas isi ialah derajat dimana sebuah tes evaluasi mengukur cakupan substansi yang ingin diukur. Untuk mendapatkan validitas isi memerlukan dua spek penting, yaitu valid isi dan valid teknik sampling.Valid isi mencakup khususnya, hal-hal yang berkaitan dengan apakah item-item evaluasi menggambarkan pengukuran dalam cakupan yang ingin diukur. Sedangkan validitas teknik sampling pada umunya berkaitan dengan bagaimanakah baiknya suatu sampel tes mempresentasikan total cakupan isi (Sukardi, 2008).
Sedangkan Arikunto (1997: 64) sebuah tes dikatakan memiliki validitas isi apabila mengukur tujuan khusus tertentu yang sejajar dengan materi atau isi pelajaran yang diberikan. Oleh karena materi yang diberikan tertera dalam kurikulum maka validitas isi juga disebut validitas kurikuler.

2. Validitas Konstruk
Validitas konstruk merupakan derajat yang menunjukkan suatu tes mengukur sebuah konstruk sementara atau Hyptotetical construct. Secara definitife, konstruk merupakan suatu sifat yang tidak dapat diobservasi, tetapi kita dapat merasakan pengaruhnya melalui salah satu atau dua indera kita (Sukardi, 2008).
Sedangkan Arikunto(1997: 64) sebuah tes dikatakan memiliki validitas konstruksi apabila butir-butir soal yang membangun tes tersebut mengukur setiap aspek berfikir seperti disebutkan dalam tujuan instruksional khusus. Dengan kata lain jika butir-butir soal mengukur aspek berfikir tersebut sudah sesuai dengan aspek berfikir yang menjadi tujuan instruksional.
3. Validitas Konkruen
Validitas konkruen adalah derajat dimana skor dalam suatu tes dihubungkan dengan skor lain yang telah dibuat. Tes dengan validitas konkruen biasanya diadministrasi dalam waktu yang sama atau dengan criteria valid yang sudah ada. Sering kali juga terjadi bahwa tes dibuat atau dikembangkan untuk pekerjaan yang sama seperti beberapa tes lainnya, tetapi dengan cara yang lebih mudah dan lebih cepat. Validitas konkruen ditentukan dengan membangun analisis hubungan dan perbedaan (Sukardi, 2008).
4. Validitas Prediksi
Validitas prediksi adalah derajat yang menunjukkan suatu tes dapat memprediksi tentang bagaimana baik seseorang akan melakukan suatu prospek atau tugas atau pekerjaan yang direncanakan. Validitas prediksi suatu tes pada umumnya ditentukan dengan membangun hubungan antara skor tes dan beberapa ukuran keberhasilan dalam situasi tertentu yang digunakan untuk memprediksi keberhasilan, yang selanjutnya disebut sebagai predictor. Sedangkan tingkah laku yang diprediksi disebut criterion (Sukardi, 2008).
Sedangkan menurut Arikunto(1997: 66) memprediksi artinya meramal, dan meramal selalun mengenai hal yang akan datang jika sekarang belum terjadi. Sebuah tes memiliki validitas prediksi atau validitas ramalan apabila mempunyai kemampuan untuk meramalkan apa yang akan terjadi pada masa yang akan datang.

Menurut Sukardi (2008) Ada beberapa tipe reliabelitas yang digunakan dalam kegiatan evaluasi dan masing-masing reliebelitas mempunyai konsistensi yang berbeda-beda. Beberap tipe reliebelitas di antaranya: tes-retes, ekivalen, dan belah dua yang ditentukan melalui korelasi.
Berbagai tipe tersebut akan diuraikan sebagai berikut:
v. Relibilitas Dengan Tes-Retes
Reliabelitas tes-retes tidak lain adalah derajat yang menunjukkan konsistensi hasil sebuah tes dari waktu ke waktu. Tes-Retes menunjukkan variasi skor yang diperoleh dari penyelenggaraan satu tes evaluasi yang dilaksanakan dua kali atau lebih, sebagai akibat kesalahan pengukuran. Dengan kata lain, kita tertarik dalam mencari kejelasan bahwa skor siswa mencapai suatu tes pada waktu tertentu adalah sama hasilnya, ketika siswa itu dites lagi dengan tes yang sama. Dengan melakukan tes-retes tersebut. Seorang guru akan mengetahui seberapa jauh konsistensi suatu tes mengukur apa yang ingin diukur (Sukardi, 2008).
Sedangkan Arikunto (1997: 88) Metode tes ulang (tes-retes) dilakukan untuk menghindari dua penyusunan dua seri tes. Dalam menggunakan teknik atau metode ini pengetes hanya memiliki satu seri tes tapi dicobakan dua kali. Oleh karena tesnya satu dan dicobakan dua kali, maka metode ini dapat disebut juga dengan single-test-double-trial-method.
Reliebelitas tes retes dapat dilakukan dengan cara seperti berikut:
i. Selenggarakan tes pada suatu kelompok yang tepat sesuai dengan rencana.
ii. Setelah selang waktu tertentu, misalnya satu minggu atau dua minggu, lakukan kembali tes yang sama dengan kelompok yang sama tersebut.
iii. Korelasikan kedua hasil tes tersebut.
Jika hasil koefisien menunjukkan tinggi, berarti reliabilias tes adalah bagus. Sebaliknya, jika korelasi rendah, berarti tes tersebut mempunyai konsistensi rendah (Sukardi, 2008).
vi. Reliabelitas Dengan Bentuk Ekivalensi
Sesuai dengan namanya yaitu ekivalen, maka tes evaluasi yang hendak diukur reliabelitasnya dibuat identik dengan tes acuan. Setiap tampilannya, kecuali substansi item yang ada, dapat berbeda. Kedua tes tersebut sebaliknya mempunyai karate yang sama. Karakteristik yang dimaksud misalnya mengukur variabel yang sama, mempunyai jumlah item sama, struktur sama, mempunyai tingkat kesulitan dan mempunyai petunjuk, cara penskoran, dan interpretasi yang sama (Sukardi 2008).
Pernyataan serupa juga disampaikan oleh Arikunto (1997: 87) tes paralel atau equivalent adalah dua buah tes yang mempunyai kesamaan tujuan, tingkat kesukaran dan susunan, tetapi butir-butirnya berbeda. Dalam istilah bahasa Inggris disebut Alternate-forms method (parallel forms).
Tes reliabelitas secara ekivalen dapat dilaksanakan dengan mengikuti langkah-langkah sebagai berikut:
i. Tentukan sasaran yang hendak dites
ii. Lakukan tes yang dimaksud kepada subjek sasaran tersebut.
iii. Administrasinya hasilnya secara baik.
iv. Dalam waktu yang tidak terlalu lama, lakukan pengetesan yang kedua kalinya pada kelompok tersebut
v. Korelasikan kedua hasil skor tersebut (Sukardi, 2008).
Perlu diketahui juga bahwa tes ekivalensi mempunyai kelemahan yaitu bahwa membuat dua buah tes yang secara esensial ekivalen adalah sulit. Akibatnya akan selalu terjadi kesalahan pengukuran (Sukardi, 2008). Pernyataan lain juga disampaikan oleh Arikunto (1997: 88) kelemahan dari metode ini adalah pengetes pekerjaannya berat karena harus menyusun dua seri tes. Lagi pula harus tersedia waktu yang lama untuk mencobakan dua kali tes.
vii. Reliebilitas Dengan Bentuk Belah Dua
Menurut Sukardi (2008: 47) Reliabilitas belah dua ini termasuk reliabilitas yang mengukur konsistensi internal. Yang dimaksud konsistensi internal adalah salah satu tipe reliabilitas yang didasarkan pada keajegan dalam setiap item tes evaluasi. Relibilitas belah dua ini pelaksanaanya hanya satu kali.
Cara melakukan reliabilitas belah dua pada dasarnya dapat dilakukan dengan urutan sebagai berikut:
i. Lakukan pengetesan item-item yang telah dibuat kepada subjek sasaran.
ii. Bagi tes yang ada menjadi dua atas dasar dua item, yang paling umum dengan membagi item dengan nomor ganjil dengan item dengan nomor genap pada kelompok tersebut.
iii. Hitung skor subjek pada kedua belah kelompok penerima item genap dan item ganjil.
iv. Korelasikan kedua skor tersebut, menggunakan formula korelasi yang relevan dengan teknik pengukuran (Sukardi, 2008).

DAFTAR PUSTAKA

Hayati, R. (2020, april 21). Ciri Penelitian Evaluasi dan Penjelasannya. Dipetik September 28, 2020, dari penelitianilmiah.com: https://penelitianilmiah.com/ciri-penelitian-evaluasi/

Kantun, S. (t.thn.). Penelitian Evaluasi Sebagai Salah Satu Model Penelitian Dalam Bidang Pendidikan. Dipetik September 26, 2020, dari jurnal.unej.ac.id: file:///C:/Users/hp/Downloads/3809-1-7542-1-10-20170110.pdf

stafnew.uny.ac.id. (t.thn.). Dipetik September 29, 2020, dari stafnew.uny.ac.id: stafnew.uny.ac.id

walisongo.ac.id. (2009). Dipetik September 29, 2020, dari eprints.walisongo.ac.id: eprints.walisongo.ac.id

Mbulu, J. 1995. Evaluasi Program Konsep Dasar, Pendekatan Model, dan Prosedur Pelaksanaan. Malang: Departemen Pendidikan dan Kebudayaan Institut Keguruan dan Ilmu Pendidikan Malang Proyek Operasi dan Perawatan Fasilitas.

Arikunto Suharsimin. 2007. Manajemen Pendidikan. Jakarta:PT Rineka Cipta

Tayibnasis, Farida Yusuf. 2008. Evaluasi Program dan Instrumen Evaluasi. Jakarta : PT.Rineka Cipta

Arikunto Suharsimin. 2010. Prosedur Penelitian. Jakarta:PT Rineka Cipta

Sukmadinata Nana S. 2012. Metode Penelitian Pendidikan. Bandung: PT Remaja Rosdakarya

Sukardi. 2013. Metodologi Penelitian Pendidikan. Jakarta: PT Bumi Aksara

Sugiyono. 2010. Metode Penelitian Pendidikan. Bandung: Alfabeta

Brinkerhoff, Robert.O., Brethower, Dale.M., Hluchyj, Terry., Nowakowski, Jerry Ridings., 1983. Program Evaluation, a Practitioner’s Guide for Trainer & Educator, Boston USA: Kluwer-Nijhoff Publishing

Creswell, John.W., 1994, Research Design, Qualitative & Quantitative Approaches, California USA: Sage Publication.

By Editor