LINK-TRACING SAMPLING
1. Latar Belakang
Link-tracing sampling (LTS) telah dianjurkan sebagai metodologi tepat untuk sampling populasi tersembunyi dan sulit dijangkau, seperti para pengguna obat-obatan, tunawisma, atau populasi pekerja yang tidak didokumentasi. Ide dasar dibalik metodologi sampling ini adalah dimulai dengan sampel initial(awal) orang-orang dari populasi terkait tersebut dan kemudian menambah ukuran sampel dengan meminta orang-orang dalam sampel awal untuk mencalonkan anggota lain dari populasi. Orang-orang yang dicalonkan mungkin bergiliran diminta untuk mencalonkan anggota-anggota lain dari populasi, dan seterusnya hingga suatu aturan berhenti yang ditetapkan memuaskan. (Lihat Spreen (1992) dan (Thompson dan Frank (2000) untuk uraian dan tinjauan yang lain dari metodologi sampling ini). Sebagai contoh, dalam sebuah studi pengguna obat suntik dalam hubungannya dengan resiko terinfeksi HIV, seorang pengguna obat seringkali dapat menunjuk peneliti untuk menyuntik dan mitra seksual dan orang lain dalam berhadapan dengan populasi yang beresiko, sehingga memulai dari sebuah sampel awal, sampel tersebut dapat dikembangkan dengan mengikuti jaringan sosial ini. Karena studi seperti itu, sampling link-tracing cenderung menghasilkan lebih besar sejumlah individu dari suatu populasi tersembunyi, jika dibandingkan dengan desain sampling lain.
Suatu karakteristik yang menarik dari LTS bahwa LTS mengijinkan peneliti untuk membuat kesimpulan model-based yang valid tentang sejumlah parameter populasi. Sebagai contoh, model-based menyangkut ukuran populasi telah dipertimbangkan oleh Frank dan Snijer (1994). Penulis-penulis ini sudah memperoleh sejumlah estimator menyangkut ukuran suatu populasi tersembunyi dari dua asumsi berikut : (i) Sampel awal adalah suatu sampel Bernoulli; bahwa orang-orang dengan bebas tercakup dalam sampel awal dan dengan peluang masuk yang sama. (ii) Orang-orang dengan bebas dicalonkan oleh orang-orang di dalam sampel awal dan pencalonan dibuat dengan peluang yang sama. Model lain dan kesimpulan tentang parameter lain telah dipertimbangkan oleh penulis lain; untuk tinjauannya lihat Thompson dan Frank (2000).
Walaupun kesimpulan model-based valid dapat dibuat menggunakan LTS, satu masalah adalah bahwa asumsi model mungkin tidak realistis. Sebagai contoh, di dalam studi nyata asumsi (i) Frank dan Snijders (1994) sering dilanggar sebab peneliti sering menyelesaikan perekrutan awal dengan menggunakan pusat kesehatan atau pos polisi, sehingga anggota populasi tersembunyi mungkin tidak ditemui dengan bebas atau dengan peluang yang sama.
Dalam artikel ini, kita kembangkan suatu LTS berbeda yang menghindari asumsi sampel awal Bernoulli. Kita lakukan itu dengan perkiraan bahwa sebagian dari populasi yang terkait itu dicakup dengan frame sampling dari lokasi terakses dimana anggota populasi dapat ditemukan dengan peluang yang tinggi. Suatu sampel awal lokasi (clusters) terpilih dengan menggunakan suatu desain sampling berkelompok biasa dan seperti dalam LTS biasa, orang-orang dalam sampel awal diminta untuk menunjuk anggota lain dari populasi itu. Bagaimanapun, karena lokasi menjadi unit-unit sampling, sebagai ganti tracing links antara responden awal dan calon mereka, kita mengikuti links antara kelompok dalam sampel awal dan orang-orang yang dicalonkan dari kelompok ini. Di sini, seseorang yang dimaksud akan dicalonkan oleh suatu kelompok jika ada orang dalam kelompok mencalonkannya.
Struktur dari artikel adalah sebagai berikut. Pada bagian 2, kita menguraikan desian sampling yang diusulkan dan menyajikan beberapa notasi untuk digunakan di seluruh artikel. Berikutnya, pada bagian 3, kita menguraikan desain-based penaksir ukuran populasi yang dicakup oleh frame sampling dan yang tidak menggunakan informasi pencalonan. Pada bagian 4, disajikan dua model untuk peluang pencalonan, dan menurut masing-masing model kita memperoleh penaksir maksimum likelihood (MLE) ukuran populasi, dan juga model-based dan desain-based penaksir variansi mereka. Kemudian, pada bagian 5, kita menguraikan hasil dua studi simulasi yang dilaksanakan untuk menyelidiki capaian dari strategi sampling yang diusulkan. Terakhir, pada bagian 6, kita hadirkan beberapa keterangan akhir dan beberapa perluasan yang mungkin untuk proposal kita.
2. Desain dan Notasi sampling
Misal adalah suatu populasi manusia tersembunyi yang terbatas dari ukuran sampel t yang tidak diketahui. Kita akan berasumsi bahwa sebagian dari populasi dapat ditemukan dalam lokasi yang dapat diakses, seperti tempat-tempa kerja, rumah sakit, taman-taman, city-blocks, atau rumah tangga, dan bahwa daftar N lokasi yang dapat diakses itu dapat dibangun. Kita juga akan berasumsi bahwa bisa mendefinisikan suatu aturan operasional yang mengijinkan kita untuk menentukan ya atau tidaknya seseorang termasuk salah satu dari lokasi pada daftar, dan menyetujui kasus lokasi orang tersebut berada (seseorang hanya bisa berada dalam satu lokasi). Misal U1 adalah bagian dari U yang dicakup olah frame sampling (daftar), dan misal adalah ukurannya. Misal Ai adalah kelompok(lokasi) ke-i pada daftar dan misal mi adalah jumlah anggota populasi yang termasuk dalam Ai, i = 1,…,N, sehingga . Misal adalah bagian dari U tidak tercakup oleh frame sampling, dan misal adalah ukurannya (lihat gambar 1).
Berikut adalah desain sampling. Dengan menggunakan desain sampling acak sederhana tanpa pengembalian (SRSWOR) sampel S0 = {A1,…,An} dari n kelompok dipilih dari frame sampling. (Meskipun kita gunakan sebagai bagian terpenting bilangan 1,…,n, ini tidak berarti bahwa kelompok n pertama dari bagian ini adalah kelompok dalam sampel). Kita akan mengasumsikan bahwa masing-masing orang mi yang termasuk pada teridentifikasi. Jadi, jumlah orang dalam S0 adalah . Selanjutnya, orang-orang yang termasuk pada kelompok diminta untuk mencalonkan anggota lain dari luar populasi Ai; yaitu dalam . Prosedur pencalonan ini dilaksanakan pada setiap kelompok , dan kita akan berkata bahwa seseorang dicalonkan oleh sebuah kelompok jika satu dari anggota kelompok mencalonkannya. Kita akan mengasumsikan bahwa pencalonan dari kelompok yang berbeda dilaksanakan secara bebas, tetapi kita tidak berasumsi bahwa strategi pencalonan yang sama digunakan pada setiap kelompok. (Sebagai contoh, dalam kelompok Ai, anggota mi, sebagai suatu kelompok, mungkin diminta untuk mencalonkan anggota lain; sebaliknya, dalam kelompok Aj, tiap anggota mj secara terpisah diminta untuk mencalonkan anggota lain). Untuk setiap orang yang dicalonkan, kita akan mengasumsikan bahwa diperoleh informasi berikut : kelompok-kelompok yang mencalonkannya, dan apakah orang tersebut termasuk pada kelompok S0, atau pada kelompok bukan sampel (kelompok dalam U1 – S0), atau pada bagian yang tidak tercakup oleh frame sampling (U2) (lihat gambar 1).
Perlu diketahui bahwa desain sampling ini menyerupai Multiple Capture Recapture Sampling (MCRS). (Lihat Otis et al. (1978) dan International Working Group for Disease Monitoring and Forecasting (1995a, b) untuk tinjauan dari metodologi ini secara berturut-turut dalam konteks margasatwa dan populasi manusia). Untuk melihat ini, ingat bahwa dalam MCRS populasi terkait dicoba ke dalam sejumlah kesempatan yang ditentukan, dan elemen diputuskan di-capture (dicoba) dalam suatu kesempatan dan kemudian dirilis pada populasi sehingga mereka dapat di-capture dalam kesempatan yang berbeda. Jadi, kelompok dalam desian sampling kita dapat disamakan dengan sampling occasion dalam konteks MCRS. Dengan cara yang sama, orang-orang yang dicalonkan oleh kelompok dapat disamakan dengan elemen di-capture dalam sampling occasion, dan peluang bahwa orang tersebut dicalonkan oleh kelompok dapat disamakan dengan peluang bahwa sebuah elemen di-capture dalam suatu occasion. Lagipula, model yang sama digunakan dalam MCRS dapat ditentukan dalam kasus kita, oleh karenanya penaksir diperoleh dari model tersebut akan menyerupai yang digunakan dalam MCRS. Bagaimanapun, dalam desain kita, dipunyai dua kerumitan tambahan. Yang pertama adalah bahwa di sini kelompok dipilih secara acak, sebaliknya dalam MCRS sampling occasion adalah pasti. Yang kedua bahwa sampel awal kelompok dipilih dan oleh karenanya seseorang dapat termasuk dalam sampel akhir jika dia dicalonkan kelompok sampel, sebaliknya dalam MCRS, initial sampel tidak dipertimbangkan, oleh karena itu elemen ada dalam sampel hanya jika elemen itu di-capture dalam sampling occasion. Jadi, dua faktor ini memperkenalkan masalah yang tidak ditemukan dalam MCRS.
Kita akan mengakhiri bagian ini dengan memperkenalkan matriks x = [xij] dari variabel indikator xij, dimana xij = 1 jika orang dicalonkan oleh kelompok Ai, dan xij = 0 untuk lainnya. Karena kita tidak mempunyai frame sampling orang-orang, nama-nama individu tidak tampak; oleh karenanya, matriks x diketahui hanya sampai permutasi dari kolomnya. Untuk alasan ini, xij tidak akan digunakan untuk membuat kesimpulan tapi hanya untuk mendefinisikan model. Kesimpulan akan berdasar pada himpunan yang nampak dari perhitungan , dari orang-orang yang dicalonkan oleh setiap kelompok sampel Ai dengan i dalam himpunan , tapi tidak yang lainnya. (Sebagai contoh, jika = {1,3,9}, akan menjadi jumlah orang yang dicalonkan oleh hanya A1, A3, dan A9). Himpunan perhitungan akan ditunjukkan oleh y. Variabel lain akan digunakan dalam artikel ini, tapi mereka akan diperkenalkan saat dibutuhkan.
Link-tracing sampling (LTS) telah dianjurkan sebagai metodologi tepat untuk sampling populasi tersembunyi dan sulit dijangkau, seperti para pengguna obat-obatan, tunawisma, atau populasi pekerja yang tidak didokumentasi. Ide dasar dibalik metodologi sampling ini adalah dimulai dengan sampel initial(awal) orang-orang dari populasi terkait tersebut dan kemudian menambah ukuran sampel dengan meminta orang-orang dalam sampel awal untuk mencalonkan anggota lain dari populasi. Orang-orang yang dicalonkan mungkin bergiliran diminta untuk mencalonkan anggota-anggota lain dari populasi, dan seterusnya hingga suatu aturan berhenti yang ditetapkan memuaskan. (Lihat Spreen (1992) dan (Thompson dan Frank (2000) untuk uraian dan tinjauan yang lain dari metodologi sampling ini). Sebagai contoh, dalam sebuah studi pengguna obat suntik dalam hubungannya dengan resiko terinfeksi HIV, seorang pengguna obat seringkali dapat menunjuk peneliti untuk menyuntik dan mitra seksual dan orang lain dalam berhadapan dengan populasi yang beresiko, sehingga memulai dari sebuah sampel awal, sampel tersebut dapat dikembangkan dengan mengikuti jaringan sosial ini. Karena studi seperti itu, sampling link-tracing cenderung menghasilkan lebih besar sejumlah individu dari suatu populasi tersembunyi, jika dibandingkan dengan desain sampling lain.
Suatu karakteristik yang menarik dari LTS bahwa LTS mengijinkan peneliti untuk membuat kesimpulan model-based yang valid tentang sejumlah parameter populasi. Sebagai contoh, model-based menyangkut ukuran populasi telah dipertimbangkan oleh Frank dan Snijer (1994). Penulis-penulis ini sudah memperoleh sejumlah estimator menyangkut ukuran suatu populasi tersembunyi dari dua asumsi berikut : (i) Sampel awal adalah suatu sampel Bernoulli; bahwa orang-orang dengan bebas tercakup dalam sampel awal dan dengan peluang masuk yang sama. (ii) Orang-orang dengan bebas dicalonkan oleh orang-orang di dalam sampel awal dan pencalonan dibuat dengan peluang yang sama. Model lain dan kesimpulan tentang parameter lain telah dipertimbangkan oleh penulis lain; untuk tinjauannya lihat Thompson dan Frank (2000).
Walaupun kesimpulan model-based valid dapat dibuat menggunakan LTS, satu masalah adalah bahwa asumsi model mungkin tidak realistis. Sebagai contoh, di dalam studi nyata asumsi (i) Frank dan Snijders (1994) sering dilanggar sebab peneliti sering menyelesaikan perekrutan awal dengan menggunakan pusat kesehatan atau pos polisi, sehingga anggota populasi tersembunyi mungkin tidak ditemui dengan bebas atau dengan peluang yang sama.
Dalam artikel ini, kita kembangkan suatu LTS berbeda yang menghindari asumsi sampel awal Bernoulli. Kita lakukan itu dengan perkiraan bahwa sebagian dari populasi yang terkait itu dicakup dengan frame sampling dari lokasi terakses dimana anggota populasi dapat ditemukan dengan peluang yang tinggi. Suatu sampel awal lokasi (clusters) terpilih dengan menggunakan suatu desain sampling berkelompok biasa dan seperti dalam LTS biasa, orang-orang dalam sampel awal diminta untuk menunjuk anggota lain dari populasi itu. Bagaimanapun, karena lokasi menjadi unit-unit sampling, sebagai ganti tracing links antara responden awal dan calon mereka, kita mengikuti links antara kelompok dalam sampel awal dan orang-orang yang dicalonkan dari kelompok ini. Di sini, seseorang yang dimaksud akan dicalonkan oleh suatu kelompok jika ada orang dalam kelompok mencalonkannya.
Struktur dari artikel adalah sebagai berikut. Pada bagian 2, kita menguraikan desian sampling yang diusulkan dan menyajikan beberapa notasi untuk digunakan di seluruh artikel. Berikutnya, pada bagian 3, kita menguraikan desain-based penaksir ukuran populasi yang dicakup oleh frame sampling dan yang tidak menggunakan informasi pencalonan. Pada bagian 4, disajikan dua model untuk peluang pencalonan, dan menurut masing-masing model kita memperoleh penaksir maksimum likelihood (MLE) ukuran populasi, dan juga model-based dan desain-based penaksir variansi mereka. Kemudian, pada bagian 5, kita menguraikan hasil dua studi simulasi yang dilaksanakan untuk menyelidiki capaian dari strategi sampling yang diusulkan. Terakhir, pada bagian 6, kita hadirkan beberapa keterangan akhir dan beberapa perluasan yang mungkin untuk proposal kita.
2. Desain dan Notasi sampling
Misal adalah suatu populasi manusia tersembunyi yang terbatas dari ukuran sampel t yang tidak diketahui. Kita akan berasumsi bahwa sebagian dari populasi dapat ditemukan dalam lokasi yang dapat diakses, seperti tempat-tempa kerja, rumah sakit, taman-taman, city-blocks, atau rumah tangga, dan bahwa daftar N lokasi yang dapat diakses itu dapat dibangun. Kita juga akan berasumsi bahwa bisa mendefinisikan suatu aturan operasional yang mengijinkan kita untuk menentukan ya atau tidaknya seseorang termasuk salah satu dari lokasi pada daftar, dan menyetujui kasus lokasi orang tersebut berada (seseorang hanya bisa berada dalam satu lokasi). Misal U1 adalah bagian dari U yang dicakup olah frame sampling (daftar), dan misal adalah ukurannya. Misal Ai adalah kelompok(lokasi) ke-i pada daftar dan misal mi adalah jumlah anggota populasi yang termasuk dalam Ai, i = 1,…,N, sehingga . Misal adalah bagian dari U tidak tercakup oleh frame sampling, dan misal adalah ukurannya (lihat gambar 1).
Berikut adalah desain sampling. Dengan menggunakan desain sampling acak sederhana tanpa pengembalian (SRSWOR) sampel S0 = {A1,…,An} dari n kelompok dipilih dari frame sampling. (Meskipun kita gunakan sebagai bagian terpenting bilangan 1,…,n, ini tidak berarti bahwa kelompok n pertama dari bagian ini adalah kelompok dalam sampel). Kita akan mengasumsikan bahwa masing-masing orang mi yang termasuk pada teridentifikasi. Jadi, jumlah orang dalam S0 adalah . Selanjutnya, orang-orang yang termasuk pada kelompok diminta untuk mencalonkan anggota lain dari luar populasi Ai; yaitu dalam . Prosedur pencalonan ini dilaksanakan pada setiap kelompok , dan kita akan berkata bahwa seseorang dicalonkan oleh sebuah kelompok jika satu dari anggota kelompok mencalonkannya. Kita akan mengasumsikan bahwa pencalonan dari kelompok yang berbeda dilaksanakan secara bebas, tetapi kita tidak berasumsi bahwa strategi pencalonan yang sama digunakan pada setiap kelompok. (Sebagai contoh, dalam kelompok Ai, anggota mi, sebagai suatu kelompok, mungkin diminta untuk mencalonkan anggota lain; sebaliknya, dalam kelompok Aj, tiap anggota mj secara terpisah diminta untuk mencalonkan anggota lain). Untuk setiap orang yang dicalonkan, kita akan mengasumsikan bahwa diperoleh informasi berikut : kelompok-kelompok yang mencalonkannya, dan apakah orang tersebut termasuk pada kelompok S0, atau pada kelompok bukan sampel (kelompok dalam U1 – S0), atau pada bagian yang tidak tercakup oleh frame sampling (U2) (lihat gambar 1).
Perlu diketahui bahwa desain sampling ini menyerupai Multiple Capture Recapture Sampling (MCRS). (Lihat Otis et al. (1978) dan International Working Group for Disease Monitoring and Forecasting (1995a, b) untuk tinjauan dari metodologi ini secara berturut-turut dalam konteks margasatwa dan populasi manusia). Untuk melihat ini, ingat bahwa dalam MCRS populasi terkait dicoba ke dalam sejumlah kesempatan yang ditentukan, dan elemen diputuskan di-capture (dicoba) dalam suatu kesempatan dan kemudian dirilis pada populasi sehingga mereka dapat di-capture dalam kesempatan yang berbeda. Jadi, kelompok dalam desian sampling kita dapat disamakan dengan sampling occasion dalam konteks MCRS. Dengan cara yang sama, orang-orang yang dicalonkan oleh kelompok dapat disamakan dengan elemen di-capture dalam sampling occasion, dan peluang bahwa orang tersebut dicalonkan oleh kelompok dapat disamakan dengan peluang bahwa sebuah elemen di-capture dalam suatu occasion. Lagipula, model yang sama digunakan dalam MCRS dapat ditentukan dalam kasus kita, oleh karenanya penaksir diperoleh dari model tersebut akan menyerupai yang digunakan dalam MCRS. Bagaimanapun, dalam desain kita, dipunyai dua kerumitan tambahan. Yang pertama adalah bahwa di sini kelompok dipilih secara acak, sebaliknya dalam MCRS sampling occasion adalah pasti. Yang kedua bahwa sampel awal kelompok dipilih dan oleh karenanya seseorang dapat termasuk dalam sampel akhir jika dia dicalonkan kelompok sampel, sebaliknya dalam MCRS, initial sampel tidak dipertimbangkan, oleh karena itu elemen ada dalam sampel hanya jika elemen itu di-capture dalam sampling occasion. Jadi, dua faktor ini memperkenalkan masalah yang tidak ditemukan dalam MCRS.
Kita akan mengakhiri bagian ini dengan memperkenalkan matriks x = [xij] dari variabel indikator xij, dimana xij = 1 jika orang dicalonkan oleh kelompok Ai, dan xij = 0 untuk lainnya. Karena kita tidak mempunyai frame sampling orang-orang, nama-nama individu tidak tampak; oleh karenanya, matriks x diketahui hanya sampai permutasi dari kolomnya. Untuk alasan ini, xij tidak akan digunakan untuk membuat kesimpulan tapi hanya untuk mendefinisikan model. Kesimpulan akan berdasar pada himpunan yang nampak dari perhitungan , dari orang-orang yang dicalonkan oleh setiap kelompok sampel Ai dengan i dalam himpunan , tapi tidak yang lainnya. (Sebagai contoh, jika = {1,3,9}, akan menjadi jumlah orang yang dicalonkan oleh hanya A1, A3, dan A9). Himpunan perhitungan akan ditunjukkan oleh y. Variabel lain akan digunakan dalam artikel ini, tapi mereka akan diperkenalkan saat dibutuhkan.
3. Penaksir Desain-based
Karena desain sampling yang digunakan untuk memilih sample awal S0, kita tahu bahwa adalah penaksir desain-unbiased dari . Variansi desain-based dari adalah
Dan penaksir desain-unbiased adalah
Penaksir dan mempunyai sifat yang menarik yang bebas dari asumsi model; yaitu tanpa memperhatikan proses stokastik yang membangun mi, dan harus penaksir yang layak dari dan , secara berturut-turut. Bagaimanapun, kita tidak mengharapkan menjadi penaksir efisien dari , karena itu tidak memasukkan informasi tentang pencalonan yang dimuat dalam variabel .