Pengklasifikasi
Ⅰ. Pengantar Dasar
1. Apa itu Pengklasifikasi
Pengklasifikasi adalah istilah umum untuk mengklasifikasikan sampel dalam data mining. Untuk memberi Anda gambaran intuitif tentang klasifikasi, mari kita lihat dua contoh:
Pengenalan anggur: kami mengukur warna (panjang gelombang) dan konsentrasi alkohol dari sebotol anggur. Berdasarkan data ini, mesin harus menentukan apakah botol itu bir, anggur merah, atau alkohol.
Penilaian penyakit: pasien pergi ke rumah sakit untuk melakukan banyak tes seperti tes fungsi hati, tes darah. Input data ini ke dalam mesin, dan mesin akan menentukan apakah pasien sakit dan penyakit apa yang dideritanya berdasarkan data tersebut.
Mesin ini, yang secara otomatis dapat mengklasifikasikan masukan, disebut pengklasifikasi.
Bagi manusia, kita mungkin dapat membuat identifikasi sederhana tentang alkohol dengan mata kita, tetapi tidak mudah untuk menilai penyakit. Pada titik ini, jika ada pengklasifikasi untuk penilaian penyakit, kita hanya perlu memasukkan data pengujian yang sesuai, dan penilaian dapat diperoleh.
Apa yang dapat dilakukan pengklasifikasi berdasarkan kecerdasan buatan lebih dari sekadar penilaian penyakit. Itu dapat mencapai penilaian yang lebih kompleks dengan lebih banyak fitur. Untuk komputer, penyimpanan dan komputasi adalah keunggulan mereka. Dengan pengklasifikasi yang begitu kuat, kecerdasan buatan dapat membantu kita melakukan hampir semua penilaian kompleks di masa depan. Manfaatkan kecerdasan buatan dengan lebih baik, Anda bisa mendapatkan kesempatan pertama di masa depan.
Ada banyak cara untuk mengimplementasikan pengklasifikasi, salah satunya dengan pembelajaran mendalam berbasis jaringan saraf.
2. Prinsip Pengklasifikasi AI (Jaringan Saraf)
Model jaringan saraf berasal dari algoritma yang mencoba membuat mesin meniru otak, menghubungkan neuron yang meniru neuron untuk membentuk citra jaringan.
Seperti gambar dibawah ini:
Jaringan saraf lengkap terdiri dari lapisan masukan (4 unit masukan), lapisan tersembunyi (2 lapisan, 4 dan 3 unit tersembunyi) dan lapisan keluaran (2 unit keluaran).
Input layer : masukan fitur yang perlu diprediksi.
Sebagai contoh:
Dalam pengenalan anggur, fitur
anggur adalah yang warna konsentrasi dan alkohol;
Dalam penilaian penyakit, ciri-ciri penyakit adalah banyak data.
Hidden layer : melalui struktur lapisan tersembunyi yang kompleks, fitur-fitur penting dalam data masukan diekstraksi, dan hasilnya ditransmisikan ke lapisan keluaran.
Lapisan tersembunyi dapat berupa lapisan tunggal atau lapisan banyak, dengan jumlah neuron tertentu di setiap lapisan.
Output layer: lapisan dengan hasil klasifikasi keluaran yang berbeda disebut dengan lapisan keluaran.
Sebagai contoh:
Dalam pengenalan anggur, hasil keluarannya adalah bir, anggur merah, dan minuman keras;
Dalam penilaian penyakit, hasil keluarannya sehat, dingin, demam, dll.
Singkatnya, seluruh jaringan saraf mengumpulkan informasi melalui lapisan masukan, menggunakan lapisan tersembunyi untuk menjalankan operasi dan memproses informasi, dan mengeluarkan hasil klasifikasi ke lapisan keluaran. Dengan demikian fungsi pengklasifikasi terwujud.
3. Pelatihan dan Prediksi Jaringan Neural
Pengklasifikasi perlu dilatih untuk memprediksi hasil klasifikasi secara kasar.
Misalnya:
Siapa yang lebih mampu membedakan anggur, orang yang belum pernah melihat anggur, atau orang yang memiliki pengetahuan yang baik tentang anggur?
- Jawabannya jelas yang terakhir. Seseorang yang telah meminum banyak anggur dan memiliki banyak penelitian tentangnya, mengetahui jenis dan rasa anggur tersebut. Semakin banyak dia minum, semakin banyak jenis anggur yang dia ketahui.
Demikian pula untuk pengklasifikasi, perlu terus dilatih dengan sejumlah besar data pelatihan. Setiap grup data pelatihan perlu memuat semua fitur dan kategori klasifikasi.
Ini seperti melatih pria yang tidak tahu cara minum. Setelah berlatih cukup lama, dia bisa mengetahui jenis anggur.
Akurat tidaknya hasil prediksi tersebut terkait dengan struktur jaringan saraf, jumlah waktu pelatihan, dan bahkan beberapa faktor acak dalam pelatihan.
Ⅱ. Blok Pengklasifikasi
1.Matrix data
Data dapat digunakan untuk mengakses langsung baris atau kolom tertentu dari sebuah matriks
Ada dua jenis data matriks:
- Data terkait dalam bentuk excel yang diupload oleh pengguna sistem akan menyimpan data sebagai data matriks, yaitu, himpunan dua dimensi.
- Dalam rangka untuk dapat pengguna untuk mempelajari dan menggunakan blok lebih mudah, sistem prafabrik empat kelompok data pelatihan: UpDown -Distribusi-Matrix, LeftRight -Distribusi-Matrix, Round-Distribusi-Matrix dan Spiral-Distribusi-Matrix, yang disimpan sebagai data matriks
2. Siapkan fitur pelatihan dan data klasifikasi
- Fitur pelatihan harus berupa angka, jika tidak maka akan diabaikan oleh sistem.
Data klasifikasi: data dapat berupa angka atau string, sistem akan secara otomatis mengidentifikasi jumlah kategori. (Lapisan keluaran saat ini hanya mendukung dua kategori, jika tidak maka tidak dapat dijalankan .) )
- Sebagai contoh: Seperti gambar 1, ini adalah struktur data pelatihan yang khas. Dalam matriks ini, setiap baris adalah sekumpulan data.
Data dalam bingkai merah adalah satu set data berikut: Data 1. Nilai dalam A1 (20.45) dan B1 (14.75) adalah dua fitur Data 1. Data pada C1 merupakan keluaran hasil klasifikasi dari Data 1.
Seluruh matriks dibentuk oleh fitur pelatihan dan klasifikasi semua set. Daftar A dan Daftar B adalah fitur pelatihan, dan Daftar C adalah hasil klasifikasi di bawah fitur ini: titik biru dan titik merah.
Dua penggunaan standar blok data pelatihan:
- 1.Formulir daftar
Buat daftar baru di Data di sidebar:
Data daftar dapat dipanggil secara langsung dengan memasukkan data yang sesuai:
- 2.Bentuk matrix
Unggah file excel lokal atau gunakan 4 data matriks yang dibuat sebelumnya oleh sistem.
Data dapat dipanggil oleh blok ini.
3. Struktur jaringan saraf (blok lapisan MLP)
Setel struktur lapisan tersembunyi jaringan saraf.
Lapisan tersembunyi dapat berupa satu lapisan atau beberapa lapisan. Struktur lapisan tersembunyi yang berbeda dari jaringan saraf memiliki efek yang berbeda pada hasil pelatihan akhir.
4. Algoritma propagasi balik (blok pelatihan)
Gunakan algoritme khusus untuk melatih sekumpulan data pelatihan, dan simpan sebagai model.
- Waktu pelatihan untuk satu blok adalah 20. Pengulangan blok diperlukan untuk pelatihan lebih dari 20 kali.
Dalam pelatihan, informasi pelatihan yang relevan akan ditampilkan di atas panggung.
- Jika lapisan masukan (fitur pelatihan) adalah 2, gambar pelatihan dengan prediksi model akan muncul.
- Jika lapisan masukan (fitur pelatihan) bukan 2, gambar prediksi tidak dapat ditampilkan.
- Saat jumlah pelatihan meningkat, model yang diprediksi menjadi lebih akurat:
5. Blok prediksi
Simpan data yang dilatih sebagai model dan prediksi fitur masukan baru.
- Harap diperhatikan: jumlah fitur yang diprediksi harus konsisten dengan data pelatihan asli, jika tidak, hasilnya tidak dapat diprediksi.
Hasil prediksi dalam dua bentuk:
Klasifikasikan hasil
Fungsi: menampilkan langsung hasil prediksi klasifikasi, dan mengeluarkannya dalam bentuk variabel.
Pola:
Klasifikasikan kemungkinan
Fungsi: menunjukkan kemungkinan hasil klasifikasi yang berbeda dalam kumpulan fitur, dan menampilkannya dalam bentuk daftar.
Pattern