A problem in classification i.e. labels are discrete
Binary class data set is imbalanced if YES and NO classes (i.e., the labels of data points in the set) are not 50/50 (or 60/40) in terms of the number of data points.
A dataset is marginally imbalanced if one class is rare compared to the other class.
สมมติให้ data set มี 2 classes Class A มีจำนวน 90 เปอร์เซ็นต์ Class B มีจำนวน 10 เปอร์เซ็นต์ ถ้าไม่แก้ปัญหา imbalance แล้วใช้วิธีแล้วใช้วิธี Random ให้ 90% อยู่ใน A จะได้ accuracy 91% แต่ถ้าพยากรณ์ถูกหมดทั้ง A & B (อาจใช้over/undersampling ช่วย) จะได้ accuracy 100%