คือการ normalize output ของแต่ละ node เป็นค่า standardized values และเนื่องจากค่า standardized value = (x-mean)/SD ค่า mean & SD จะคำนวนมาจาก node ที่อยู่ใน layer เดียวกัน
Because the normalizatin occurs on a per batch basis, hence the name batch normalization. The batch size is a number of samples processed before the model is updated. The number of epochs is the number of complete passes through the training dataset. The size of a batch must be more than or equal to one and less than or equal to the number of samples in the training dataset.
ประโยชน์คือทำให้การ train เร็วขึ้น เพราะค่า output ของแต่ละ node ไม่ต่างกันมากไป