Information entropy is a measure of uncertainty in an event. The higher the entropy, the less predictable the information and the more "surprised" you'd be by the outcome. It's like a measure of how much information you actually need to convey the sample space of the event, on average. By average, it means the "expected value" (see my post Average vs Expected value) or expected amount of information you need to encode the sample space of event. (The expected value is a form of average value but calculated from probability rather than straigntforwardly dividing by N.)
Formula
ในการทอยเหรียญ 1 เหรียญ ความน่าจะเป็นในการออกหัวคือ 0.7 ออกก้อยคือ 0.3 จึงคำนวณ H(X) ได้เป็น -(0.7log_2(0.7)+0.3log_2(0.3)) = 0.8816 นี่คือความไม่แน่นอนเฉลี่ยของการทอยเหรียญอันนี้ หรือกล่าวอีกนัยหนึ่งต้องใช้บิทจำนวน 0.8816 บิท (2^0.8816) ในการ encode เหตุการณ์นี้ซึ่งจะออกเป็นหัว 0.7 ก้อย 0.3 แต่ถ้าเป็นเหรียญที่ fair คือโอกาสออกหัวและก้อยเท่ากันคือ 0.5 จะได้ H(X) =1 คือใช้ 1 บิท (2^1 = 2 ค่าที่อาจเกิดขึ้นในการทอย)