วันศุกร์ที่ 26 เมษายน พ.ศ. 2567

วันพุธที่ 24 เมษายน พ.ศ. 2567

Well-known Thai hosted conferences

IC2IT & NCCIT ปิดรับบทความกลาง มค และกลาง มีค ตามลำดับ

ECTI-CON ปิดรับบทความสิ้น มค

JCSSE ปิดรับบทความต้น เมย

INCIT & NCIT ปิดรับบทความสิ้น สค และกลาง กย ตามลำดับ

วันจันทร์ที่ 22 เมษายน พ.ศ. 2567

Widely used hashing algorithm

The most commonly used hashing algorithm is SHA-256 (Secure Hash Algorithm 256). It is widely used for cryptographic security and data integrity verification in various applications, including digital signatures, SSL/TLS certificates, and blockchain technology.

Vulnerabilities of MD5 (hash value is 128 bits) 

1. Collision Vulnerabilities: MD5 is susceptible to collision attacks, where two different inputs produce the same hash. This poses a severe security risk, particularly in applications like digital signatures.

2. Preimage Attacks: Attackers can reverse-engineer the hash to find an input that matches a given MD5 hash, compromising data security.

3. Speed: The speed at which MD5 can generate hashes makes it susceptible to brute force attacks.

cf. https://medium.com/@techclaw/exploring-the-power-and-vulnerabilities-of-the-md5-algorithm-feb249ef9dfb#:~:text=MD5%20is%20susceptible%20to%20collision,in%20applications%20like%20digital%20signatures.


ใช้สร้างโมเดล 3 มิติจากภาพถ่ายเพื่อไปหมุนดูบนจอหรือในแว่นตา VR


วันอาทิตย์ที่ 21 เมษายน พ.ศ. 2567

Percentile vs Quartile in Academic publication

  • เลข percentile ยิ่งมากยิ่งดี เพราะเป็นพื้นที่ใต้กราฟ normal distribution เริ่มจากซ้ายสุดของกราฟไปทางขวา ในการจัดอันดับวารสารและรายงานประชุมวิชาการ เลข percentile ยิ่งเยอะยิ่งดี
  • Q1 = 25th percentile, Q2 = 50th percentile, Q3 = 75th percentile, Q4 = 100th percentile จริงๆเลข Quartile ยิ่งเยอะยิ่งดี แต่ในการจัดคุณภาพวารสารเลข Quartile ยิ่งน้อยกลับยิ่งดี

วันอังคารที่ 9 เมษายน พ.ศ. 2567

Low code development platform




Information entropy

Information entropy is a measure of uncertainty in an event.  The higher the entropy, the less predictable the information and the more "surprised" you'd be by the outcome. It's like a measure of how much information you actually need to convey the sample space of the event, on average. By average, it means the "expected value" (see my post Average vs Expected value) or expected amount of information you need to encode the sample space of event. (The expected value is a form of average value but calculated from probability rather than straigntforwardly dividing by N.)


H(X) คือระดับความไม่แน่นอนของเหตุการณ์ X ซึ่งเป็นการทอยเหรียญ 1 เหรียญ และค่าที่เป็นไปได้มี 2 ค่าคือ {หัว,ก้อย} นี่คือ X ใต้ sigma

ในการทอยเหรียญ 1 เหรียญ ความน่าจะเป็นในการออกหัวคือ 0.7 ออกก้อยคือ 0.3 จึงคำนวณ H(X) ได้เป็น -(0.7log_2(0.7)+0.3log_2(0.3)) = 0.8816 นี่คือความไม่แน่นอนเฉลี่ยของการทอยเหรียญอันนี้ หรือกล่าวอีกนัยหนึ่งต้องใช้บิทจำนวน 0.8816 บิท (2^0.8816) ในการ encode เหตุการณ์นี้ซึ่งจะออกเป็นหัว 0.7 ก้อย 0.3  แต่ถ้าเป็นเหรียญที่ fair คือโอกาสออกหัวและก้อยเท่ากันคือ 0.5 จะได้ H(X) =1 คือใช้ 1 บิท (2^1 = 2 ค่าที่อาจเกิดขึ้นในการทอย)

Average VS Expected value

  •  Expected Value is used in case of Random Variables (or in other words Probability Distributions). Since, the average is defined as the sum of all the elements divided by the sum of their frequencies. But for the case of Probability distribution we can't describe a random variable in terms of its frequency beforehand, thus we use the probability instead. Conceptually, probability of an element is frequency of an event divided by size of sample space (N). Thus, the average in case of random variable can be given by sum of probabilities multiplied by its respective event (where p(x)*x is conceptually frequency of x divided by total frequency).
  • Average on the other hand is used in case where we have the knowledge of frequencies of individual elements and total count of the elements, for example, in case of known data set or sample. We can simply use the fundamental definition of average to calculate it.

  • สรุปว่า Average คือค่าเฉลี่ยที่คำนวณเมื่อรู้ N และจำนวน (frequency) ที่ชัดเจนของแต่ละค่าเหตุการณ์ เช่นมีคนได้คะแนน 85 สองคน (freq=2) 84 หนึ่งคน (freq=1) 82 ห้าคน (freq=5) ... ส่วน Expected value คือค่าเฉลี่ยที่คำนวณจากความน่าจะเป็นของแต่ละค่าเหตุการณ์เพราะไม่รู้จำนวนที่ชัดเจน

วันจันทร์ที่ 25 มีนาคม พ.ศ. 2567

วันพุธที่ 13 มีนาคม พ.ศ. 2567

Encountered problems during the uses of well-known LLM services

ChatGPT and Gemini generated wrong python codes but insisted on correction. So humans are still needed to detect any hallucination.

They are having the legal cases on copyrighted contents used in model training e.g. HarryPotter and Newspapers.

They are actually not only large language model (LLM) but also ML as they can do clustering and prediction, for example.

วันอังคารที่ 12 มีนาคม พ.ศ. 2567

Create a correlation Matrix using Python


hyper parameter vs model parameter

 Model parameters constitute models to encode data patterns while hyperparameters control how the models are training. The latter are set manually to tune the model training.

Model in K-means

  • Model parameters are the cluster centroids/means.
  • Model outputs are the cluster assignments for each data point.

วันศุกร์ที่ 23 กุมภาพันธ์ พ.ศ. 2567

Why does some field has lots of publications a year?

Because their contributions (e.g. in bioscience field) come from new data sets and analyzed by existing methods. Unlike computer science field, the contributions come from new algorithms and proved by existing data sets.

วันพฤหัสบดีที่ 22 กุมภาพันธ์ พ.ศ. 2567

Ensemble learning

 Ensemble methods use multiple learning algorithms to obtain better predictive performance than could be obtained from any of the constituent learning algorithms alone. Example in CNN : https://towardsdatascience.com/ensembling-convnets-using-keras-237d429157eb

Ensemble architecture:
Decision functions:

The key components of ensemble learning include:

  1. Base Learners (Base Models): These are the individual models that comprise the ensemble. They can be of any type, such as decision trees, neural networks, support vector machines, or any other machine learning algorithm.

  2. Ensemble Methods: These are the techniques used to combine the predictions of the base learners. Some common ensemble methods include:

    • Voting: Combining predictions by majority voting (for classification) or averaging (for regression).
    • Bagging (Bootstrap Aggregating): Training multiple base learners on different subsets of the training data, usually sampled with replacement, and then combining their predictions.
    • Boosting: Building a sequence of base learners where each subsequent learner focuses on the examples that previous learners found difficult, giving higher weight to misclassified instances.
    • Stacking: Training a meta-model (or blender) on the predictions of multiple base learners to make the final prediction.
  3. Diversity: Ensuring that the base learners are diverse, meaning they make different types of errors on the data. This diversity is crucial for the ensemble to outperform individual models. It can be achieved through using different algorithms, different subsets of the data, or different hyperparameters.

  4. Aggregation Strategy: This determines how the predictions of the base learners are combined to produce the final output. Common aggregation strategies include averaging, weighted averaging, or selecting the most frequent prediction.

    Majority Voting: For classification tasks, each base learner's prediction is considered as a "vote," and the final prediction is determined by the majority of votes. This is particularly effective when the base learners have similar performance.
    Weighted Voting: Each base learner's prediction is weighted based on its confidence or performance, and the final prediction is a weighted sum or average of these predictions.


Simple Average: The predictions of all base learners are averaged to produce the final prediction. This is commonly used in regression tasks.
    Weighted Average: Similar to weighted voting, but the weights are assigned based on the performance or confidence of each base learner.

    Stacking (Meta-Learning):

Base learners' predictions are used as features to train a higher-level model (meta-model or blender). The meta-model learns how to best combine the predictions of base learners to make the final prediction. This approach can capture more complex relationships between the base learners' predictions.

    Bagging (Bootstrap Aggregating):

Base learners are trained on different subsets of the training data, typically sampled with replacement. The final prediction is often the average (for regression) or majority vote (for classification) of the predictions of all base learners. Random Forest is a popular example of a bagging ensemble method using decision trees as base learners.


Base learners are trained sequentially, with each subsequent learner focusing on the examples that previous learners found difficult. The final prediction is a weighted sum of the predictions of all base learners. Gradient Boosting Machines (GBMs), AdaBoost, and XGBoost are examples of boosting algorithms.

    Rank Aggregation:

In tasks such as recommender systems or search engines, where the goal is to rank items, rank aggregation methods are used to combine the rankings produced by different algorithms into a single ranking that best represents the preferences of the users.
    Evaluation Metric: The metric used to evaluate the performance of the ensemble. Depending on the task (classification, regression, etc.), different evaluation metrics such as accuracy, precision, recall, F1-score, mean squared error (MSE), etc., can be used.
  1. Hyperparameters: Ensemble methods often have hyperparameters that need to be tuned for optimal performance. These may include the number of base learners, learning rates (for boosting algorithms), maximum tree depth (for decision tree-based methods), etc.

วันศุกร์ที่ 16 กุมภาพันธ์ พ.ศ. 2567

Arduino Board VS ESP32 VS Node MCU VS Raspberry Pi


All are microcontroller boards except Nodemcu that is an open-source firmware and development kit based on esp8266&32.

วันพฤหัสบดีที่ 15 กุมภาพันธ์ พ.ศ. 2567

7billion parameter language model


ต่อยอดมาจาก Mistral 7B
