วันพฤหัสบดีที่ 4 มิถุนายน พ.ศ. 2569

Good LLM Prompt Structure

"RCTCFE"

1. Role / Persona

Establish who the AI should act as to give it the right mindset and tone. 
  • Example: "You are an expert digital marketer..."
2. Context
Provide background information, the target audience, and the current situation. 
  • Example: "...launching a new SaaS tool aimed at freelance designers. My audience struggles with client interruptions." 
3. Task
Clearly state exactly what you want the AI to do. 
  • Example: "Write a 400-word LinkedIn post promoting the launch."
4. Constraints
Set the boundaries, rules, or things the AI must avoid to keep it on track. 
  • Example: "Keep the tone encouraging, avoid overly technical jargon, and don't make the reader feel guilty."
5. Format & Output Requirements
Specify how the final answer should look or be organized (e.g., word count, bullet points, or structure). 
  • Example: "Structure it with a catchy hook in the first paragraph, three main bullet points for benefits, and a clear call-to-action."
6. Examples (Optional but highly recommended)
Provide one or two examples of input and ideal output so the AI can mimic the exact style you want.

วันอังคารที่ 2 มิถุนายน พ.ศ. 2569

อริยบุคคล




 

Semi-supervised learning

A machine learning technique that trains an algorithm using a small amount of labeled data and a large amount of unlabeled data. It bridges the gap between supervised learning (using only labeled data) and unsupervised learning (using only unlabeled data). [1, 2, 3]

How It Works
Instead of requiring manual annotations for every single piece of data, the process generally unfolds in a few steps:
  1. Initial Training: The model is first trained on the small, available dataset of human-labeled data.
  2. Pseudo-Labeling: The partially trained model then analyzes the massive pool of unlabeled data, assigning "pseudo-labels" to its own highest-confidence predictions.
  3. Refinement:  The algorithm retrains itself on this combined set of human-labeled and machine-labeled data, continuously improving its accuracy.



วันอาทิตย์ที่ 24 พฤษภาคม พ.ศ. 2569

Word2vec

Summary of how Word2Vec operates:

1. **Build the Vocabulary:** It scans the text to create a **Vocabulary ($V$)** of all unique words. Every word is initially represented as a massive, empty $V$-dimensional "one-hot" vector (all zeros and a single `1` at its unique index).

2. **Set the Target:** It sets a dense vector size **$N$** (usually 100–300 dimensions) and sets up a weight matrix (**Matrix $W$**, sized $V \times N$) containing one row for every word in the vocabulary.

3. **Slide and Predict:** A sliding window moves across the text. Using an MLP neural network, it passes a target word's index through Matrix $W$ to guess its surrounding context words (Skip-gram), or vice versa (CBOW).

4. **Update Weights:** The network compares its guess to the actual words in the text, calculates the error, and uses backpropagation to tweak the weights in Matrix $W$. Words used in similar contexts are pulled closer together in the $N$-dimensional space.

5. **Extract the Result:** Once training finishes, the neural network's prediction layers are thrown away. Matrix $W$ is kept as the final lookup table, where every word in the **Vocabulary** maps to a meaningful, dense $N$-dimensional vector.

ทฤษฎีชโลดิงเจอร์

 **ทฤษฎีชโลดิงเจอร์ (Schrödinger's Theory)** หรือที่รู้จักกันดีในนาม **กลศาสตร์ควอนตัมแบบคลื่น (Wave Mechanics)** เป็นหนึ่งในเสาหลักที่สำคัญที่สุดของฟิสิกส์ควอนตัมครับ ทฤษฎีนี้เปลี่ยนวิธีที่เรามองโลกขนาดอะตอมไปอย่างสิ้นเชิง

ถ้าจะสรุปให้เห็นภาพชัดๆ ว่ามันเกี่ยวกับควอนตัมยังไง มันเชื่อมโยงผ่าน 3 แนวคิดหลักนี้ครับ:

### 1. อนุภาคก็เป็น "คลื่น" (Wave-Particle Duality)

ก่อนหน้านี้ หลุยส์ เดอ บรอย (Louis de Broglie) เสนอไอเดียว่าสิ่งเล็กๆ อย่างอิเล็กตรอนไม่ได้เป็นแค่ก้อนอนุภาควิ่งไปมา แต่มีคุณสมบัติเป็นคลื่นด้วย

เอร์วิน ชเรอดิงเงอร์ (Erwin Schrödinger) เลยเอาไอเดียนี้มาต่อยอด โดยคิดค้นสมบัติทางคณิตศาสตร์เพื่ออธิบายพฤติกรรมคลื่นของอิเล็กตรอน จนเกิดเป็น **"สมการชเรอดิงเงอร์" (Schrödinger Equation)** ซึ่งเปรียบเสมือนกฎนิวตันของโลกควอนตัม

### 2. ฟังก์ชันคลื่น (\psi) และความน่าจะเป็น

ในโลกที่เรามองเห็น (กลศาสตร์คลาสสิก) เราสามารถบอกได้แม่นยำว่าวัตถุอยู่ที่ไหนและกำลังวิ่งไปด้วยความเร็วเท่าไหร่ แต่ในโลกควอนตัม ชเรอดิงเงอร์บอกว่าเราทำแบบนั้นไม่ได้!

สิ่งที่สมการของเขาให้มาคือค่า **ฟังก์ชันคลื่น (Wave Function)** หรือสัญลักษณ์ \psi (Psi) ซึ่งตัวมันเองไม่ได้บอกตำแหน่งดิ้งๆ ของอิเล็กตรอน แต่เมื่อนำไปหาค่าความน่าจะเป็น (ผ่านการยกกำลังสอง |\psi|^2) มันจะบอกว่า **"มีโอกาสเจออิเล็กตรอนตรงไหนมากที่สุด"**

 * แทนที่อิเล็กตรอนจะโคจรเป็นเส้นวงกลมรอบนิวเคลียสเหมือนดาวเคราะห์รอบดวงอาทิตย์ มันกลับอยู่กันเป็น **"กลุ่มหมอกอิเล็กตรอน" (Electron Cloud)** ที่มีความหนาแน่นตามค่าความน่าจะเป็นนั่นเอง

### 3. การซ้อนทับกันทางควอนตัม (Quantum Superposition)

นี่คือสิ่งที่ทำให้ทฤษฎีนี้โด่งดังและชวนปวดหัวที่สุด ชเรอดิงเงอร์อธิบายว่า ตราบใดที่เรายังไม่ได้เข้าไป "วัด" หรือ "สังเกตการณ์" ระบบควอนตัม ระบบนั้นจะอยู่ในสถานะที่เรียกว่า **Superposition** คือเป็นไปได้ทุกอย่างพร้อมๆ กัน

**สรุปสั้นๆ:** ทฤษฎีของชเรอดิงเงอร์เปลี่ยนการมองธรรมชาติจาก "ความแน่นอนตายตัว" ให้กลายเป็น **"โลกแห่งความน่าจะเป็นและคลื่น"** ซึ่งสมการของเขาเป็นเครื่องมือที่นักวิทยาศาสตร์ในปัจจุบันใช้คำนวณและสร้างเทคโนโลยีควอนตัม รวมถึงเซมิคอนดักเตอร์ในชิปคอมพิวเตอร์ที่เราใช้กันอยู่ทุกวันนี้ครับ


Nash Equilibrium

 **Nash Equilibrium (ดุลยภาพของแนช)** คือแนวคิดพื้นฐานในทฤษฎีเกม (Game Theory) ที่คิดค้นโดย จอห์น แนช (John Nash) นักคณิตศาสตร์รางวัลโนเบล เพื่ออธิบาย **"จุดที่เสถียรที่สุด"** ของการตัดสินใจเมื่อคนหลายคนต้องมีปฏิสัมพันธ์กันครับ

นิยามแบบเข้าใจง่ายที่สุดของ Nash Equilibrium คือ:

> **"สถานการณ์ที่ทุกฝ่ายเลือกกลยุทธ์ที่ดีที่สุดสำหรับตัวเองแล้ว โดยอิงจากการตัดสินใจของคนอื่น และไม่มีใครอยากเปลี่ยนใจไปเลือกวิธีอื่นอีกแล้ว เพราะเปลี่ยนไปก็ไม่ได้อะไรดีขึ้น"**

พูดง่ายๆ คือเป็นจุดที่ทุกคนต่างพูดว่า *"ในเมื่อคุณเลือกแบบนั้น ฉันเลือกแบบนี้แหละดีที่สุดสำหรับฉันแล้ว และต่อให้ฉันเปลี่ยนใจตอนนี้ ฉันก็เจ็บตัวเปล่าๆ"*

### ตัวอย่างคลาสสิก: Prisoner's Dilemma (วิกฤตการณ์คนคุก)

สมมติว่าโจร 2 คน (เอและบี) ถูกจับแยกห้องขังเพื่อสอบสวน ตำรวจยื่นข้อเสนอให้ทั้งคู่เหมือนกัน ดังนี้:

 1. ถ้า **ทั้งคู่เงียบ (ร่วมมือกัน)** \rightarrow ติดคุกคนละ 1 ปี (เพราะหลักฐานน้อย)

 2. ถ้า **คนหนึ่งสารภาพ แต่อีกคนเงียบ** \rightarrow คนสารภาพปล่อยตัวฟรี! ส่วนคนเงียบติดคุก 10 ปี

 3. ถ้า **ทั้งคู่สารภาพ** \rightarrow ติดคุกคนละ 5 ปี

ถ้าลองดูตารางผลลัพธ์ (Payoff Matrix) จะเห็นภาพชัดขึ้นครับ:

| ตัวเลือก | บีเงียบ | บีสารภาพ |

| **เอเงียบ** | เอ: 1 ปี / บี: 1 ปี | เอ: 10 ปี / บี: 0 ปี |

| **เอสารภาพ** | เอ: 0 ปี / บี: 10 ปี | **เอ: 5 ปี / บี: 5 ปี (Nash Equilibrium)** |

#### ทำไมจุด "สารภาพทั้งคู่" ถึงเป็น Nash Equilibrium?

 * **มองในมุมของ เอ:** ถ้าบีเลือกที่จะเงียบ เอควรสารภาพ (เพราะติด 0 ปี ดีกว่า 1 ปี) แต่ถ้าบีเลือกที่จะสารภาพ เอแฮปปีกว่าถ้าสารภาพด้วย (เพราะติด 5 ปี ดีกว่าโดนหักหลังติด 10 ปี) ดังนั้น ไม่ว่าบีจะทำอะไร **เอจะเลือกสารภาพเสมอ**

 * **มองในมุมของ บี:** บีก็คิดแบบเดียวกัน ไม่ว่าเอจะทำอะไร **บีก็จะเลือกสารภาพเสมอ**

สุดท้าย ทั้งคู่จะจบลงที่ห้องล่างขวา คือ **"สารภาพทั้งคู่ และติดคุกคนละ 5 ปี"**

นี่คือ Nash Equilibrium เพราะเมื่อถึงจุดนี้แล้ว ไม่มีใครอยากเปลี่ยนใจเพียงลำพัง (ถ้าเอเปลี่ยนใจไปเงียบคนเดียว เอจะติด 10 ปีทันที)

> **ข้อสังเกตที่น่าสนใจ:** Nash Equilibrium ไม่จำเป็นต้องเป็นจุดที่ดีที่สุดสำหรับทุกคน (Optimal Outcome) เพราะจริงๆ แล้วจุดที่ดีที่สุดร่วมกันคือ "เงียบทั้งคู่" (ติดคนละ 1 ปี) แต่ในความเป็นจริงมันเกิดขึ้นได้ยากเพราะต่างฝ่ายต่างไม่ไว้ใจกันและเลือกสิ่งที่ดีที่สุดให้ตัวเองก่อน

### Nash Equilibrium ในชีวิตจริงและธุรกิจ

 * **สงครามราคา (Price Wars):** ร้านสะดวกซื้อสองร้านตั้งอยู่ตรงข้ามกัน ถ้าทั้งคู่ตั้งราคาน้ำดื่มไว้ที่ 10 บาท จะได้กำไรพอดีๆ แต่ถ้าฝ่ายหนึ่งลดเหลือ 8 บาท จะดึงลูกค้าไปได้หมด สุดท้ายทั้งสองร้านจะดึงราคาลงมาจนต่ำสุดที่ยังพออยู่ได้ (เช่น 7 บาท) และไม่สามารถลดลงไปกว่านี้ได้อีกแล้ว จุดนั้นจะกลายเป็นดุลยภาพที่ไม่มีใครยอมขยับราคาขึ้นคนเดียวเพราะกลัวเสียลูกค้า

 * **การลงโทษในสังคม (Social Norms):** เช่น การขับรถเลนซ้ายในไทย (หรือเลนขวาในบางประเทศ) ถ้าทุกคนทำตาม กฎนี้ก็คือ Nash Equilibrium เพราะถ้าคุณทะลึ่งขับเลนขวาสวนกระแสคนเดียว คุณจะเกิดอุบัติเหตุ การทำตามคนอื่นจึงปลอดภัยที่สุดสำหรับคุณ

มีเคสหรือสถานการณ์ไหนในเชิงธุรกิจ การแข่งขัน หรือระบบคอมพิวเตอร์ที่พี่กำลังสนใจอยากลองวิเคราะห์ด้วย Nash Equilibrium เป็นพิเศษไหมครับ?


วันเสาร์ที่ 23 พฤษภาคม พ.ศ. 2569

Entanglement

Quantum entanglement is a phenomenon where two or more particles become so deeply interconnected that they lose their individual physical identities. Instead, they share a single, unified quantum state.

Entanglement doesn't mean that when you actively force one qubit to change, the other one magically updates in real-time to match it. That is a super common sci-fi misconception (often called "quantum telepathy" or instantaneous communication), but that's not quite how the physics works.

What happens if you modify one qubit?

This is where the distinction matters most. Let's look at two different scenarios:

Scenario A: You measure one qubit (The "Collapse")

If you look at Qubit A and see it collapse into a |0>, Qubit B will instantly collapse into a |0> as well, no matter how far apart they are. This looks like an instantaneous change, but it is actually the extraction of a pre-existing quantum correlation. You cannot use this to send information, because the outcome of your measurement was completely random.

Scenario B: You manipulate one qubit (The "Gate Action")

If you take Qubit A and actively zap it with a laser or a microwave pulse to deliberately change its state from |0> to |1>, Qubit B does not change.

Instead, by forcing a local change on Qubit A without interacting with Qubit B, you actually break the entanglement. Qubit A spins off into its own independent state, and the quantum link between them is destroyed.

While quantum entanglement feels like instantaneous action at a distance, it cannot be used to send data, messages, or signals faster than light.

===

Quantum teleportation does not instantly transport physical objects through space like a sci-fi transporter.

Instead, it is a protocol that allows you to move the exact, fragile quantum state of a particle (like an electron's spin or a photon's polarization) from one location to another, without physically moving the particle itself and without sending any quantum information through the air.

Because of the universal speed limit we just talked about, quantum teleportation cannot happen faster than light. It strictly requires both a quantum channel (entangled qubits) and a classical channel (like a standard fiber line) to work.

Imagine Alice wants to teleport the unknown quantum state of a qubit (let's call it Qubit X) to Bob.

  • To do this, Alice and Bob must first share a pair of entangled resource qubits (Qubit A goes to Alice, Qubit B goes to Bob).

Here is the exact step-by-step procedure they follow to make the teleportation happen:

1.Entanglement Distribution:Prerequisite.

Alice and Bob are given two qubits (A and B) that are deeply entangled with each other. Bob takes his qubit (B) far away to his lab. Alice holds onto her entangled qubit (A) and the mystery qubit (X) she wants to teleport.

2.The Bell State Measurement:Alice's Lab.

Alice performs a specific, joint quantum measurement on her two qubits (the mystery Qubit X and her entangled Qubit A). This measurement forces the two qubits to entangle with each other.

The Catch: This measurement completely destroys the original quantum state of Qubit X (respecting the No-Cloning Theorem). Alice's measurement yields two standard, classical bits of data (e.g., 00, 01, 10, or 11). It is 2 bits because: When Alice performs her measurement in Step 2, she isn't just looking at the qubits to see if they are 0 or 1. Instead, she performs a specialized quantum operation called a Bell State Measurement. This measurement forces her two independent qubits (the mystery Qubit X and her entangled Qubit A) to merge and choose one of exactly four possible joint quantum configurations (called the four Bell States). Because there are exactly 4 distinct structural outcomes to this measurement, it takes exactly 2 classical bits of information to describe which outcome

3.Classical Transmission:Speed of Light Baseline.

Alice takes those two ordinary classical bits and sends them to Bob using a standard communication channel (like an internet text or a radio signal). This step is bounded by the speed of light.

4.Bob's Transformation:Bob's Lab.

When Alice's measurement occurred in Step 2, Bob's qubit (B) instantly reacted due to entanglement, twisting into a state that is highly related to the original Qubit X. However, it is slightly garbled.

Once Bob receives Alice's two classical bits from Step 3, they act as a "decryption key." Depending on the bits (00, 01, etc.), Bob applies a specific quantum gate (like a Pauli-X or Pauli-Z rotation) to his qubit. This un-garbles the qubit, making it a perfect replica of the original Qubit X state.

บริษัทในไทยที่ใช้ AWS cloud & GPC

มีนิสิตไปฝึกงานอยู่ 

https://nttdata-solutions.com/th/

การประกอบอาชีพในยุค AI

ปัจจุบันมนุษย์ถูกเอไอแย่งบทบาทการวิเคราะห์ไป มนุษย์ทำหน้าที่เพียง

  1. คิดโจทย์ให้ AI (querying)
  2. ตรวจคำตอบของ AI (evaluation/judgement)
  3. กำกับปกตรอง AI (governance)
  4. เป็นเจ้าของและรับผิดชอบผลงานจากการใช้AI (intellectual ownership & responsibility)

การจะตรวจคำตอบและกำกับปกตรอง AI ได้เราต้องมีทักษะ meta-analysis คือวิเคราะห์คุณภาพของกระบวนการวิเคราะห์และผลการวิเคราะห์ของเอไอได้ จึงจำเป็นต้องฝึกทักษะรากฐานของ meta-analysis ก่อนนั่นคือทักษะการคิดวิเคราะห์

วันศุกร์ที่ 22 พฤษภาคม พ.ศ. 2569

Lorem Ipsum

 ลอ-เร็ม อิป-ซัม

คือ dummy text ที่ใช้ในงานออกแบบและจัดหน้าเอกสาร เช่น งานเว็บ หนังสือ หรือสิ่งพิมพ์ เพื่อให้เห็นรูปแบบเลย์เอาต์ก่อนใส่เนื้อหาจริง

แพลตฟอร์มควอนตัมเพื่อการเรียนรู้ ประเมิน และติดตามระดับชาติ

 https://pqc-learn.ncsa.or.th/

Classical vs. Quantum Bits

While the math for the total number of combinations is the same for both classical bits and qubits, how they hold that information is entirely different:
  • Classical Bits: A 100-bit classical register can only hold one of those $2^{100}$ combinations at any single point in time (e.g., just the string 01101...).
  • Quantum Qubits: Thanks to superposition and entanglement, a 100-qubit system can exist in a mathematical blend of all 2^100 states simultaneously.
1 electron represents 1 qubit.








An electron acts like a tiny, microscopic bar magnet. When you place it inside a magnetic field, its spin orientation can only point in one of two directions:

  • State |0> (the ground state): Spin-Down (aligned with the magnetic field, which is its lowest energy state). This state represents a classical bit 0.

  • State |1> (the excited state): Spin-Up (pointing against the magnetic field, a higher energy state). This state represents a classical bit 1.

In quantum computing, we map these spatial directions to mathematical states using a tool called the Bloch Sphere. By convention, the Z-axis is chosen as our standard computational baseline (our classical 0 and 1).


Qubit count

When a company says they have a "100-qubit quantum computer," it means they have built a physical chip containing 100 individual quantum bits.

 At the start of a program, these qubits usually sit in a completely unentangled, base state (all zeros).

 As the quantum program runs, the computer uses quantum gates to entangle specific pairs or small groups of qubits to perform calculations.

A 100-qubit quantum computer has the potential to entangle combinations of those 100 qubits to map out a massive computational space (2^{100} states), but it does not mean all 100 are permanently locked in a giant entangled web.


วันพฤหัสบดีที่ 21 พฤษภาคม พ.ศ. 2569

CTF

การแข่งขัน CTF (Capture The Flag) ในบริบทความปลอดภัยทางไซเบอร์ คือเกมจำลองสถานการณ์เพื่อทดสอบและพัฒนาทักษะด้านความปลอดภัยของคอมพิวเตอร์ โดยผู้เข้าแข่งขันจะต้องค้นหา "ธง" (Flag) ที่ซ่อนอยู่ผ่านการแฮ็ก เจาะระบบ หรือแก้โจทย์รูปแบบต่างๆ

QKD vs. PQC

While both protect data against future quantum computers, they approach the problem from completely opposite directions.



วันพุธที่ 20 พฤษภาคม พ.ศ. 2569

Confidence interval (CI)

 The range of values used to estimate a population mean.

Instead of saying:

“The true mean is exactly 50”

statistics says:

“The true mean is probably between 47 and 53.”

That range is the confidence interval.








































Central limit theorem (CLT)

It states that the distribution of sample means approximates a Gaussian distribution (normal distribution) as the sample size grows, regardless of the population's original distribution. This is crucial for making inferences about populations based on sample data.

Understanding the CLT can greatly enhance your data analysis skills, providing a solid foundation for hypothesis testing and confidence interval estimation. However, it does have some limitations:
  • Sample Size: The CLT requires a sufficiently large sample size (>=30) to be effective. Small samples may not produce accurate results.Independence: The samples must be independent. Dependencies among data points can skew results.
  • Identical Distribution: Samples must come from the same distribution. Note: This applies to the classical CLT (Lindeberg-Levy), but newer versions like Lyapunov or Lindeberg-Feller relax this condition.
  • Identical Distribution: Samples must come from the same distribution. Note: This applies to the classical CLT (Lindeberg-Levy), but newer versions like Lyapunov or Lindeberg-Feller relax this condition.





















The left graph: x-axis represents the actual values (e.g. incomes) of observations in the population. 
y-axis representins probability density or relative probability/frequency.

The right graph is a “distribution of averages,” not a distribution of raw data. X-axis represents the sample mean computed from a sample of size n (out of population size N where n << N). For example:

Step 1: Start with a population

Suppose the population values are:

2, 4, 6, 8, 102,\ 4,\ 6,\ 8,\ 10

This population may have any shape.


Step 2: Take many samples

Take samples of size n=2n=2.

Example samples:

  • Sample A: (2,4)(2,4)
  • Sample B: (4,10)(4,10)
  • Sample C: (6,8)(6,8)
  • Sample D: (2,10)(2,10)

Step 3: Compute a mean for each sample

Each sample produces ONE sample mean:

SampleMean
(2,4)3
(4,10)7
(6,8)7
(2,10)6

So now we have many values of:

xˉ\bar{x}

namely:

3, 7, 7, 6,3,\ 7,\ 7,\ 6,\dots

Step 4: Plot all those means

The right graph plots the frequencies/probabilities of these sample means.

So the x-axis contains many possible values of:

xˉ\bar{x}

because different samples produce different averages.

วันอังคารที่ 19 พฤษภาคม พ.ศ. 2569

คำถามสัมภาษณ์ผู้สมัครเรียนป.เอก

  • แนะนำตัวด้านการศึกษาและประสบการณ์ทำงานด้านการศึกษาและประสบการณ์ทำงาน
  • ทำไมสนใจเรียนต่อระดับปริญญาเอก จะทำอะไรหลังเรียนจบ
  • ถามทำไมสนใจเรียนที่นี่
  • ภาระส่วนตัวเยอะไหมเพื่อประเมินความเสี่ยง
  • ความเข้าใจในขั้นตอนกระบวนการเรียนต่อปริญญาเอก

วันอาทิตย์ที่ 17 พฤษภาคม พ.ศ. 2569

Bipartite cache

A bipartite cache is represented as a bipartite graph (aka bigraph), a graph with two disjoint sets of vertices (disjoint set is a set whose no member is shared with other sets) such that every edge connects a vertex in the first set to another vertex in the other set and there are no two vertices in the same set are connected to each other.



วันเสาร์ที่ 16 พฤษภาคม พ.ศ. 2569

Namely proceedings can actually be a journal

Proceedings of the ACM on Measurement and Analysis of Computing Systems (https://www.scimagojr.com/journalsearch.php?q=21101048533&tip=sid&clean=0)

วันอาทิตย์ที่ 10 พฤษภาคม พ.ศ. 2569

Softmax function

Used in MLP for multiclass classification.

#output nodes = #classes

The output node with highest probability is a returned class. 

https://adeveloperdiary.com/data-science/deep-learning/neural-network-with-softmax-in-python/

วันเสาร์ที่ 9 พฤษภาคม พ.ศ. 2569

Large Multimodal Model (LMM)

A Large Multimodal Model (LMM) represents the next evolution of AI beyond text-only Large Language Models (LLMs). While a traditional LLM is like a brilliant scholar who has only ever read books, an LMM is like that same scholar who can now also see, hear, and create.

At its core, an LMM is a single AI system capable of processing and generating information across multiple "modalities"—such as text, images, audio, and video—all within a unified framework.

วันพฤหัสบดีที่ 7 พฤษภาคม พ.ศ. 2569

CNN vs LSTM

CNNs are capable of extracting spatial correlations among independent variables, while LSTM excels at capturing temporal correlations within input sequences. (https://dl.acm.org/doi/10.1145/3690771.3690774)

The input to CNN must be arranged into 2D array or "feature map" with the shape (Time Steps × Features). Following the input layer is filter (aka kernel, sliding window). With a filter size of 3, this filter looks at 3 time steps and across the features simultaneously. By doing this, the CNN captures how the 12 independent variables interact with each other within a small local window. The input may be 245 time steps and 12 features (i.e., WxL), the first Conv layer may output 245 time steps, 10 features, 32 filters (WxLxDepth), the second Conv layer may output 245 time steps, 8 features, 1 filter. This reduction means the CNN has successfully compressed the 12 feaures into a single optimized "8 feature representation" that carries the most significant spatial information. So the CNN helps "distill" the most important spatial correlations before passing them to the LSTM.











The input to LSTM can have multiple layer as inside an LSTM cell, there are "gates" (Forget, Input, and Output gates). Each gate is essentially a small neural network.




วันเสาร์ที่ 2 พฤษภาคม พ.ศ. 2569

Prompts for generating Notebooklm slide deck

https://github.com/serenakeyitan/awesome-notebookLM-prompts?tab=readme-ov-file#modern-newspaper

Enter prompts into the description box within Notebooklm's Slide deck setting (click right arrow on the button to go to its setting).

Convert image-based slides to editable slides

 https://codia.ai/noteslide

Image-based slides e.g. NotebookLM-generated slides

วันศุกร์ที่ 1 พฤษภาคม พ.ศ. 2569

Hugging face

Hugging Face is a leading open-source AI community and platform often called the "GitHub of Machine Learning." It provides a central hub for researchers and developers to share, discover, and collaborate on AI models, datasets, and applications, with a major focus on Natural Language Processing (NLP) and generative AI.

วันพฤหัสบดีที่ 30 เมษายน พ.ศ. 2569

Is norm-referenced grading ranking or rating or both?

 Norm-referenced grading is primarily ranking, but it can involve both.

Why primarily ranking?

Norm-referenced grading compares students against each other, not against a fixed standard.
So the main purpose is to determine relative position:

  • top 10%

  • above average

  • class percentile

  • rank #5 out of 80

That is fundamentally ranking.

Where rating appears

Students still receive scores/grades (raw marks, scaled scores, GPA, letter grades), which are forms of rating. But in norm-referenced systems, those ratings are often assigned based on ranking.

Example:

  • Top 15% → A

  • Next 25% → B

  • Middle 40% → C

So the grade (rating) comes from the student's relative rank.

Short answer

Norm-referenced grading = ranking-driven rating system.

Contrast

  • Criterion-referenced grading = rating based on fixed standards (e.g., 90% = A regardless of others)

  • Norm-referenced grading = rating based on position relative to peers i.e. ranking

If you're writing academically, I’d phrase it as:
“Norm-referenced grading is a ranking-oriented assessment approach that may produce rating outcomes such as grades.”

วันพุธที่ 29 เมษายน พ.ศ. 2569

Randomness versus probability

We can say probability is a tool used to measure randomness.

Randomness is the phenomenon (the "what"), and probability is the mathematical measurement of the randomness (the "how much").


So if you are measuring the results of LLM which are unpredictable you’re supposed to use probability measurement not just three case average and standard deviation.