วันเสาร์ที่ 16 ธันวาคม พ.ศ. 2566

Extreme learning machine (ELM)

Fast learning feed forward network used for real time retraining. There were a lot of controversies behind ELMs.

https://towardsdatascience.com/introduction-to-extreme-learning-machines-c020020ff82b


วันพฤหัสบดีที่ 14 ธันวาคม พ.ศ. 2566

Controversy on h-index

1.It is important to note that the statement: “The h-index of person P is X,” has no meaning, because the value of the index depends on the content of the database used for its calculation. One should rather say: “The h-index of person P is X, in database Z.” Many disruptive technologies e.g. FB, YouTube, Google came from outside Scopus db.

Cf. https://theconversation.com/why-the-h-index-is-a-bogus-measure-of-academic-impact-141684

2.H-index counts both proceedings and journal equally although they potentially have significant difference in quality (in their impacts).

3.H-index counts all papers although you are not the first author. So it is blind to percent contribution (i e. amount of contribution you really achieve). H-index gained via co-authorship is less prestigious (น่าภูมิใจ) than first-authorship.

4.It even ignores any impacts made via non English literature.



วันเสาร์ที่ 25 พฤศจิกายน พ.ศ. 2566

Software Developer’s Guide to Generative AI

  1. Code generation and completion: Generative AI tools can automatically suggest or generate sections of code.
  2. Software testing: Generative AI is able to create tests and identify mistakes.
  3. Code optimization: AI tools can recommend code modifications to boost performance or streamline the architecture.

https://builtin.com/software-engineering-perspectives/generative-ai-tips-for-software-development

วันอังคารที่ 21 พฤศจิกายน พ.ศ. 2566

Metaverse platform as a Service

 https://bigbangtheory.io/

https://techsauce.co/news/asphere-and-big-bang-theory-metaverse-as-a-service


วันพุธที่ 18 ตุลาคม พ.ศ. 2566

inf, sup, lim inf, lim sup

  • inf (infimum) is the greatest-lower-bound data point.
  • sup (supremum) is the lowest-upper-bound data point.
  • lim inf is the greatest-lower-bound Y data point when X approaches some certain value (needn't be infinite) specified under lim inf's limit subscription. (note that both inf and sup cannot have limit subscription)
  • lim sup is the lowest-upper-bound Y data point when X approaches some certain value (needn't be infinite) specified under lim sup's limit subscription.

All these four terms are used for data sequences that may look either flutuate (like converging waves) or smooth curves (so inf = sup and lim inf = lim sup).

https://math.stackexchange.com/questions/422964/what-is-limit-superior-and-limit-inferior

https://en.m.wikipedia.org/wiki/Limit_inferior_and_limit_superior

https://en.wikipedia.org/wiki/Infimum_and_supremum

https://math.stackexchange.com/questions/1031905/lim-inf-and-lim-sup-convergence-divergence

วันอังคารที่ 17 ตุลาคม พ.ศ. 2566

Markov chain

A stochastic model describing a sequence of possible events in which the probability of each event depends only on the state attained in the previous event.

https://en.wikipedia.org/wiki/Markov_chain

วันศุกร์ที่ 6 ตุลาคม พ.ศ. 2566

Semi-Supervised Learning

SSL uses a small portion of labeled data and lots of unlabeled data to train a classification model. There are several methods to label the portion of unlabeled data to be used as a training set e.g. Pseudo-labeling.

https://blog.roboflow.com/what-is-semi-supervised-learning/#:~:text=Semi%2Dsupervised%20learning%20(SSL),supervised%20learning%20and%20unsupervised%20learning.

Technically, it could be viewed as performing clustering and then labeling the clusters within the labeled data. Unlabeled data with the same cluster as the labeled data share the same label as the labeled data.

https://en.m.wikipedia.org/w/index.php?title=Weak_supervision&diffonly=true


วันจันทร์ที่ 2 ตุลาคม พ.ศ. 2566

AI generated images cannot be copyrighted

 https://www.reuters.com/legal/ai-generated-art-cannot-receive-copyrights-us-court-says-2023-08-21/#:~:text=Aug%2021%20(Reuters)%20%2D%20A,Washington%2C%20D.C.%2C%20has%20ruled.

วันศุกร์ที่ 18 สิงหาคม พ.ศ. 2566

Innovation–Driven Entrepreneurship (IDE)

การประกอบการที่ขับเคลื่อนโดยนวัตกรรม หรือใช้นวัตกรรมสร้างสรรค์ธุรกิจรูปแบบใหม่ หรือผลิตภัณฑ์ใหม่ ๆ โดยเริ่มจากการมีความคิดหรือไอเดียในการผลิตสินค้า หรือบริการที่ผู้บริโภคต้องการอย่างแท้จริง จากนั้นก็ต้องหาแหล่งเงินทุนเพื่อสนับสนุนเงินทุนให้ผลิตสินค้าหรือบริการนั้น ๆ รวมถึงมีผู้เชี่ยวชาญคอยช่วยเหลือในด้านต่าง ๆ เพื่อช่วยพัฒนาสินค้าก่อนนำเข้าสู่ตลาดผู้บริโภคต่อไป

 https://marketeeronline.co/archives/10577#:~:text=Innovation%E2%80%93Driven%20Entrepreneurship%20%E0%B8%AB%E0%B8%A3%E0%B8%B7%E0%B8%AD%20IDE,%E0%B8%AA%E0%B8%B4%E0%B8%99%E0%B8%84%E0%B9%89%E0%B8%B2%E0%B8%AB%E0%B8%A3%E0%B8%B7%E0%B8%AD%E0%B8%9A%E0%B8%A3%E0%B8%B4%E0%B8%81%E0%B8%B2%E0%B8%A3%E0%B8%99%E0%B8%B1%E0%B9%89%E0%B8%99%20%E0%B9%86

วันศุกร์ที่ 11 สิงหาคม พ.ศ. 2566

วันพุธที่ 9 สิงหาคม พ.ศ. 2566

Database administration/management tools

 https://il.mahidol.ac.th/th/i-learning-clinic/computer-qa/7-database-management-tools-%E0%B8%97%E0%B8%B5%E0%B9%88-dba-%E0%B8%AB%E0%B8%A3%E0%B8%B7%E0%B8%AD-sysadmin-%E0%B8%84%E0%B8%A7%E0%B8%A3%E0%B8%A3%E0%B8%B9%E0%B9%89%E0%B8%88%E0%B8%B1%E0%B8%81%E0%B9%84/

Other tools include:

  1. MySQL Workbench: This is an official graphical tool from MySQL. It offers features for database design, SQL development, and database administration.

  2. DBeaver: A versatile, open-source database tool that supports various database management systems, including MySQL, PostgreSQL, Oracle, and more.

  3. Navicat: A commercial database management tool with versions for different databases like MySQL, PostgreSQL, Oracle, SQL Server, and more. It provides a user-friendly interface for various database tasks.

  4. HeidiSQL: A lightweight and easy-to-use open-source tool that is specifically designed for MySQL, but can also connect to other databases using ODBC.

  5. SQL Server Management Studio (SSMS): If you're working with Microsoft SQL Server, this official tool offers powerful database management and development capabilities.

  6. PostgreSQL pgAdmin: An open-source administration and management tool for PostgreSQL databases.

  7. MongoDB Compass: If you're dealing with MongoDB, this official GUI tool provides an intuitive interface for visualizing and manipulating data in MongoDB.

  8. Adminer: A lightweight, open-source alternative to phpMyAdmin that supports multiple database systems and offers a simple interface for managing databases.

  9. SQLiteStudio: An open-source tool specifically designed for working with SQLite databases, featuring a user-friendly interface.

  10. Toad: A commercial tool that provides database management, development, and performance tuning for various database systems.

วันอังคารที่ 8 สิงหาคม พ.ศ. 2566

Degree state

Master's student is pursuing a master's degree.

Undergraduate/Undergrad student

 Graduate student (AM english) = Postgraduate student (UK english)

วันจันทร์ที่ 7 สิงหาคม พ.ศ. 2566

Google language models

Palm2 has programmer capability.

Bard is enabled by Palm2.

Lambda is conversational language model replaced by Palm2.

วันพฤหัสบดีที่ 20 กรกฎาคม พ.ศ. 2566

วันพฤหัสบดีที่ 6 กรกฎาคม พ.ศ. 2566

Regret in ML

 https://stats.stackexchange.com/questions/171850/why-regret-is-used-in-online-machine-learning-and-is-there-any-intuitive-explana

คือ state ที่เกิดขึ้นไปแล้ว แล้วมองย้อนกลับไป(hindsight)พบว่าเป็นแค่ suboptimal จริงๆยังมี state ที่ดีกว่า ณ เวลานั้นที่ควรเลือก

C-RAN

 https://hellofuture.orange.com/en/c-ran/

วันอังคารที่ 27 มิถุนายน พ.ศ. 2566

Cloudflare turnstile replaces captcha

 https://www.cloudflare.com/products/turnstile/


https://www.blognone.com/node/130658#:~:text=Cloudflare%20%E0%B8%A3%E0%B8%B0%E0%B8%9A%E0%B8%B8%E0%B8%A7%E0%B9%88%E0%B8%B2%20Turnstile%20%E0%B8%88%E0%B8%B0,%E0%B8%84%E0%B8%A5%E0%B8%B4%E0%B8%81%E0%B8%95%E0%B8%B4%E0%B9%8A%E0%B8%81%E0%B8%96%E0%B8%B9%E0%B8%81%E0%B9%83%E0%B8%99%E0%B8%8A%E0%B9%88%E0%B8%AD%E0%B8%87


วันศุกร์ที่ 9 มิถุนายน พ.ศ. 2566

Technology trend recognized in Thailand

Mobile computing => Cloud computing => Big data => IoT => Data science => AR => VR&MR=> Metaverse => AI/ML (Deepfake/ChatGPT/Talk to your future self in metaverse) => ...

วันศุกร์ที่ 26 พฤษภาคม พ.ศ. 2566

What is the difference between squared error and absolute error?

As we see from the definitions of MAE and MSE, the key difference between them is that MAE uses the absolute error whilst MSE uses the squared error. But what is the difference between these two calculations?

The key difference between squared error and absolute error is that squared error punishes large errors to a greater extent than absolute error, as the errors are squared instead of just calculating the difference. 

--https://stephenallwright.com/mse-vs-mae/#:~:text=As%20we%20see%20from%20the,MSE%20uses%20the%20squared%20error.

วันจันทร์ที่ 22 พฤษภาคม พ.ศ. 2566

Tenses in abstract writing

 

  • Use present tense while stating general facts
  • Use past tense when writing about prior research
  • Use past tense when stating results or observations
  • Use present tense when stating the conclusion or interpretations
  • Use present tense when referring to your study/paper

วันอาทิตย์ที่ 21 พฤษภาคม พ.ศ. 2566

ML drift

Concept drift vs data drift

https://www.dataversity.net/data-drift-vs-concept-drift-what-is-the-difference/#:~:text=Data%20drift%20refers%20to%20the,of%20a%20machine%20learning%20model.

Data drift คือมีบางช่วงของข้อมูลตอน train ที่ model พยากรณ์ไม่ค่อยแม่น และบังเอิญ test set ก็มีวิวัฒนาการไปในทางที่มีข้อมูลช่วงเหล่านั้นมากขึ้นๆ ทำให้ความแม่นในการพยากรณ์ลดลง 

Concept drift คือ target function หรือ relationship ระหว่าง input feature & output label ค่อยๆวิวัฒนาการเปลี่ยนไป

Label drift and feature drift

https://www.youtube.com/watch?v=uOG685WFO00

วันศุกร์ที่ 19 พฤษภาคม พ.ศ. 2566

Nonlinear correlation

  • Pearson’s Correlation Coefficient (R) supports only linear data. R is close to zero for nonlinear correlation, so one had better use distance correlation.














  • Maximal Information Coefficient (devised in 2011) supports both linear and nonlinear data. 
https://www.freecodecamp.org/news/how-machines-make-predictions-finding-correlations-in-complex-data-dfd9f0d87889/


วันศุกร์ที่ 5 พฤษภาคม พ.ศ. 2566

วันอังคารที่ 2 พฤษภาคม พ.ศ. 2566

Tensor

A tensor is a generalization of vectors and matrices and is easily understood as a multidimensional array.

A vector is a one-dimensional or first order tensor and a matrix is a two-dimensional or second order tensor. (i.e. N-order tensor is comparable to N-dimensional array)

Tensor notation is much like matrix notation with a capital letter representing a tensor and lowercase letters with subscript integers representing scalar values within the tensor. Below is third order tensor (i.e. 3 dimensional array)

     t111, t121, t131     t112, t122, t132     t113, t123, t133

T = (t211, t221, t231),  (t212, t222, t232),  (t213, t223, t233)

     t311, t321, t331     t312, t322, t332     t313, t323, t333

cf. https://machinelearningmastery.com/introduction-to-tensors-for-machine-learning/

วันพุธที่ 26 เมษายน พ.ศ. 2566

วันจันทร์ที่ 24 เมษายน พ.ศ. 2566

วันเสาร์ที่ 25 มีนาคม พ.ศ. 2566

Big O, Little O, Omega & Theta

  • Big O (O()) describes the upper bound of the complexity.
  • Omega (Ω()) describes the lower bound of the complexity.
  • Theta (Θ()) describes the exact bound of the complexity.
  • Little O (o()) describes the upper bound excluding the exact bound.

 https://www.freecodecamp.org/news/big-o-notation-why-it-matters-and-why-it-doesnt-1674cfa8a23c/

วันอาทิตย์ที่ 19 มีนาคม พ.ศ. 2566

The Use of AI and AI-assisted Technologies in Scientific Writing (Elsevier)

"Elsevier อนุญาตให้ใช้ AI ช่วยเขียน manuscript ได้แล้ว แต่ใช้สำหรับการปรับปรุงภาษาและสไตล์การเขียนเท่านั้น ห้ามใช้สร้างข้อมูล, วิเคราะห์ข้อมูล หรือแปลผล สรุปผล และ authors ต้องแจ้งเมื่อ submit manuscript เสมอ ห้ามใส่ AI เป็น co-author" --

 https://www.elsevier.com/about/policies/publishing-ethics

Model good fitting

 https://www.kaggle.com/code/ryanholbrook/overfitting-and-underfitting

วันพุธที่ 15 มีนาคม พ.ศ. 2566

Grader system

A CMS system that can automatically check the answers to programming questions by using provided test cases. 

https://www.domjudge.org/

วันจันทร์ที่ 13 มีนาคม พ.ศ. 2566

Batch normalization

คือการ normalize output ของแต่ละ node เป็นค่า standardized values และเนื่องจากค่า standardized value = (x-mean)/SD ค่า mean & SD จะคำนวนมาจาก node ที่อยู่ใน layer เดียวกัน

Because the normalizatin occurs on a per batch basis, hence the name batch normalization. The batch size is a number of samples processed before the model is updated. The number of epochs is the number of complete passes through the training dataset. The size of a batch must be more than or equal to one and less than or equal to the number of samples in the training dataset.

ประโยชน์คือทำให้การ train เร็วขึ้น เพราะค่า output ของแต่ละ node ไม่ต่างกันมากไป

https://youtu.be/dXB-KQYkzNU

วันเสาร์ที่ 11 มีนาคม พ.ศ. 2566

วันศุกร์ที่ 3 มีนาคม พ.ศ. 2566

กฏหมายที่เกี่ยวข้องกับของหายได้คืน

 https://so03.tci-thaijo.org/index.php/oarit/article/download/55056/45696/127593


Opensource ERP

 https://www.odoo.com/

Confusion matrix for binary and multiclass classifications

 https://www.analyticsvidhya.com/blog/2021/06/confusion-matrix-for-multi-class-classification/


You have different options when calculating quality metrics in multi-class classification.

1.Calculating precision and recall by class is useful when you want to evaluate the performance of a classifier for a specific class of interest or when dealing with imbalanced classes, but it can result in a large number of performance metrics. 

When you have a large number of classes or want a more concise summary of overall performance, using macro or micro averages can be a better option.

2.Macro-averaging shows average performance across classes, treating each class as equally important. 

3.Micro-averaging gives equal weight to every instance and shows average performance across all predictions. In the case of multi-class classification, micro-averaged precision, recall, and accuracy are the same. 

4.You might also consider using weighted averaging based on the proportion each class takes in the dataset. This approach is useful if you have an imbalanced dataset but want to assign larger importance to classes with more examples. 


Recap

https://www.evidentlyai.com/classification-metrics/multi-class-metrics

Business process to use cases

Analysis of large/complex information system should start with business process modeling by using activity diagram and place ovals (use cases) over a set of activities to derive use case diagram. Then each use case has its activity diagram drawed.

วันพฤหัสบดีที่ 2 มีนาคม พ.ศ. 2566

วันเสาร์ที่ 25 กุมภาพันธ์ พ.ศ. 2566

AUC vs F1 in Imbalanced data

เพราะ imbalanced data คือมี #TP ต่างจาก #TN มาก

F1 ไม่ดู TN แต่ AUC คิด TN ด้วย ดังนั้นควรใช้ F1 เพื่อเลี่ยง TN ที่น้อยไปจนถ้าเอามาพิจารณาร่วมด้วยผลลัพธ์จะเพี้ยน

Geometric Mean of TPR and TNR

Used in binary classification

G-mean = Sqrt of TPR*TNR

AUC is an error or performance metric very useful for replacing accuracy in binary classification with strong class imbalance. https://thedigitalskye.com/2021/04/19/6-useful-metrics-to-evaluate-binary-classification-models/

Geometric mean in general isn’t an error or performance metric, but is just an alternative to an arithmetic mean that’s robust to different normalization schemes.

Metrics in binary classification https://neptune.ai/blog/evaluation-metrics-binary-classification

วันศุกร์ที่ 24 กุมภาพันธ์ พ.ศ. 2566

Metric in medical testing

ควรวัดค่า negative likelihood ratio (LR-) = fnr/tnr ด้วย เพื่อให้ความสำคัญกับค่า False negative rate i.e. Type II error besides Type I error (FPR)

cf.https://en.wikipedia.org/wiki/Likelihood_ratios_in_diagnostic_testing


วันอังคารที่ 21 กุมภาพันธ์ พ.ศ. 2566

Sensitivity and specificity

 https://en.m.wikipedia.org/wiki/Sensitivity_and_specificity

Expectation values and Variance and Covariance matrix

Variance is the expectation of the squared deviation of a random variable from its population mean or sample mean. Variance is a measure of dispersion, meaning it is a measure of how far a set of numbers is spread out from their average value.

The expected value should be regarded as the average value. When X is a discrete random variable, then the expected value of X is precisely the mean of the corresponding data. The variance should be regarded as (something like) the average of the difference of the actual values from the average.

https://math.berkeley.edu/~scanlon/m16bs04/ln/16b2lec30.pdf

Covariance matrix is a square matrix that displays the variance exhibited by elements of each of datasets and the covariance between a pair of datasets.

 https://www.cuemath.com/algebra/covariance-matrix/


Grid search finds optimal parameters values

 https://medium.com/fintechexplained/what-is-grid-search-c01fe886ef0a#:~:text=Grid%20search%20is%20a%20tuning,us%20time%2C%20effort%20and%20resources


วันอังคารที่ 24 มกราคม พ.ศ. 2566

Virtual network simulator

http://mininet.org/

วันพุธที่ 18 มกราคม พ.ศ. 2566