การเชื่อฟ้าลิขิตว่าทุกการกระทำเราเกิดจากวิบากกรรมในอดีตคือการเชื่อในกรรมบันดาล
แต่พระพุทธเจ้าตรัสว่ากรรมไม่ได้เกิดจากตนเองบันดาลไม่ได้เกิดจากผู้อื่นบันดาลไม่ได้เกิดจากทั้งตนเองและผู้อื่นบันดาลและไม่ได้เกิดขึ้นเองลอยๆแต่การเป็นไปตามปฏิจจสมุปบาท
การเชื่อฟ้าลิขิตว่าทุกการกระทำเราเกิดจากวิบากกรรมในอดีตคือการเชื่อในกรรมบันดาล
แต่พระพุทธเจ้าตรัสว่ากรรมไม่ได้เกิดจากตนเองบันดาลไม่ได้เกิดจากผู้อื่นบันดาลไม่ได้เกิดจากทั้งตนเองและผู้อื่นบันดาลและไม่ได้เกิดขึ้นเองลอยๆแต่การเป็นไปตามปฏิจจสมุปบาท
An approach to data management that allows an application to retrieve and manipulate data without requiring technical details about the data, such as how it is formatted at source, or where it is physically located, and can provide a single customer view (or single view of any other entity) of the overall data.
Unlike the traditional extract, transform, load ("ETL") process, the data remains in place, and real-time access is given to the source system for the data. This reduces the risk of data errors, of the workload moving data around that may never be used, and it does not attempt to impose a single data model on the data (an example of heterogeneous data is a federated database system). The technology also supports the writing of transaction data updates back to the source systems.
สรุปว่าต่างจาก Data warehouse ทีไม่ต้อง replicate ข้อมูลมารวมใน DW (i.e. ทำแค่ E&T ไม่ทำ L) และยังสามารถ write back to original DBs ได้ด้วย คล้ายๆกับแนวคิดของ Oracle VIEW
https://storm.genie.stanford.edu/ generate a Wikipedia-like report on your topic
STORM is a research prototype for automating the knowledge curation process
ChatGPT consists of transformer (converting input text sequence to output text sequence e.g. by translation using dictionary), LLM (to predict a subsequent word give previous words), etc. It relies on supervised and reinforcement learning techniques.
https://novaapp.ai/blog/technology-behind-chatgpt
https://www.scalablepath.com/machine-learning/chatgpt-architecture-explained
https://youtu.be/lm_ZBWaK56k?si=I8P_btvKiCFwFL5G
Akaike Information Critera (AIC) is a widely used measure of a statistical model. It basically quantifies 1) the goodness of fit, and 2) the simplicity/parsimony, of the model into a single statistic.
Cf. https://coolstatsblog.com/2013/08/14/using-aic-to-test-arima-models-2/
「継続は力なり」 (Keizoku wa chikara nari) หมายความว่าความมุ่งมั่นและการทำสิ่งต่างๆ อย่างต่อเนื่องสามารถสร้างพลังและความสำเร็จได้ ซึ่งเป็นความคิดที่ได้รับการยอมรับในวัฒนธรรมญี่ปุ่น
Genetic Algorithms (GAs) are a core component of evolutionary computing, which is a broader field inspired by the principles of natural evolution. Here's how GAs fit into evolutionary computing:
Evolutionary Computing:
Definition:
Core Concepts:
Definition:
Components of GAs:
Relation to Evolutionary Computing:
In summary, Genetic Algorithms are a specific instantiation of evolutionary computing principles, and they play a significant role in demonstrating how evolutionary concepts can be applied to optimization and search problems.
Exact Optimization Methods:
Agnostic = irrelevant
Creating generic ML pipelines using mlflow.pyfunc
https://towardsdatascience.com/algorithm-agnostic-model-building-with-mlflow-b106a5a29535
During the peer review process, or when authors have their work provisionally accepted for publication, they may encounter instances where Handling Editors or peer reviewers ask them to consider citing additional sources to ensure a more comprehensive discussion. These references may include papers published in the same journal. World Scientific strongly opposes the practice of demanding authors to include references solely to boost citation numbers without any scientific justification, commonly known as "coercive citation".
Researcher with a changing focus or area of expertise.
Otherwise:
Cross-disciplinary researcher
Interdisciplinary researcher
Researcher with multiple expertise
https://en.m.wikipedia.org/wiki/Natural_language_processing
Feature extaction includes vectorization using Bag of word, word2vec, TF-IDF.
NLP model developing steps by ChatGPT:
To develop an NLP model using the terms provided, the process generally follows these steps:
1. **Data Collection**: Gather and prepare a dataset of text that will be used for training and testing the NLP model.
2. **Tokenization**:
- **Explanation**: Split the text into smaller units called tokens, which can be words, subwords, or characters.
- **Purpose**: Tokenization allows the model to process and analyze text at a granular level.
- **Example**: "The cat sat on the mat." becomes ["The", "cat", "sat", "on", "the", "mat"].
3. **Stop Words Removal**:
- **Explanation**: Remove common words that have little meaning on their own, such as "the," "is," and "and."
- **Purpose**: Reduce noise in the data, focusing the model on more meaningful words.
- **Example**: After removal, ["The", "cat", "sat", "on", "the", "mat"] might become ["cat", "sat", "mat"].
4. **Stemming**:
- **Explanation**: Reduce words to their root form by removing suffixes (e.g., "running" → "run").
- **Purpose**: Simplify words to a common base form, reducing vocabulary size.
- **Example**: "running", "runner", "ran" all stem to "run".
5. **Lemmatization**:
- **Explanation**: Similar to stemming, but it reduces words to their base or dictionary form, known as the lemma, considering the context.
- **Purpose**: Ensure words are reduced to their meaningful base form, which may differ based on context.
- **Example**: "better" → "good", "running" → "run".
6. **Feature Extraction**:
- **Explanation**: Convert tokens into numerical features that the model can understand.
- **Methods**:
- **Bag of Words (BoW)**: Represents text by the frequency of words in the document.
- **TF-IDF (Term Frequency-Inverse Document Frequency)**: Adjusts the frequency of words by their importance across documents. (https://bdi.or.th/big-data-101/tf-idf-1/)
- **Word Embedding**: An advanced method that transforms words into dense vectors capturing semantic relationships between words. Common methods include Word2Vec, GloVe, and FastText.
- **Purpose**: Transform text data into a format suitable for modeling, whether through simple frequency counts or more complex vector representations.
7. **Modeling with Deep Learning Algorithms**:
- **Explanation**: Use deep learning techniques to build the NLP model.
- **Purpose**: Leverage complex neural networks to capture patterns and relationships in text data.
- **Common Models**:
- **RNN (Recurrent Neural Network)**: Suitable for sequence-based tasks like text generation.
- **LSTM (Long Short-Term Memory)**: An advanced form of RNN that handles long-term dependencies.
- **Transformer**: State-of-the-art model architecture for NLP tasks (e.g., BERT, GPT).
8. **Model Training**:
- **Explanation**: Train the deep learning model using the processed text data.
- **Purpose**: Optimize model parameters to minimize error and improve accuracy.
9. **Evaluation**:
- **Explanation**: Assess the model's performance on a validation set.
- **Purpose**: Ensure the model generalizes well to unseen data.
10. **Deployment**:
- **Explanation**: Integrate the trained model into a production environment.
- **Purpose**: Make the model available for practical use.
11. **Monitoring and Maintenance**:
- **Explanation**: Continuously monitor the model's performance and update it as needed.
- **Purpose**: Ensure the model remains accurate and relevant over time
Example implementation of ChatBot using LSTM
เพราะความรู้เกิดขึ้นจากการทำความเข้าใจสารสนเทศที่ประมวลผลมาจากข้อมูล
ดังนั้น machine learning model ที่เป็น blackbox ที่มนุษย์ไม่สามารถทำความเข้าใจได้จึงไม่น่าเป็นองค์ความรู้ใหม่แต่เป็นผลจากการประยุกต์ใช้งาน ML algorithm มากกว่า
แต่ใน dictionary American Heritage ให้ความหมายของ knowledge ว่านอกจากจะหมายถึงความเข้าใจแล้วยังหมายถึงเพียงแค่การรู้หรือการค้นพบได้ด้วย ถ้ายึดตามความหมายหลังนี้ machine learning model ก็จัดเป็นองค์ความรู้ใหม่เช่นกัน
ส่วนคำว่า research contribution นั้นหมายถึง contribution to knowledge นั่นก็คือองค์ความรู้ใหม่นั่นเอง
They have not implemented forward pointers to more advanced versions of papers, such as the journal version of a previously published conference paper.