คู่มือการเรียนรู้: Python for Data Science and Machine Learning Essential Training Part 2
เอกสารนี้เป็นคู่มือสรุปเนื้อหาสำคัญจากหลักสูตร “Python for Data Science and Machine Learning Essential Training Part 2” บน LinkedIn Learning เพื่อช่วยทบทวนความเข้าใจในหัวข้อและแนวคิดต่างๆ ที่ครอบคลุมในหลักสูตร
——————————————————————————–
แบบทดสอบความเข้าใจ
คำถามต่อไปนี้ออกแบบมาเพื่อทดสอบความรู้ความเข้าใจในภาพรวมและเนื้อหาหลักของหลักสูตร โปรดตอบคำถามแต่ละข้อด้วยประโยคสั้นๆ 2-3 ประโยค
- ใครคือผู้สอนหลักสูตรนี้ และเป้าหมายหลักที่เธอได้กล่าวไว้สำหรับผู้เรียนคืออะไร?
- หลักสูตรนี้ครอบคลุมอัลกอริทึมการถดถอย (Regression) ประเภทใดบ้าง?
- วิธีการวิเคราะห์การจัดกลุ่ม (Cluster analysis) ที่มีการสอนในหลักสูตรนี้มีอะไรบ้าง และมีเทคนิคใดที่ถูกระบุว่าใช้สำหรับการตรวจจับค่าผิดปกติ (outlier detection)?
- หลักสูตรนี้กล่าวถึงการเรียนรู้ของเครื่องและปัญญาประดิษฐ์ในระดับพื้นฐานอย่างไรบ้าง?
- หลักสูตรนี้มีเนื้อหาเกี่ยวกับการประมวลผลภาษาธรรมชาติ (Natural Language Processing – NLP) ในขั้นตอนใดบ้าง?
- อัลกอริทึม Apriori ถูกนำมาใช้เพื่อสร้างแบบจำลองประเภทใดในหลักสูตรนี้?
- นอกจากการเรียนรู้แบบมีผู้สอน (Supervised Learning) เช่น Regression แล้ว หลักสูตรนี้ยังครอบคลุมอัลกอริทึมประเภทอื่นใดอีกบ้าง?
- หลักสูตรนี้ให้ภาพรวมเกี่ยวกับโครงข่ายประสาทเทียม (Neural Networks) อย่างไร?
- กระบวนการทำงานกับแบบจำลอง Logistic Regression ที่หลักสูตรครอบคลุมมีขั้นตอนอะไรบ้างตั้งแต่ต้นจนจบ?
- หัวข้อใดในหลักสูตรที่เน้นเรื่องปัญญาประดิษฐ์เชิงกำเนิด (Generative AI) และให้คำแนะนำในการติดตามความก้าวหน้าของวงการ?
——————————————————————————–
เฉลยแบบทดสอบ
- ผู้สอนคือ Lillian Pierson ผู้เป็นนักยุทธศาสตร์ด้านการเติบโตของข้อมูลและ AI เป้าหมายของหลักสูตรคือการสอนให้ผู้เรียนสามารถใช้อัลกอริทึมการเรียนรู้ของเครื่องเพื่อให้ได้ข้อมูลเชิงลึกทางธุรกิจที่มีค่าและสามารถทำงานประจำซ้ำๆ ได้โดยอัตโนมัติ
- หลักสูตรนี้ครอบคลุมอัลกอริทึมการถดถอย 3 ประเภท ได้แก่ Linear Regression, Multiple Linear Regression และ Logistic Regression ซึ่งมีการอธิบายแนวคิดและการประยุกต์ใช้อย่างละเอียด
- วิธีการวิเคราะห์การจัดกลุ่มที่สอนในหลักสูตรประกอบด้วย Cluster analysis with the K-means method และ Hierarchical cluster analysis นอกจากนี้ยังมีเทคนิค DBSCAN ซึ่งถูกระบุว่าใช้สำหรับการตรวจจับค่าผิดปกติ (outlier detection) โดยเฉพาะ
- หลักสูตรนี้ปูพื้นฐานโดยการนิยามความหมายของวิทยาศาสตร์ข้อมูล (Data Science) แสดงให้เห็นว่าการเรียนรู้ของเครื่อง (Machine Learning) อยู่ในส่วนไหนของศาสตร์นี้ และอธิบายพื้นฐานของ AI ที่เกี่ยวข้องกับการเรียนรู้ของเครื่อง รวมถึงการจัดกลุ่มอัลกอริทึมต่างๆ
- หลักสูตรนี้มีเนื้อหาเกี่ยวกับ NLP โดยเริ่มจากการแนะนำเบื้องต้น (Introduction to NLP) จากนั้นจึงลงรายละเอียดในขั้นตอนการเตรียมข้อมูลข้อความ เช่น การทำความสะอาดและสกัดคำ (Cleaning and stemming) และการระบุรากศัพท์และวิเคราะห์ข้อมูล (Lemmatizing and analyzing)
- อัลกอริทึม Apriori ถูกนำมาใช้ในหัวข้อ “Association rules models” ซึ่งเป็นแบบจำลองที่ใช้ในการค้นหาความสัมพันธ์หรือกฎเชื่อมโยงระหว่างข้อมูลต่างๆ ในชุดข้อมูล
- หลักสูตรนี้ครอบคลุมอัลกอริทึมหลายประเภท นอกจากการถดถอยแล้ว ยังมี Instance-based learning with KNN, Decision trees with CART, Bayesian statistics with Naïve Bayes, และ Ensemble learning with random forest
- หลักสูตรให้ภาพรวมเกี่ยวกับโครงข่ายประสาทเทียมโดยเริ่มจากพื้นฐานด้วย “Neural networks with perceptrons” ซึ่งเป็นหน่วยพื้นฐานที่สุด จากนั้นจึงต่อยอดไปสู่หัวข้อ “Building a neural network” เพื่อแสดงวิธีการสร้างโครงข่ายที่ซับซ้อนขึ้น
- หลักสูตรครอบคลุมกระบวนการทำงานกับ Logistic Regression อย่างครบวงจร ตั้งแต่การอธิบายแนวคิด (Concepts), การเตรียมข้อมูล (Data preparation), การจัดการกับค่าที่หายไป (Treat missing values), การเข้ารหัสตัวแปรใหม่ (Re-encode variable), การตรวจสอบความถูกต้องของชุดข้อมูล (Validating dataset), การนำแบบจำลองไปใช้งาน (Model deployment), การประเมินผล (Model evaluation) และการทดสอบการทำนาย (Test prediction)
- หลักสูตรมีหัวข้อเฉพาะสำหรับ Generative AI ได้แก่ “Introduction to generative AI” และ “Deep dive into generative AI models” นอกจากนี้ยังมีหัวข้อ “Keeping up with AI developments” ที่ให้คำแนะนำในการติดตามความก้าวหน้าในสาขานี้ และมีการสาธิตการเขียนโค้ดเพื่อใช้งานแบบจำลอง Generative AI ด้วย
——————————————————————————–
คำถามเรียงความ
- จากหัวข้อที่ปรากฏในหลักสูตร จงอภิปรายเปรียบเทียบความแตกต่างที่เป็นไปได้ระหว่างเทคนิคการจัดกลุ่ม 3 วิธี: K-means, Hierarchical cluster analysis และ DBSCAN โดยพิจารณาจากชื่อหัวข้อและบริบท (เช่น การตรวจจับค่าผิดปกติ)
- อธิบายว่าลำดับหัวข้อเกี่ยวกับ Logistic Regression ตั้งแต่การเตรียมข้อมูลไปจนถึงการประเมินผลแบบจำลอง สะท้อนให้เห็นถึงขั้นตอนการทำงานจริงในโครงการวิทยาศาสตร์ข้อมูลอย่างไร
- จากภาพรวมของหลักสูตร จงวิเคราะห์ว่าการเรียนรู้ของเครื่อง (Machine Learning) ทำหน้าที่เป็นเครื่องมือในการบรรลุเป้าหมายทางธุรกิจที่ Lillian Pierson กล่าวถึงในตอนต้นได้อย่างไร
- อธิบายความสำคัญของหัวข้อ Natural Language Processing (NLP) และ Generative AI ในหลักสูตรวิทยาศาสตร์ข้อมูลยุคใหม่ โดยอ้างอิงจากเนื้อหาที่หลักสูตรเลือกที่จะนำเสนอ
- จงวิเคราะห์ว่าอัลกอริทึมที่หลากหลายซึ่งสอนในหลักสูตร (เช่น Decision Trees, Naïve Bayes, Random Forest, KNN) มีจุดเด่นหรือเหมาะกับสถานการณ์ที่แตกต่างกันอย่างไร โดยอาศัยการตีความจากชื่อและประเภทของอัลกอริทึมเหล่านั้น
——————————————————————————–
อภิธานศัพท์
| คำศัพท์ (Term) | คำจำกัดความ (Definition) |
| Data Science | ศาสตร์ที่หลักสูตรนี้ใช้เป็นพื้นฐาน โดยมีการนิยามและอธิบายขอบเขตในบทเรียนแรกๆ |
| Machine Learning (ML) | แกนหลักของหลักสูตร เป็นชุดของอัลกอริทึมที่ใช้เพื่อให้ได้ข้อมูลเชิงลึกทางธุรกิจและทำงานอัตโนมัติ |
| Linear Regression | อัลกอริทึมการถดถอยพื้นฐานที่สอนในหลักสูตร |
| Multiple Linear Regression | อัลกอริทึมการถดถอยที่ซับซ้อนขึ้นจาก Linear Regression ซึ่งถูกสอนในหลักสูตร |
| Logistic Regression | อัลกอริทึมการถดถอยที่หลักสูตรให้ความสำคัญเป็นพิเศษ โดยครอบคลุมกระบวนการทำงานทั้งหมด |
| Cluster Analysis | เทคนิคการวิเคราะห์เพื่อจัดกลุ่มข้อมูลที่ไม่มีป้ายกำกับ ซึ่งหลักสูตรนี้ครอบคลุมหลายวิธี |
| K-means method | หนึ่งในอัลกอริทึมการวิเคราะห์การจัดกลุ่มที่สอนในหลักสูตร |
| Hierarchical Cluster Analysis | อีกหนึ่งเทคนิคการวิเคราะห์การจัดกลุ่มแบบลำดับชั้นที่สอนในหลักสูตร |
| DBSCAN | อัลกอริทึมที่ระบุไว้ในหลักสูตรว่าใช้สำหรับการตรวจจับค่าผิดปกติ (outlier detection) |
| Principal Component Analysis (PCA) | เทคนิคที่กล่าวถึงในหลักสูตร ซึ่งมักใช้ในการลดมิติของข้อมูล |
| Apriori algorithm | อัลกอริทึมที่หลักสูตรนำเสนอเพื่อใช้กับแบบจำลองกฎความสัมพันธ์ (Association rules models) |
| Instance-based learning with KNN | วิธีการเรียนรู้ของเครื่องแบบหนึ่งที่สอนในหลักสูตร โดยใช้ K-Nearest Neighbors (KNN) |
| Decision Trees with CART | อัลกอริทึมต้นไม้ตัดสินใจที่ใช้ Classification and Regression Trees (CART) ซึ่งเป็นหัวข้อในหลักสูตร |
| Naïve Bayes | อัลกอริทึมที่ใช้หลักสถิติของเบย์ (Bayesian statistics) ซึ่งมีสอนในหลักสูตร |
| Ensemble learning with random forest | เทคนิคการเรียนรู้แบบกลุ่มที่ใช้ Random Forest ซึ่งเป็นหัวข้อการสอนในหลักสูตร |
| Neural Networks | แบบจำลองโครงข่ายประสาทเทียม ซึ่งหลักสูตรนี้ครอบคลุมตั้งแต่พื้นฐาน (Perceptrons) ไปจนถึงการสร้าง |
| Perceptrons | หน่วยพื้นฐานของโครงข่ายประสาทเทียม ซึ่งถูกใช้เป็นจุดเริ่มต้นในการสอนเรื่อง Neural Networks |
| Natural Language Processing (NLP) | สาขาหนึ่งของ AI ที่เกี่ยวข้องกับการประมวลผลภาษาของมนุษย์ โดยหลักสูตรครอบคลุมการแนะนำและการเตรียมข้อมูลข้อความ |
| Stemming | กระบวนการสกัดส่วนของคำ (stem) ซึ่งเป็นหนึ่งในเทคนิคการทำความสะอาดข้อมูลข้อความที่สอนในหลักสูตร |
| Lemmatizing | กระบวนการหารูปแบบพื้นฐานของคำ (lemma) ซึ่งเป็นเทคนิคการวิเคราะห์ข้อมูลข้อความที่สอนในหลักสูตร |
| Generative AI | ปัญญาประดิษฐ์เชิงกำเนิด เป็นหัวข้อขั้นสูงที่หลักสูตรนี้ให้ความสำคัญ โดยมีทั้งบทนำ การลงลึก และการสาธิตการใช้งาน |
