กับ Distribution แบบอื่น ๆ

สวัสดีค่ะ วันนี้เราจะมาทำความเข้าใจเกี่ยวกับ Normal Distribution หรือการแจกแจงปกติกันนะคะ Normal Distribution เป็นการกระจายตัวของข้อมูลที่พบได้บ่อยที่สุดในทางสถิติ โดยข้อมูลส่วนใหญ่จะกระจุกตัวอยู่บริเวณค่ากลางหรือค่าเฉลี่ย และค่อยๆ ลดหลั่นลงไปทางสองด้านของค่ากลางอย่างสมมาตร เมื่อนำมาพล็อตกราฟจะได้รูปร่างเป็นโค้งรูประฆังคว่ำที่เราคุ้นเคยกัน

Normal Distribution มีคุณสมบัติทางสถิติที่สำคัญหลายประการ เช่น ค่าเฉลี่ย (Mean) ค่ามัธยฐาน (Median) และค่าฐานนิยม (Mode) จะมีค่าเท่ากันเสมอ และพื้นที่ใต้กราฟของ Normal Distribution จะมีค่าเท่ากับ 1 เนื่องจากผลรวมของความน่าจะเป็นของทุกเหตุการณ์ต้องเท่ากับ 1 นั่นเอง จึงมีอีกชื่อเรียกหนึ่งว่า Standard Normal Distribution

นอกจากนี้เรายังสามารถบอกตำแหน่งของข้อมูลแต่ละจุดบน Normal Distribution ได้โดยใช้ค่า z-score ซึ่งเป็นการบอกว่าข้อมูลอยู่ห่างจากค่าเฉลี่ยกี่ Standard Deviation (ส่วนเบี่ยงเบนมาตรฐาน) โดยค่า z-score เป็นบวกแสดงว่าข้อมูลอยู่ทางขวาของค่าเฉลี่ย และค่า z-score เป็นลบแสดงว่าอยู่ทางซ้ายของค่าเฉลี่ย

โดยสรุป Normal Distribution คือรูปแบบการกระจายตัวที่สำคัญที่สุดในเชิงสถิติ ซึ่งมีรูปร่างเป็นโค้งระฆังสมมาตร มีคุณสมบัติทางคณิตศาสตร์ที่เอื้อประโยชน์ต่อการวิเคราะห์ข้อมูล และสามารถใช้อธิบายการกระจายตัวของข้อมูลได้อย่างกว้างขวางในแทบทุกสาขา หวังว่าบทความนี้จะช่วยให้ผู้อ่านเข้าใจถึงความหมายและความสำคัญของ Normal Distribution มากยิ่งขึ้นนะคะ

ว่าแต่ ใน DATA ไม่ได้มีแต่ Normal Distribution หรอกนะ

จากภาพจะเห็นได้ว่ามี Distribution อื่น ๆ มากมาย ถามว่าทำไมไม่ใช่ Normal Distribution ล่ะ? ก็ต้องตอบว่าเป็นเพราะธรรมชาติของ Dataset นั้น ๆ ค่ะ

*ผู้อ่านสามารถศึกษาเพิ่มเติมได้จากเริ่ม Central Limit Thorem จาก Github ที่สอนการเขียน R ได้เลย

ถ้าไม่ใช่ Normal Distribution แล้วมีอะไรได้บ้างล่ะ?

เริ่มจาก Uniform Distribution กันก่อนเลย เป็น Distribution ที่ทุกค่ามีโอกาสเกิดขึ้นเท่ากันหมดเลย เหมือนการทอยลูกเต๋า ที่แต้มแต่ละด้านมีโอกาสออกมาเท่ากันไง ง่ายใช่มั้ยล่ะ

ต่อมาก็เป็น Binomial Distribution ล่ะ คราวนี้เหมือนโยนเหรียญ มีแค่ 2 ผล คือ หัว กับ ก้อย โดยโอกาสออกหัวหรือก้อยก็ 50/50 เลย เวลาเราโยนเหรียญหลายๆ ครั้ง แล้วนับจำนวนครั้งที่ออกหัว Distribution มันก็จะออกมาเป็นหน้าตาแบบ Binomial นี่แหละ

มาต่อกันที่ Poisson Distribution บ้าง เอาง่ายๆ ก็คือ มันใช้อธิบายเหตุการณ์ที่เกิดขึ้นแบบสุ่มในช่วงเวลาหนึ่งๆ อย่างเช่น จำนวนสายที่โทรเข้า Call Center ใน 1 ชั่วโมง หรือจำนวนลูกค้าที่เข้าร้านในเวลา 1 วัน เป็นต้น

อีกอันนึงที่น่าสนใจก็ Exponential Distribution ค่ะ ง่ายๆ ก็คือ ใช้บอกระยะห่างระหว่างเหตุการณ์ เช่น เวลาระหว่างสายที่โทรเข้ามา หรือเวลาระหว่างลูกค้าที่เดินเข้าร้าน เห็นมั้ยว่ามันต่อเนื่องจาก Poisson เลย

จากนั้นก็มาถึงตระกูล Power Law Distribution ซึ่งมีหลายแบบมากเลย เช่น Pareto, Log-normal, Zipf เป็นต้น ลักษณะของมันก็จะมีหางยาวทางขวา หมายความว่าส่วนใหญ่จะกระจุกตัวที่ค่าเล็กๆ แต่บางส่วนจะมีค่าสูงมากๆ เหมือนการกระจายรายได้ในสังคมที่คนส่วนใหญ่มีรายได้น้อย แต่มีคนส่วนน้อยที่รวยมากๆ ไงล่ะ

อีกหนึ่งตัวที่ขอเอ่ยถึงคือ Bimodal Distribution ที่จะมี 2 ยอด แทนที่จะมียอดเดียวเหมือน Normal ตัวอย่างเช่น ข้อมูลความสูงของประชากร ผู้ชายกับผู้หญิงจะมียอด 2 ยอดที่สูงไม่เท่ากัน แบบนี้เป็นต้น

สุดท้าย ขอปิดท้ายที่ Multivariate Distribution นะ เป็นพวกข้อมูลหลายตัวแปรที่พิจารณาร่วมกัน เช่น ความสูงกับน้ำหนัก มีการกระจายแบบ Joint Distribution ที่ต้องดูทั้งคู่พร้อมกัน ไม่ใช่แยกกันคนละตัว แบบนี้ไงจ๊ะ

เป็นไงบ้างคะ หวังว่าจะได้มุมมองเกี่ยวกับ Data Distribution เพิ่มขึ้นบ้างนะ อย่างที่แมวบอก ไม่ได้มีดีแค่ Normal อย่างเดียวจริงๆ เวลาเจอข้อมูล ลองสังเกตดูหน่อยก็ได้ว่ามันตรงกับ Distribution แบบไหน จะได้เลือกใช้เครื่องมือวิเคราะห์ได้เหมาะสมด้วย แล้วเจอกันใหม่บทความหน้านะคะ <3


Leave a Reply

Your email address will not be published. Required fields are marked *