Task ของ Data Mining
posted on 29 Sep 2008 09:34 by interviewz in DataMining
:+:+: DATA MINING จ้า :+:+:\
แปลและเรียบเรียง จากชีท ที่เรียนในห้องเรียนนะ
แปลและเรียบเรียง จากชีท ที่เรียนในห้องเรียนนะ
Classification การแบ่งแยกออกเป็นประเภท
ในการแบ่งแยกออกเป็นประเภท จะมี target variable (เป้าหมายที่แยกออกเป็นประเภท) เช่น income bracket (หมวดหมูรายได้) ที่สามารถแยกออกเป็น 3 ประเภท : รายได้สูง , รายได้ปานกลาง , รายได้น้อย ใน data mining model จะพิจารณาเรคคอร์ดจำนวนมาก ทุกเรคคอร์ดมี information อยู่บน target variable เช่นเดียวกับ กลุ่มของ input หรือ predictor variable ตัวอย่างเช่น พิจารณาการตัดถ้อยคำมาจากข้อมูลที่แสดงในตาราง 1.1 (หน้า27ของชีท) สมมุติว่านักวิจัยแบ่งประเภทของรายได้ของบุคคล โดยขึ้นอยู่กับความสัมพันธ์กับบุคคลนั้น เช่น อายุ เพศ และอาชีพ เป้าหมายนี้คือการแบ่งแยกประเภท มีอัลกอริทึมดังนี้
1. พิจารณาข้อมูลที่ประกอบไปด้วย predictor variable (อายุ เพศ อาชีพ) และ target variable (ที่ถูกแบ่งไว้แล้ว ซึ่งก็คือ income bracket) วิธีนี้ใช้อัลกอริทึม learn about ซึ่งรวม variable ที่มีความสัมพันธ์กับ income bracket ตัวอย่างเช่น ผู้หญิงสูงอายุอาจมีความสัมพันธ์กับ รายได้สูง data set นี้เรียกว่า training set
2. ต่อมา อัลกอริทึมนี้จะมองที่เรคคอร์ดใหม่ ซึ่งไม่มีข้อมูลอยู่ใน income bracket เพื่อพิจารณาและจัดให้อยู่ในประเภทใดประเภทหนึ่ง เช่น ผู้หญิงอายุ 63 ปี อาจจะอยู่ในกลุ่มประเภท รายได้สูง
ตัวอย่างการแบ่งแยกออกเป็นประเภทในธุรกิจ
- ประเมินราคาการจำนองว่ามีเครดิตดีหรือไม่ดี
- วินิจฉัยโรคว่าอยู่ในกลุ่มโรคใด
- พิจารณาว่าพินัยกรรมถูกเขียนโดยผู้ตายหรือผู้ไม่หวังดี
- ระบุว่าฝ่ายการเงินที่พลาด หรือบุคคลที่มีพฤติกรรมชี้ว่าทำการโกง
Clustering การจัดกลุ่มสิ่งที่เหมือนกัน
การจัดกลุ่มสิ่งที่เหมือนกัน หมายถึง การจัดกลุ่มของเรคคอร์ด การเฝ้าดู และแปลงลงให้อยู่ใน class ของกลุ่ม object ที่คล้ายๆกัน cluster เป็นกลุ่มของเรคคอร์ดที่คล้ายกัน และไม่เหมือนกันกับเรคคอร์ดที่อยู่ใน cluster อื่น
Cluster ต่างจาก Classification ตรงที่มันไม่มีกลุ่มที่แน่นอนในการจัดกลุ่ม อัลกอริทึมของมันพยายามมองหาส่วนของข้อมูลทั้งหมด แบ่งเป็นกลุ่มย่อยซึ่งมีความสัมพันธ์กันหรือเหมือนกัน โดยที่เรคคอร์ดที่คล้ายกันจัดให้อยู่ในกลุ่มเดียวกันให้ได้มากที่สุด
Claritas คือ clustering business มีบริการการศึกษาเรื่องประชากรของทุกพื้นที่ในประเทศ กำหนดแบ่งพื้นที่ตามรหัสไปรษณีย์ เครื่องที่ใช้ในการทำ cluster คือ PRIZM segment system ซึ่งอธิบายทุกพื้นที่ zipcode ใน U.S. ในรูปแบบของประเภท lifestyle ที่ชัดเจน (ดูตาราง1.2) แค่เข้ามาดูเวบไซต์ของบริษัท ใส่รหัสไปรษณีย์ ก็จะรู้ว่าคนในพื้นที่นั้นมี lifestyle อย่างไร เอาไปทำอะไรได้บ้าง
- กำหนดเป้าหมายการตลาด
- เพื่อการตรวจสอบบัญชี
- แบ่งประเภทของยีน
Association การวิเคราะห์ความสัมพันธ์
เป็นการค้นหาว่า attribute ใดที่ไปด้วยกันได้ เพื่อความเป็นต่อในโลกธุรกิจ เรียกว่า affinity analysis (การวิเคราะห์ความสัมพันธ์) หรือ market basket analysis งานของ Association คือ มองหากฎสำหรับกำหนดปริมาณจำนวนของความสัมพันธ์ระหว่าง 2 attribute หรือหลาย attribute กฎของความสัมพันธ์ได้มาจาก If ,then ตัวอย่างเช่น ซุปเปอร์มาเก็ตอาจจะพบว่าลูกค้า 1000 คน ซื้อสินค้าในคืนวันพฤหัสบดี มี 200 คนซื้อผ้าอ้อม และใน 200 คนนั้นมีคนซื้อเบียร์ 50 คน ดังนั้น กฎของความสัมพันธ์คือ If ซื้อผ้าอ้อม ,then ซื้อเบียร์ ซึ่ง support 200/100=20% และมั่นใจได้ 50/200=25%
ตัวอย่างในธุรกิจ
- ดูว่าสัดส่วนของสมาชิกของบริษัทมือถือมีผลตอบรับไปในทางบวก เพื่อเสนอการอัพเกรดการให้บริการ? งง
- พิจารณาสัดส่วนของเด็ก ที่พ่อแม่อ่านหนังสือให้ฟัง แล้วเป็นนักอ่านที่ดี
- หาว่าสินค้าชิ้นไหนในซุปเปอร์มาเก็ตที่มักถูกซื้อคู่กันเสมอ และสินค้าคู่ไหนที่ไม่เคยถูกซื้อคู่กันเลย
- พิจารณาสัดส่วนของเคส ที่ยาตัวใหม่ก่อให้เกิดผลข้างเคียง
http://interviewz.exteen.com
(ไม่ได้โฆษณานะ ^^)
#1 By TonHor on 2009-02-22 19:51