งานที่เราทำตัวนี้เป็นการนำเสนองานเชิงวิชาการของระดับปริญญาโท ชื่อเรียกที่รู้กันทั่วไปในภาษาอังกฤษคือ Data Science Report ในมหาวิทยาลัยเรามักจะได้ยินอาจารย์เรียกมันสั้นๆว่างานวิจัย Data Sci

งานที่เราทำออกมาตัวนี้ไม่ได้เพอเฟ็คมาก แต่ก็อาจจะเป็นแนวทางให้คนที่กำลังทำวิจัยในมหาวิทยาลัย หรือคนที่ทำวิจัยเพื่อสัมภาษณ์งานในสายนักวิทยาศาสตร์ข้อมูลอยู่ได้

เราโพสงานวิจัยของเราได้ที่ลิ้งค์นี้ กดที่นี่เพื่อดูงานวิจัย งานวิจัยของเราชื่อ “ตรวจจับการฉ้อโกงบัตรเครดิตด้วย Logistic Regression ใน Machine Learning” เราเขียนงานนี้เมื่อ 14 กุมภาพันธ์ 2021

เราจะแบ่งกระบรวนการทำงานวิจัยนี้ออกเป็น 4 ส่วน

ส่วนที่ 1

ตั้งชื่องาน

การตั้งชื่องานที่ดี เราต้องกล่าวถึง Data Mining Technique และ Domain ที่เรานำมาใช้ในการประมวลผลข้อมูล Data Technique เช่น Classification, Outlier Detection หรือ Regression เป็นต้น ส่วน Domain คือการระบุว่างานของเรามันเกี่ยวข้องกับอะไร เช่น การฉ้อโกงบัตรเครดิต เป็นต้น ทำให้คนอ่านงานวิจัยของเราเข้าใจภาพรวมได้อย่างรวดเร็วว่างานของเราเกี่ยวกับอะไรบ้าง

ชื่อผู้วิจัย

บรรทัดต่อมาให้ใส่ชื่อและนามสกุล จากนั้นใส่ชื่อคณะ สาขา และมหาวิทยาลัยด้านล่าง (อันนี้เราไม่รู้ว่าคนที่ทำงานวิจัยเพื่อสัมภาษณ์งานต้องใส่อะไรนะ คุณอาจจะต้องถามบริษัทเอง)

บทคัดย่อ

บทคัดย่อ หรือ Abstract คือการเขียนความคิดโดยรวม กระชับ ว่าปัญหาสำหรับ Domain ที่เราทำคืออะไร เราใช้ Data Mining Tachnique ใดในการแก้ปัญหา และผลที่ได้อย่างคร่าวๆเป็นอย่างไร เราแนะนำว่าในส่วนนี้อย่าเขียนยาวมาก ไม่น่าจะเกิน 10 บรรทัดบนหน้ากระดาษ A4

คำสำคัญ

คำสำคัญ หรือ Keyword เพื่อให้คนอ่านเห็นแล้วรู้เลยว่าจะมีอะไรที่สำคัญในงานวิจัยของเราบ้าง อาจารย์ของเราแนะนำให้มีคำสำคัญ 3 คำ คำที่เราเลือกคือ “การตรวจจับการฉ้อโกงบัตรเครดิต, Logistic Regression, Supervised Machine Learning Technique”

ส่วนที่ 2

บทนำ

ในบทนำเราจะกล่าวถึง problem statement หรือ “ปัญหาที่ต้องได้รับการแก้ไข” และงานของเราต้องแก้ไขปัญหานี้ได้ด้วยนะ หากมันแก้ไขปัญหาไม่ได้ แปลว่างานของเรา Lack of Contribution คือ เป็นงานที่ไม่ต้องทำก็ได้ เพราะทำไปก็ไม่ได้ช่วยแก้ปัญหาอะไรได้ ดังนั้นส่วนนี้สำคัญมาก หากเราเลือกหัวข้อ และปัญหาแล้ว แต่งานวิจัยของเรามันแก้ปัญหาไม่ได้ แนะนำให้เปลี่ยนหัวข้อ

ในส่วนบทนำนี้เราควรมีการ Citation หรือการยกปัญหาที่เกิดขึ้นจริง ที่คนอื่นๆกล่าวถึงมาด้วย เพื่อเพิ่มน้ำหนักให้งานวิจัยของเราว่า “มันเป็นปัญหาจริงๆนะ” ไม่ใช่แค่เราที่คิดไปเอง คนอื่นก็คิดเหมือนกัน และ Solution หรือวิธีการที่เหมาะสมสำหรับการแก้ปัญหานี้คืออะไร เช่น ในงานวิจัยของเรานั้นใช้ Data Mining Technique อะไร และอ้างงานของคนอื่นๆที่อาจจะคล้ายกับเรา และใช้ Data Mining Technique เดียวกันแล้วได้ผลลัพธ์ดี และผลลัพธ์ที่งานของเราได้จากการประมาลผลมีประโยชน์อย่างไร

Objective

ส่วนนี้เป็นการกล่าวถึง Data Mining Technique ของเราที่เรากล่าวไว้ในบทนำแบบกระชับขึ้น ว่าทำไมต้องใช้เทคนิกนี้ เทคนิกนี้มันดีอย่างไร

Literature Review

ส่วนนี้ให้เราอธิบายให้ละเอียดขึ้นว่าเทคนิกที่ใช้ในการแก้ปัญหานี้มันเทคนิกอะไรอีกบ้าง และแต่ละเทคนิกมันดียังไง ทำไมสุดท้ายแล้วเราเลือกเทคนิกนี้ สิ่งที่สำคัญในส่วนนี้คือ เราต้องไปหาปัญหาจริงๆ เรื่องจริงที่เกิดขึ้นจากงานวิจัยอื่นก็ได้ หรือจากข่าวก็ได้ (อย่าลืมให้เครดิตที่มาและวันที่ที่เผยแพร่ด้วย) และอธิบายว่าตัวอย่างงาน หรือข่าวเหล่านั้นใช้เทคนิกอะไร แล้วได้ผลแบบไหน ในงานของเรา เราหามา 3 ข่าว/งานวิจัย แต่จริงๆควรจะมากกว่านั้นนะ สัก 6 ข่าว/งานวิจัยก็ดี

เวลาเขียนอย่าไปลอกเนื้อข่าวมา ให้ดัดแปลงให้กลายเป็นภาษาของเราเองก่อน (อย่าคิดว่าอาจารย์จะจับไม่ได้ เพราะแค่คัดลอกเนื้อหาแล้วค้นใน Google มันก็จะดึงเว็บที่เราลอกมาให้ดูแล้ว)

ส่วนที่ 3

Data Pre-processing

เราหา Data Set จากเว็บไซต์ Kaggle และเราแสดงแผนภาพ Flow chart ก่อนว่าเรามีแผนการจัดการกับ Data Set ที่เราได้มาอย่างไรบ้าง

เมื่อได้ Data มาแล้ว เราต้องกล่าวว่าจัดการกับข้อมูลยังไงบ้าง ข้อมูลที่เราได้มาส่วนใหญ่มันจะมี missing value อยู่แล้ว ซึ่งเราคิดว่าคุณควรเลือก Data Set ที่มันค่อนข้างดิบหน่อยจะดีกว่า ไม่ควรเอา Data Set ที่คนอื่น Clean มาแล้ว เพราะถ้าคนอื่น clean มาแล้ว ในส่วนนี้ของคุณจะว่างไปเลย หาก Data Set มันไม่ Clean คุณจะสามารถแสดงภาพก่อน Clean และหลัง Clean Data set ให้อาจารย์หรือคนสัมภาษณ์เห็นทักษะในการ clean data ของคุณได้ ขั้นตอนง่ายๆในการ Clean Data เช่น การจัดการกับ Missing Value และ Outlier เป็นต้น

ในขั้นตอนนี้อธิบายอย่างกระชับว่าเรามีแผนการจัดการอย่างไรให้ Data Set ของเราพร้อมต่อการทำโมเดล

Data Processing

ขั้นตอนนี้เราทำ Flowchart แสดงแผนการตั้งแต่การจัดการ Data Set (ที่ cleaned เรียบร้อยแล้ว) ไปจนถึงการได้มาซึ่งโมเดล และการทดสอบประสิทธิภาพของโมเดล

ส่วนที่ 4

Conclusion

คือการสรุปผล ให้เราเล่าอย่างกระชับว่าโมเดลของเรามันดียังไง มันมีจุดบอดตรงไหนไหม? และหากคนที่อ่านอยู่ต้องการทำงานวิจัยแบบเดียวกัน เราจะแนะนำอย่างไรเพื่อให้งานวิจัยชิ้นต่อมาดีกว่าชิ้นนี้ หรือคนที่สนใจงานวิจัยของเราจะเอางานของเราไปทำประโยชน์อะไรได้บ้าง

ส่วนที่ 5

ส่วนนี้ในภาษาอังกฤษเรียกว่า Reference ในภาษาไทยน่าจะเรียกว่า บรรณานุกรม เราจะเขียนโดยใช้รูปแบบ APA format เราแนะนำให้คนเอาเองบน Google นะ เพราะรูปแบบนี้จะเขียนต่างกันนิดหน่อย ขึ้นอยู่กับว่า reference ของเรามาจากหนังสือ นิตยสาร เว็บไซต์ หรืองานวิจัยของคนอื่น งานของเราจะมี refernece จากเว็บไซต์และงานวิจัยต่างประเทศ เพราะเช่นนั้นเราก็จะรู้ APA format แค่แบบเดียวเท่านั้น

APA Format สำหรับเว็บไซต์และงานวิจัยบนอินเตอร์เน็ต

ช่ือผู้เขียน วันที่เขียน ชื่อเว็บไซต์ และลิ้งค์เว็บไซต์

altexsoft (2020). Fraud Detection: How Machine Learning Systems Help Reveal Scams in Fintech, Healthcare, and eCommerce. https://www.altexsoft.com/whitepapers/fraud- detection-how-machine-learning-systems-help-reveal-scams-in-fintech-healthcare-and- ecommerce/

ตัวอย่างการเขียน Reference APA Format

ทั้งหมดนี้คือขั้นตอนที่เราใช้ทำงานวิจัยของเรา ซึ่งเราคิดว่างานวิจัยของแต่ละคนอาจจะไม่ได้มีขั้นตอนเหมือนกันทุกขั้นตอนซะทีเดียว เพราะมันก็ขึ้นอยู่กับสิ่งที่อาจารย์หรือคนสัมภาษณ์งานแต่ละคนต้องการเห็นในงานวิจัยของเราด้วย หากใครอ่านแล้วยังงงๆอยู่ เราว่าไม่ต้องตื่นตกใจมาก เพราะถ้าเริ่มลงมือทำ ก็จะเริ่มเข้าใจเอง ทำไปเรื่อยๆทีละขั้นตอน หากยังสับสนอยู่ดี ก็ลองดูงานของเราเปรียบเทียบไปก็ได้ (แต่บอกก่อนว่าเราก็ไม่ได้คะแนนเต็มนะ ประมาณ 85%) หากใครทำงานวิจัยที่ใช้เทคนิกเดียวกันกับเรา ก็สามารถกล่าวถึงงานวิจัยเราในส่วนบทคัดนำ และทำ reference มาที่งานของเราได้