ก่อนที่จะใช้ library Pandas ได้ เราต้องติดตั้ง library Pandas ก่อน หากไม่แน่ใจว่าตัวเองติดตั้ง pandas แล้วหรือยัง ให้เช็คใน IDE ของเราเองก็ได้

หากใช้ Eclipse ให้เปิด Eclipse ก่อน จากนั้นกดที่คำว่า Eclipse ซ้ายมือด้านบน –> Preferences… –> PyDev –> Interpreter –> Python Interpreter จากนั้นมันควรจะแสดง Python Interpreter ทั้งหมดที่เรามีในเครื่อง ให้กดอันที่เราใช้ (เราไม่ควรใช้ Python version 2 ควรจะเป็น version 3 ขึ้นไป) ที่ด้านล่างจะปรากฏรายการของ Libraries ที่เราติดตั้งไว้ หากไม่เจอ pandas ให้ติดตั้ง pandas

ติดตั้ง pandas

ติดตั้ง pandas โดยใช้ pip ในที่นี้เราจะใช้ pip3 ให้เปิด terminal และพิมพ์คำสั่งต่อไปนี้

pip3 install pandas

จากนั้นให้กลับมาที่หน้า IDE ของเรา หากเราสร้าง PyDev module และ import pandas ไว้แล้วในบรรทัดแรกก่อนที่จะติดตั้ง pandas แนะนำให้ลบ module นั้นออกจาก directory แล้วสร้าง PyDev module อันใหม่เลย

Pandas Data Structure

โครงสร้างข้อมูลของ pandas มี 2 อันคือ

  • Series –> เป็นลิสหนึ่งแบบหนึ่งมิติ คือมีลิสเดียว ข้อมูลแถวเดียว
  • DataFrames –> เป็นโครงสร้างข้อมูลแบบ 2 มิติ ประกอบด้วยแถวและคอลัมน์ คล้ายตาราง

วิธีการสร้าง Series

เราต้อง import library ที่ชื่อ Pandas ที่ด้านบน module ก่อน จากนั้นตั้ง alias ที่จะใช้เรียกคำสั่งจาก library นั้น alias จะตั้งเป็นอะไรก็ได้ แต่เพื่อความเป็นสากล ให้ตั้งว่า pd คนอื่นๆที่อ่านโค๊ดของเราจะเข้าใจได้ในทันทีว่ามันคืออะไร

ในตัวอย่าง เรา import pandas ที่บรรทัดที่ 6 และตั้งชื่อมันว่า pd
เรามีลิสอยู่ชื่อว่า subjects โดยในลิสของเรามีข้อมูลชนิด string อยู่ เป็นชื่อวิชา 3 วิชา
เราสามารถแปลงลิสให้เป็น Series ได้โดยใช้ pd.Series() ฟังก์ชั่น
อย่าลืมว่าภาษา Python เป็น case sensitive ดังนั้นห้ามใช้สลับตัวพิมพ์ใหญ่กับตัวพิมพ์เล็ก
จากนั้นเราใช้คำสั่ง print() เราจะได้ output ด้านล่างนี้

วิธีการสร้าง DataFrame

DataFrame จะได้มาจาก Series ตั้งแต่ 2 Series ขึ้นไปมารวมกัน เราจึงต้องสร้าง Series เพิ่มอีก

ในตัวอย่างบรรทัดที่ 10 เราสร้าง Series เพิ่มอีกหนึ่งอันโดยใช้ฟังก์ชั่น pd.Series() ให้เป็นเกรดที่ได้ในแต่วิชา สังเกตว่าจำนวนเกรดและจำนวนวิชามีจำนวนเท่ากัน เมื่อเราเอาสอง Series นี้มารวมกัน มันจะจับคู่กันตามตำแหน่ง index นั่นหมายความว่าวิชา ‘math’ คู่กับเกรด ‘C’ ตามลำดับ

ต่อมาบรรทัดที่ 11 เราสร้าง Dictionary ที่บรรจุด้วยข้อมูลสองตัว อันแรกได้มาจาก subjects_series ส่วนอันที่สอง grades_series
Series ทั้งสองอันจะไปอยู่บนตาราง เราต้องตั้งชื่อให้คอลัมน์ของมันด้วย ให้เลือกชื่อที่มีความหมายตรงกับข้อมูลที่เรากำลังนำเสนอในตาราง เราตั้งชื่อคอลัมน์หนึ่งว่า Subject และจะเสนอชื่อวิชาทั้งหมดของ Series อีกคอลัมน์ชื่อ Grade และจะนำเสนอเกรดที่ได้ในแต่ละวิชา

บรรทัดที่ 12 เราส่ง Dictionary ของเราเข้าไปใน pandas DataFrame

เมื่อเรา print() เราจะได้ผลลัพธ์ด้านล่างนี้


ตัวเลข 0 1 2 ที่อยู่ข้างหน้าแต่ละบรรทัดคือตัวเลข index หรือตำแหน่งดัชนีเท่านั้น ไม่ได้มีผลอะไรกับค่าของข้อมูล แต่มีความสำคัญและใช้ระบุตำแหน่งของข้อมูล