Pandas คืออะไร?

Pandas เป็น software library ที่ถูกเขียนด้วยภาษา Python ใช้ในการจัดการและวิเคราะห์ข้อมูล หรือ data โดยมี data structures และ operations ต่างๆ ที่ใช้ในการจัดการกับตารางตัวเลขและ time series

Pandas เป็น software ฟรี ชื่อของมันได้มาจากคำว่า “panel data” ผู้สร้าง library นี้คือ Wes McKinney ตอนที่เขาทำงานเป็นนักวิจัยเมื่อปี 2007-2010

Features ของ Library

  • DataFrame object สำหรับจัดการข้อมูลด้วยการทำดัชนี้แบบรวม
  • เครื่องมือสำหรับอ่านและเขียนข้อมูลระหว่างโครงสร้างข้อมูลที่อยู่ในหน่วยความจำและไฟล์ใน formats อื่นๆ
  • การจัดตำแหน่งข้อมูลและรวบรวมข้อมูลสำหรับ missing data หรือข้อมูลที่ขาดหายไป
  • การ reshape และการ pivot สำหรับชุดข้อมูลหรือ data set
  • การทำ label สำหรับการ slicing, การ indexing หรือการทำดัชนี การย่อยชุดข้อมูลที่มีขนาดใหญ่
  • การแทรกและการลบคอลัมน์ ของ data structure
  • จัดกลุ่มตาม engine เพื่อให้สามารถใช้การดำเนินการ split-apply-combine กับ data set
  • การ merging และ joining ของ Data set
  • การ indexing (ดัชนี) แกนแบบตามลำดับชั้น เพื่อใช้ในการทำงานกับข้อมูลแบบ high-dimensional ใน data structure ที่มีมิติต่ำกว่า
  • ฟังก์ชั่น time series: การสร้าง range ของวันและความถี่ของการเปลี่ยนแปลง, การย้าย window statistics, การย้าย window linear regressions, การ shift วัน และการ lagging
  • การกรองข้อมูล
  • library ได้รับการปรับให้ทำงานได้อย่างมีประสิทธิภาพมากขึ้น โดยมีการใช้ภาษา Cython และ C เขียนเพิ่ม

Dataframes

หลักๆแล้ว Pandas จะถูกใช้สำหรับการวิเคราะห์ข้อมูล โดยเราสามารถนำเข้าข้อมูลได้หลายรูปแบบ เช่น comma-separated values, JSON, SQL หรือ Microsoft Excel เป็นต้น และมี operations มากมายที่ใช้ในการจัดการกับข้อมูล

ที่มา: Wikipedia Pandas (software)