คลังข้อมูล คือ กลุ่มข้อมูลที่ถูกสร้างขึ้นเพื่อใช้ประกอบการตัดสินใจให้กับธุรกิจ โดยข้อมูลที่จัดเก็บในคลังข้อมูลเป็นทั้งข้อมูลในอดีตและข้อมูลปัจจุบัน เป็นข้อมูลทั้งแบบมีโครงสร้างและไม่มีโครงสร้าง ถูกจัดเก็บมาจากหลายแหล่ง เช่น สังคมออนไลน์ เว็บไซต์ เป็นต้น
รูปแบบข้อมูลเป็นแบบมีโครงสร้างซึ่งสามารถนำไปใช้ในการวิเคราะห์ได้ทันที
คุณลักษณะของคลังข้อมูล มีทั้งหมด 7 ข้อดังนี้
Subject Oriented
ข้อมูลจะถูกจัดเก็บแยกตามหมวดหมู่ที่สัมพันธ์กันอย่างชัดเจน เช่น ข้อมูลฝ่ายขายก็เก็บเอาไว้ในข้อมูลฝ่ายขาย ข้อมูลการซื้อ ข้อมูลสินค้า ข้อมูลลูกค้า เป็นต้น ซึ่งการเก็บข้อมูลอย่างมีระเบียบ นอกจากจะช่วยให้ผู้บริหารธุรกิจ หรือผู้เรียกใช้ข้อมูลสามารถติดตามผลการดำเนินการงานได้รวดเร็วแล้ว ยังทำให้ธุรกิจรู้ด้วยว่า สาเหตุที่ได้ผลการดำเนินงานเช่นนี้ เกิดจากอะไร
ความแตกต่างระหว่าง “คลังข้อมูล” กับ “ฐานข้อมูล”
ข้อมูลในฐานข้อมูลธรรมดา (Operational database) มีการจัดเก็บข้อมูลแบบ Product Orientation คือข้อมูลที่เป็น transaction ข้อมูลที่เป็นการเก็บรายวัน ต่อวัน ไม่มีข้อมูลในอดีต
Integrate
ข้อมูลในคลังข้อมูลมาจากหลายๆแหล่ง แต่การนำข้อมูลมาเก็บไว้ในที่เดียว ต้องมีกระบรวนการทำให้มันอยู่ในรูปแบบเดียวกันก่อน เช่น กรุงเทพมหานคร บางฐานข้อมูลอาจเก็บข้อมูลเป็น กทม บางฐานข้อมูลเก็บเป็น กรุงเทพ หน้าที่ของคลังข้อมูล คือต้อง integrate คือต้องบูรณาการ และแก้ไขรูปแบบของข้อมูลให้เป็นคำเดียวกันหมด
Time variant (time series)
ข้อมูลในคลังข้อมูลจะเป็นข้อมูลที่มีช่วงอายุ เช่น เป็นข้อมูลย้อนหลัง 5 ปี หรือ 10 ปี และระบบคลังข้อมูลจะบำรุงรักษาข้อมูลที่จัดเก็บไว้ตลอด เพื่อเป็นประโยชน์ในการพยากรณ์ การเปรียบเทียบและการตัดสินใจ การเก็บข้อมูลย้อนหลังไว้ ก็เพื่อนำมาทำการวิเคราะห์หาแนวโน้มและใช้พยากรณ์ทางธุรกิจ
วิธีเก็บรักษาข้อมูลเป็นระยะๆ ตัวอย่างเช่น ข้อมูลในคลังข้อมูล จะเก็บเวลาของ data ทำให้รู้ว่า data นี้เข้ามาตั้งแต่เมื่อไหร่ เป็นของวันไหน จากนั้นจะทำการจัดเก็บข้อมูลเป็นกลุ่ม (time series) เช่น เป็น 5 ปีย้อนหลัง 10 ปีย้อนหลัง ทำให้เราสามารถทำเอาวิเคราะห์แนวโน้มได้
Nonvolatile
หลังจากข้อมูลถูกบันทึกเข้าสู่คลังข้อมูลแล้ว ผู้ใช้จะไม่สามารถเปลี่ยนแปลง หรือแก้ไขข้อมูลได้ เพราะวัตถุประสงค์ของคลังข้อมูล คือ เพื่อการอ่านข้อมูล หรือการเรียกดูข้อมูล และใช้ในการวิเคราะห์ ประกอบการตัดสินใจเท่านั้น
โดยในความเป็นจริง จะมีวิธีดำเนินการหากต้องการแก้ไขข้อมูล เช่น ช่อง “ยอดขาย” ของข้อมูลในคลัง วันที่ 1 มีตัวเลขยอดขายอยู่ 1,000 บาท วันที่ 2 พบว่ามีเงินเข้ามาเพิ่มอีก 800 บาท เราจะไม่สามารถแก้ตัวเลขในช่อง “ยอดขาย” ให้เป็น 1,800 บาทได้ แต่เราสามารถเพิ่มแถว “ยอดขาย” ของวันที่ 2 เป็น 800 บาท จากนั้นให้รวมยอดขายของทุกวันเอาเองว่ามียอดขายทั้งหมด 1,800 บาท
Client Server
คลังข้อมูลจะใช้สถาปัตยกรรมแบบ Client-Server คลังข้อมูลเป็น Server และ Client คือ ผู้ใช้งาน เพื่อให้ผู้ใช้งานสามารถเข้าถึง และเรียกดูข้อมูลได้ง่าย ระบบแบบนี้เหมาะกับระบบที่มีผู้ใช้งานเยอะๆ
Real Time
คลังข้อมูลในปัจจุบันเป็น Real Time ผู้ใช้งานสามารถเข้าถึงข้อมูลและวิเคราะห์ได้ทันที ซึ่งก็อาจจะไม่ทันทีขนาดนั้น อาจมี delay บ้างสองสามวินาที ประมาณนี้
Meta หรือ Meta data
คลังข้อมูลต้องมีส่วนประกอบของ Metadat อยู่ด้วยเสมอ เพื่อให้ผู้ดูแลข้อมูลสามารถจัดการคลังข้อมูลได้ เช่น การเข้าถึงข้อมูลได้เร็วขึ้น เนื่องจากใน Meta data จะมีการระบุตำแหน่งของข้อมูลไว้เสมอ
Meta data เปรียบเสมือนพจนานุกรมข้อมูล เป็นส่วนที่ระบุว่าข้อมูลนี้อยู่ส่วนไหน ตำแหน่งไหนในคลังข้อมูล เป็นข้อมูลมีคุณลักษณะไหน เช่น เป็นตัวอักษร เป็นตัวเลข เป็น text เป็นต้น