Databases and Warehousing
Data Management:A Critical Success Factor
แก้ไขการประยุกต์ใช้ IT ในด้านต่าง ๆ จะไม่สำเร็จได้เลย ถ้าปราศจากข้อมูล นั่นคือข้อมูลจะต้องมีคุณภาพสูง (หมายถึง ข้อมูลต้องมีความถูกต้อง สมบูรณ์ เหมาะสมกับเวลา ไม่แปลเปลี่ยนไปมา เข้าถึงได้ ตรงประเด็น และรัดกุม) พื้นฐานของการบริหารข้อมูลประกอบไปด้วย 4 ส่วน คือ
- Data profiling :: การทำความเข้าใจกับข้อมูล
- Data quality management :: การปรับปรุงคุณภาพของข้อมูล
- Data integration :: รวมข้อมูลจากหลายแหล่งที่มีลักษณะคล้ายกันเข้าด้วยกัน พร้อมทั้งระบุที่มาของข้อมูล
- Data augmentation :: การปรับปรุงคุณค่าของข้อมูล
ความยุ่งยากในการจัดการกับข้อมูล
แก้ไข- ขนาดของข้อมูลจะเพิ่มขึ้นในเชิง exponential เมื่อเทียบกับเวลา
- ข้อมูลจะกระจายอยู่ทั่วทั้งองค์กร มันถูกรวบรวมเอาไว้หลายแบบ โดยใช้หลาย ๆ วิธีการในการรวบรวมข้อมูล และใช้เครื่องมือที่แตกต่างกันออกไป
- การเพิ่มขึ้นของข้อมูลจากภายนอกองค์กร จะขึ้นอยู่กับแนวทางที่ได้ตัดสินใจของ องค์กรนั้น ๆ
- ความปลอดภัยของข้อมูล คุณภาพ และ ความสมบูรณ์ (integrity) เป็นตัววิกฤต และเกิดอันตรายได้ง่าย
- การเลือกเครื่องมือที่นำมาใช้บริหารข้อมูลจะเป็นปัญหาใหญ่ เพราะมีให้เลือกจำนวนมาก
- ข้อมูลที่ถูกสร้างขึ้นและถูกนำมาใช้ในเชิง offline โดยไม่มีการตรวจสอบการควบคุมคุณภาพ จะทำให้เกิดคำถามเกี่ยวกับความถูกต้องของข้อมูล
File Management
แก้ไขระบบคอมพิวเตอร์จัดข้อมูลเป็นลำดับขั้น จากบิต ไบต์ ฟีลด์ เรคคอร์ด ไฟล์ และ ฐานข้อมูล
ปัญหาที่เกิดขึ้นกับแฟ้มข้อมูล
แก้ไข- Data redundancy :: ไฟล์แอพพลิเคชัน และ ข้อมูล อาจถูกสร้างมาจากโปรแกรมเมอร์หลายคนเป็นเวลานานแล้ว ดังนั้น ข้อมูลเดียวกันอาจถูกทำซ้ำ (duplicate) เป็นหลาย ๆ ไฟล์ ทำให้เกิดความสิ้นเปลืองในหลาย ๆ ด้าน
- Data inconsistency :: โดยผลของข้อ 1 จะทำให้เกิด ข้อ 2 คือ ข้อมูลที่มีอยู่นั้นแตกต่างกันออกไป ทั้งนี้เนื่องจากคน ๆ หนึ่งอาจแก้แค่ไฟล์เดียว ทำให้ไฟล์อื่น ๆ ที่มีการ duplicate ออกไป ไม่ถูกแก้
- Data isolation :: โดยโครงสร้างของไฟล์ที่สร้างขึ้นในที่หนึ่งอาจทำให้แอพพลิเคชันอื่น ๆ เข้าถึงข้อมูลนั้น ๆ ได้ยาก เพราะโครงสร้างของไฟล์แตกต่างกัน
- Data integrity :: จะเป็นเรื่องยากในการกำหนดข้อจำกัดในด้าน data integrity ได้ตลอดทั่วทั้ง (across) multiple files
Data Warehousing
แก้ไขคลังข้อมูล เป็นการเก็บรวบรวมข้อมูลตั้งแต่อดีต ในลักษณะของ subject-oriented เพื่อให้ง่าย และสะดวกต่อการเข้าใช้ข้อมูล ซึ่งข้อมูลเหล่านี้จะถูกนำไปเป็นพื้นฐานของการวิเคราะห์ข้อมูล และเป็นส่วนช่วย และสนับสนุนการตัดสินใจ เช่น การใช้ /Data mining , /Decision support นอกจากนี้ยังมีกระบวนการทำงานที่สำคัญ คือ การประมวลผลเกี่ยวกับการทำธุรกรรม (Transactional processing) ที่สามารถนำไปใช้ในระบบปฏิบัติงานต่าง ๆ ซึ่งทำให้องค์กรมีความสามารถที่จะดำเนินการทำธุรกรรมต่าง ๆ รวมทั้งการทำรายงานที่เกี่ยวข้องของธุรกิจนั้น ๆ นอกจากนี้ยังมีส่วนต่าง ๆ ที่มีความเกี่ยวข้องกับการทำ คลังข้อมูลที่ควรศึกษาเพิ่มเติม เช่น /Data Mart , /Metadata และมีการอาศัยการวิเคราะห์ข้อมูลในคลังข้อมูล โดยกระบวนการที่เรียกว่า /Online Analytical Processing (OLAP) ซึ่งสามารถสรุปประโยชน์ของคลังข้อมูล ได้ดังนี้
- นำเสนอข้อมูลทางธุรกิจไปให้กับผู้ใช้
- ความสามารถในการเข้าถึงข้อมูลได้อย่างสะดวก รวดเร็ว ข้อมูลทั้งหมดถูกเก็บไว้ในที่เดียวกัน
- ความสามารถเข้าใช้ข้อมูลรวดเร็วเพราะผ่านทาง web browsers
คุณลักษณะของคลังข้อมูล
แก้ไข- Organization ข้อมูลถูกจัดแบ่งเป็นหัวข้อและมีสารสนเทศที่สามารถนำมาใช้ สนับสนุนในการตัดสินใจเท่านั้น
- Consistency ข้อมูลใน different operational databases อาจถูกรวบรวม (code) แตกต่างกัน แต่สำหรับใน data warehouse แล้ว มันจะต้องถูกรวบรวมในลักษณะ หรือ ในรูปแบบเดียวกัน ตลอดเวลา
- Time variant ข้อมูลจะถูกเก็บรวมไว้หลาย ๆ ปี ดังนั้นมันจึงสามารถนำมาใช้ใน การทำนายแนวโน้ม การพยากรณ์ และ การเปรียบเทียบต่าง ๆ ตลอดระยะเวลา ที่จัดเก็บ
- Non-volatile ข้อมูลจะต้องไม่ถูก update (ไม่ทำการเปลี่ยนแปลงแก้ไข) หลังจาก เก็บเข้าไปใน warehouse แล้ว
- Relational ในทางปฏิบัติแล้ว data warehouse จะใช้โครงสร้างแบบ Relational Structure
- Web-based ข้อมูลของ data warehouse ในปัจจุบันนี้ จะถูกออกแบบให้มี efficient computing environment เพื่อใช้ใน web-based application ต่าง ๆ #Integration ข้อมูลมาจากหลายแหล่งต้องรวมเข้าด้วยกันได้
- Real Time ควรทำให้เป็นแบบ Real Time
ก่อนการทำ คลังข้อมูล ควรพิจารณาว่า
แก้ไข- มีข้อมูลจำนวนมากที่ถูก access จากผู้ใช้
- ข้อมูลที่ใช้งานถูกจัดเก็บอยู่ในระบบที่แตกต่างกัน
- มีการบริหารจัดการแบบ information-based
- มีฐานลูกค้าขนาดใหญ่และหลากหลาย
- ข้อมูลเดียวกันที่ใช้ในระบบที่แตกต่างกัน
- ข้อมูลถูกเก็บในเชิง Highly Technical Format ทำให้ยุ่งยากในการคลี่ออกมาใช้งาน
- มีประโยชน์ต่อผู้ใช้มากขึ้นในเชิงการคำนวณ
Marketing Databases in Action
แก้ไขData warehouses และ data marts รองรับผู้ใช้ทั้งหมดในทุก ๆ functional areas โดยฐานข้อมูลปัจจุบันทั้งหมดเป็นแบบ static คือ รวบรวมและจัดเก็บ แต่ธุรกิจในปัจจุบันเริ่มต้องการ specialized databases เช่น
- Marketing transaction database (MTD) :: เป็นการรวมคุณลักษณะที่หลากหลายของฐานข้อมูลปัจจุบันและแหล่งข้อมูลการตลาดปัจจุบันเข้าเป็นฐานข้อมูลเดียวกัน ทำให้นักการตลาดมีปฏิสัมพันธ์กับลูกค้าได้เจาะจงมากขึ้น
- Interactive capability :: interactive transaction เกิดขึ้นเมื่อลูกค้าแลกเปลี่ยนสารสนเทศและทำการ update ฐานข้อมูลแบบ real time ซึ่งจะตรงข้ามแบบเดิมที่ทำเป็นช่วง ๆ (weekly, monthly, or quarterly) ตัวอย่างเช่น classical warehouses and marts
Web-based Data Management System
แก้ไขเป็นการดำเนินการเกี่ยวกับการบริหารจัดการข้อมูล และ /Business Intelligence ตั้งแต่การ รวบรวมข้อมูล ไปจนถึงการจัดทำ warehouse และ data mining มักจะกระทำโดยอาศัย เครื่องมือของ Web หรือ เกี่ยวข้องกับ Web Technology ต่าง ๆ ผู้ใช้สามารถใช้ เบราส์เซอร์ log เข้าระบบและดำเนินกิจกรรมที่เกี่ยวข้องได้โดยสะดวก ดังนั้นจะ เห็นได้ว่า เทคโนโลยีที่เกี่ยวกับ Web จะเข้ามามีบทบาทอย่างมากมายในปัจจุบัน
- Enterprise BI suites and Corporate Portals:: รวบรวม query, reporting, OLAP, และเครื่องมืออื่น ๆ
- Intelligent Data Warehouse Web-based Systems:: ให้ search engine เพื่อค้นหา specific applications ซึ่งสามารถปรับปรุงการทำงานของ data warehouse ให้ดีขึ้น
- Clickstream Data Warehouse:: คือการรวบรวมข้อมูลเกี่ยวกับพฤติกรรมของผู้ใช้ และรูปแบบในการเลือกอ่าน(ค้นหา)ข้อมูลที่ต้องการ เป็นการ monitor การกระทำ ของผู้ใช้เมื่อเขาแวะเข้าไปในเวบไซท์หนึ่ง ๆ
MANAGERIAL ISSUES
แก้ไข- Cost-benefit issues and justification::
data management solutions บางตัวที่นั้นมีราคาแพงมาก มักซื้อใช้กันในองค์กรขนาดใหญ่ องค์กรขนาดเล็กควรมองหารคำตอบที่มี cost ต่ำ ในเชิง leverage existing databases แทนที่จะสร้างขึ้นใหม่
- Where to store data physically::
ข้อมูลควรถูกกระจายไปอยู่ใกล้ผู้ใช้มากที่สุด เพื่อการป้อนและ update ข้อมูลได้เร็ว แต่จะเพิ่ม replication และ security risks ข้อมูลควรอยู่ที่ศูนย์กลางเพื่อง่ายต่อการควบคุม
- Internal or external
องค์กรควรลงทุนภายในองค์กรด้าน collecting, storing, maintaining, และ purging ข้อมูลในฐานข้อมูลของตนเอง? หรือ ควรเป็นสมาชิก external databases ที่ผู้ให้บริการจัดการให้ทั้งหมดในเชิง data management และ data access
- Disaster recovery
กระบวนการทางธุรกิจขององค์กร (ซึ่งมีฐานข้อมูลอิสระจากกัน) สามารถกู้กลับคืนและยังคงทำงานได้หลังจากเกิดภัยธรรมชาติหรือ information system disaster บางประเภท การปกกันความเสียหายที่จะเกิดขึ้นกับ Data warehouse รวมถึงค่าใช้จ่ายที่จะเกิดขึ้นด้วย
- Data security and ethics
ข้อมูลที่ทำให้องค์กรเกิดความได้เปรียบในการแข่งขันได้รับการปกป้องจากการขโมยหรือการก่อวินาศกรรม Confidential data เช่น personnel details ปลอดภัยจากการ access อย่างไม่ถูกต้อง หรือ ผิดกฎหมาย ตรวจสอบการเป็นเจ้าของและผู้ที่รับผิดชอบ
- Privacy
การรวบรวมข้อมูลใน warehouse และการทำ data mining อาจส่งผลให้เกิดการก้าวล่วงความเป็นส่วนตัว และแต่ละคนจะมีวิธีการปกป้องความเป็นส่วนตัวได้อย่างไร การเคลื่อนย้ายข้อมูลไปรอบ ๆ องค์กรมักเป็นปัญหาหลัก เนื่องจากประสิทธิภาพ ของการสื่อสารและประสิทธิภาพระหว่างกลุ่มต่าง ๆ รวมทั้งความแตกต่างด้านภูมิศาสตร์
Questions for Review
แก้ไข- /List the major sources of data.
- /List some of the major data problem.
- /What is the terabyte?(Write the number.)
- /Review the steps of the data life cycle and explain them.
- /List some of the categories of data available on the Internet.
- /Define data Quality.
- /Define document management.
- /Describe the hierarchy of a file management system.
- /What are the problems that arise from the file environment?
- /Discuss a relational database and how it differs from other databases.
- /What are the components of a database of a database management system (DBMS)?
- /What is the difference between the conceptual, logical and physical views of data?
- /How can you get data out of a database?
- /What are the benefits of using a DBMS?
- /What is the difference between entities and attributes?
- /Describe a data warehouse.
- /Describe a datamart.
- /Define a marketing transaction database.