5
Một số lỗi thường mắc phải là tính phi logíc dữ liệu như chứa các giá trị vơ nghĩa và
gây lỗi dữ liệu. Ví dụ: tuổi = 673. Đây là giai đoạn tiến hành xử lý những dạng dữ liệu
khơng chặt chẽ, phi logic, loại bỏ những dữ liệu dư thừa khơng có giá trị.
Chuyển đổi dữ liệu (Transformation)
Bước chuyển đổi dữ liệu: dữ liệu được sử dụng và điều khiển bởi việc tổ chức lại
giúp chuyển đổi phù hợp với mục đích khai thác.
Phát hiện và trích mẫu dữ liệu (Pattern Extraction and Discovery)
Là bước mang tính tư duy trong khai phá dữ liệu. Giai đoạn sử dụng nhiều thuật
tốn khác nhau để trích ra các mẫu dữ liệu. Thuật tốn thường dùng là ngun tắc
phân loại, ngun tắc kết hợp hoặc các mơ hình dữ liệu tuần tự,. v.v.
Đánh giá kết quả mẫu (Evaluation of Result)
Là giai đoạn cuối trong q trình khai phá dữ liệu. Các mẫu dữ liệu được chiết xuất
ra bởi phần mềm khai phá dữ liệu. Khơng phải mẫu dữ liệu nào cũng hữu ích, đơi
khi còn bị sai lệch. Vì vậy, cần ưu tiên những tiêu chuẩn đánh giá để chiết xuất ra
các tri thức (Knowlege) cần thiết.
2. Tìm hiểu cơng cụ SQL 2005
2.1. SQL Manager Studio
Quản lý CSDL: cho phép quản lý dự án một cách tốt nhất từ việc tạo đến khi bảo trì
CSDL.
Các chức năng hầu như tương tự với SQL Manager 2000, ngồi ra SQL Manager
Studio 2005 còn hỗ trợ việc quản lý của các dự án SQL Analysis, SQL Integrate, SQL
Report. Quản lý các hoạt động Chạy của các dự án.
2.2. SQL Intergrate
Cơng cụ cho phép người quản trị tích hợp dữ liệu từ nhiều nguồn dữ liệu khác nhau:
Text(có cấu trúc), Excel, Access, SQL, Oracle.
THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN
6
Cơ chế này cho phép chuyển đổi hầu hết các dữ liệu có dạng cấu trúc vào CSDL SQL
2005. Với khả năng linh hoạt cho phép lựa chọn những dữ liệu cần thiết, ngồi ra còn
cho phép thơng báo ra những dữ liệu khơng hợp lệ theo ý người dùng.(Cơ chế báo lỗi
ngồi ý muốn).
Hỗ trợ khả năng tích hợp một cách linh hoạt, có thể sử dụng được các Query để phụ
giúp cho q trình tích hợp dữ liệu, có thể bổ sung dữ liệu mới mà có liên quan tới dữ
liệu đã có trong CSDL(dữ liệu có tính tham chiếu).
2.3. SQL Analysis
Là cơng cụ cho phép người quản trị phân tích kho dữ liệu theo nhiều cách để giúp cho
việc đưa ra các báo cáo mang tính chiến lược, các dữ liệu khác.
- Cho phép thiết kế, tạo, quản lý các khối và Làm việc với Data-Mining nhằm khai
thác dữ liệu.
SQL Analysis bao gồm: Data Sources, Data Source Views, Cubes, Dimensions,
Mining Structures, Roles, Assemblies, and Miscellaneous
a. Data Source
SQL cho phép làm việc với nhiều Datasource trong 1 dự án. Mỗi Datasource sử
dụng 1 connect khác nhau.
Data Source View
b. Khối – Cube
1 Project bao gồm nhiều Cube khác nhau. Cube bao gồm các độ đo và các chiều.
Xây dựng Cube có thể sử dụng theo mơ hình star schema và snowflake schema
c. Measures, Attributes and Hierarchies (kỹ thuật của UDM)
- Measures: là thơng tin chính cần phân tích.
- Attributes: là các thơng tin về chiều cần phân tích theo các hướng khác
nhau.
- Hiearchies: là khả năng Tổng qt hóa và Chi tiết hóa của DataMining.
Hỗ trợ khả năng sử dụng các SQL để tạo ra các dữ liệu Tổng qt hơn.
d. Mining Structures
THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN
7
Mục đích tạo định hướng cho nguồn dữ liệu giúp tìm ra quy luật của dữ liệu, tách
được dữ liệu ở mức cao hơn.
Hỗ trợ các thuật tốn DataMining giúp cho việc phân tích dữ liệu như: Microsoft
Decition trees, Microsoft Clustering, Microsoft Linear Regression, Microsoft
Logistic Regression, Microsoft Naive Bayes, Microsoft Neural Network,
Microsoft Sequence Clustering, Microsoft Time Series.
e. Roles, Assemblies, and Miscellaneous
2.4. SQL Report
Giúp ích cho việc đưa ra các báo cáo dưới dạng văn bản hoặc trình duyệt giúp cho
người quản lý, lãnh đạo có thể xem để đưa ra các quyết định
Báo cáo có thể đưa ra dưới nhiều dạng khác nhau: HTML, Web(server), Doc, Excel,
Pdf, Image. Hoặc có thể đưa dữ liệu lên Server để Server trực tiếp Connect tới
DataWarehouse.
Report trong SQL đưa ra các báo cáo từ dữ liệu có trực tiếp trong CSDL. Ngồi ra
bao gồm các dữ liệu khác như dữ liệu từ việc Phân tích các Khối, dữ liệu từ phân tích
DataMining.
Report hỗ trợ việc định dạng báo cáo: dữ liệu có thể được định dạng tùy theo ý muốn:
dữ liệu dạng số, ngày đặc biệt hỗ trợ rất nhiều dạng biểu đồ mang tính trực quan cho
người xem báo cáo.
• Basic Report: Tạo các báo cáo đơn giản như sử dụng các Query thơng
thường trong SQL để đưa thơng tin ra.
• Group Report: Tạo ra các nhóm báo cáo giúp cho việc định dạng khn
dạng của 1 nhóm để đưa dữ liêu lên Server. Trong đó bao gồm việc tạo các
Mẫu báo cáo.
3. Tìm hiểu bài tốn Phát triển th bao
THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN
8
Bài tốn Phát triển th bao điện thoại ở Hà Nội gắn liền với việc ngày càng có nhiều khách
hàng làm Hợp đồng, đăng kí sử dụng các dịch vụ của Bưu điện. Cơ sở dữ liệu bao gồm có 19
bảng : DICHVU_VT, DOITUONG, DONVI, QUANHUYEN, DUONGPHO, MAPHO,
PHUONGXA, HD_KHACHHANG, HD_THANHTOAN, HD_THUEBAO, KIEU_LD,
KIEU_TT, LOAI_HD, LOAI_KH, LOAI_NV, LOAIHINH_TB, NGANHANG,
NHANVIEN, PHI_HOPDONG
4. Ứng dụng bài tốn Phát triển th bao sử dụng SQL 2005
4.1. Lược đồ quan hệ kho dữ liệu
4.2. Sơ đồ tích hợp dữ liệu từ các File Excel vào Kho dữ liệu
4.2.1 Tích hợp từ các File Excel vào Bộ đệm
Tích hợp dữ liệu từ nguồn Excel vào bảng QUANHUYEN
THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN
9
• Tạo kết nối tới nguồn exel
• Chuyển đổi kiểu dữ liệu sao cho đúng kiểu
• Chèn dữ liệu vào bộ đệm
Tích hợp dữ liệu từ nguồn Excel vào bảng PHUONGXA
• Tạo kết nối tới nguồn Exel
• Chuyển đổi dữ liệu sao cho đúng kiểu
THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN
10
• Kiểm tra ràng buộc tham chiếu với bảng Quanhuyen
• Chèn dũ liệu vào bộ đệm
Tích hợp dữ liệu từ nguồn Excel vào bảng DUONGPHO
• Tạo kết nối tới nguồn Exel
• Chuyển đổi kiểu dữ liệu sao cho đúng kiểu
• Chèn dữ liệu vào bộ đệm
Tích hợp dữ liệu từ nguồn Excel vào bảng MAPHO
THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN
11
• Tạo kết nối tới nguồn Exel
• Chuyển đổi kiểu dữ liệu cho đúng
• Kiểm tra ràng buộc tham chiếu với bảng PHUONGXA
• Kiểm tra ràng buộc tham chiếu với bảng DUONGPHO
• Chèn dữ liệu vào bộ đệm
Tích hợp dữ liệu từ nguồn Excel vào bảng
DICHVU_VIENTHONG
THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN
12
• Tạo kết nối tới nguồn Exel
• Chuyển đổi kiểu dữ liệu sao cho đúng kiểu
• Chèn dữ liệu vào bộ đệm
Tích hợp dữ liệu từ nguồn Excel vào bảng DONVI
• Tạo kết nối tới ngùơn Exel
• Chuyển đổi kiểu dữ liệu sao cho đúng kiểu
• Chèn dữ liệu vào bộ đệm
THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN
13
Tích hợp dữ liệu từ nguồn Excel vào bảng LOAIHINH_TB
• Tạo kết nối tới nguồn Exel
• Chuyển đổi kiểu dữ liệu sao cho đúng kiểu
THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN
14
• Kiểm tra ràng buộc tham chiếu với bảng
DICHVU_VIENTHONG
• Chèn dữ liệu vào bộ đệm
Tích hợp dữ liệu từ nguồn Excel vào bảng PHI_HD
• Tạo kết nối tới nguồn Exel
• Chuyển đổi kiểu dữ liệu sao cho đúng kiểu
• Kiểm tra ràng buộc tham chiếu với bảng
DICHVU_VIENTHONG
• Chèn dữ liệu vào bộ đệm
Tích hợp dữ liệu từ nguồn Excel vào bảng KIEU_LD
THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN
Không có nhận xét nào:
Đăng nhận xét