CompTIA Data+ (DA0-001) Implementation ð Project Overview (āļ āļēāļāļĢāļ§āļĄāđāļāļĢāļāļāļēāļĢ) This project focuses on the foundational skills of a Data Analyst: ensuring data consistency and integrity across multiple platforms. In this lab, I performed end-to-end data type managementâstarting from the SQL source level to the transformation layer in Power Query.
āļŠāļīāđāļāļāļĩāđāļāļģāļĨāļąāļāļāļģāļāļĒāļđāđ: āđāļĢāļēāļāļģāļĨāļąāļāđāļāđāļāļēāļ Microsoft SQL Server Management Studio (SSMS) āđāļāļ·āđāļāļŠāļģāļĢāļ§āļāļāļēāļāļāđāļāļĄāļđāļĨ TDHS_StudentInfoSys
āļĢāļēāļĒāļĨāļ°āđāļāļĩāļĒāļ: āļāļĨāļīāļāļāļ§āļēāļāļĩāđāļāļēāļĢāļēāļ dbo.tblEnrollment āđāļĨāļ°āđāļāļĢāļĩāļĒāļĄāđāļāđāļāļģāļŠāļąāđāļ Select Top 1000 Rows āļāļĩāđāļāļ·āļāļāļąāđāļāļāļāļāđāļĢāļāđāļāļāļēāļĢāļāļģ Data Profiling āđāļāļ·āđāļāļāļāļāļđāļŦāļāđāļēāļāļēāļāđāļāļĄāļđāļĨāļāļĢāđāļēāļ§āđ āļ§āđāļēāļĄāļĩāļĨāļąāļāļĐāļāļ°āļāļĒāđāļēāļāđāļĢāļāđāļāļāļāļģāđāļāļāļķāļāđāļāļāļĢāļ°āļĄāļ§āļĨāļāļĨāļāđāļ
āļŠāļīāđāļāļāļĩāđāļāļģāļĨāļąāļāļāļģāļāļĒāļđāđ: āđāļāļīāļāļāļđāļŦāļāđāļēāļāđāļēāļ Design āļāļāļāļāļēāļĢāļēāļ dbo.tblEnrollment āđāļāļ·āđāļāļāļĢāļ§āļāļŠāļāļ Data Dictionary āļŦāļĢāļ·āļ Schema āļāļāļāļāļēāļĢāļēāļāļāļĩāđ
āļĢāļēāļĒāļĨāļ°āđāļāļĩāļĒāļ: āļĢāļ°āļāļāđāļŠāļāļāđāļŦāđāđāļŦāđāļāļāļ·āđāļāļāļāļĨāļąāļĄāļāđāđāļĨāļ° Data Type āļāđāļāļāļēāļāļāļĒāđāļēāļāļāļąāļāđāļāļ āđāļāđāļ EnrollmentID āđāļāđāļāđāļāđāļ int (āļāļąāļ§āđāļĨāļāļāļģāļāļ§āļāđāļāđāļĄ), EnrollmentDate āđāļāđāļ datetime (āļ§āļąāļāđāļĨāļ°āđāļ§āļĨāļē) āđāļĨāļ° SchYr_Grade āđāļāđāļ nvarchar(2) (āļāđāļāļāļ§āļēāļĄ) āļāļēāļĢāļĢāļđāđāļ§āđāļēāļĢāļ°āļāļāļāļēāļāļāđāļāļĄāļđāļĨāļāđāļāļāļēāļāđāļāđāļāļāđāļāļĄāļđāļĨāļĄāļēāđāļāļāđāļŦāļ āļāļ°āļāđāļ§āļĒāđāļŦāđāđāļĢāļēāļ§āļēāļāđāļāļāđāļāļĨāļāļāđāļāļĄāļđāļĨāđāļāđāļāļĒāđāļēāļāļāļđāļāļāđāļāļ
āļŠāļīāđāļāļāļĩāđāļāļģāļĨāļąāļāļāļģāļāļĒāļđāđ: āļāđāļāļĄāļđāļĨāļāļđāļāļāļķāļāđāļāđāļēāļĄāļēāđāļ Power Query Editor āđāļāļ·āđāļāļāļģāļāļēāļĢāđāļāļĨāļāļāđāļāļĄāļđāļĨ (Data Transformation)
āļĢāļēāļĒāļĨāļ°āđāļāļĩāļĒāļ: āļāļļāļāļāļģāļĨāļąāļāļāļĨāļīāļāđāļĄāļāļđ Dropdown āļāļĩāđāļŦāļąāļ§āļāļāļĨāļąāļĄāļāđ EnrollmentID āđāļāļ·āđāļāđāļāļĨāļĩāđāļĒāļāļāļĢāļ°āđāļ āļāļāđāļāļĄāļđāļĨ (Change Type) āđāļāļĒāļāļģāļĨāļąāļāļāļ°āđāļāļĨāļĩāđāļĒāļāļāļēāļāļāļąāļ§āđāļĨāļāđāļŦāđāļāļĨāļēāļĒāđāļāđāļ Text (āļāđāļāļāļ§āļēāļĄ)
1.āļāļēāļĢāļŠāļģāļĢāļ§āļāđāļĨāļ°āļāļāļāđāļāļāđāļāļĢāļāļŠāļĢāđāļēāļāļāđāļāļāļēāļ (SQL Data Profiling & Design): āļāļļāļāđāļāđāđāļāđāļēāđāļāļāļĢāļ§āļāļŠāļāļāđāļāļĢāļāļŠāļĢāđāļēāļāļāļēāļĢāļēāļ (Table Schema) āđāļ SQL Server āđāļāļ·āđāļāļŦāļēāļāļļāļāļāļĩāđāļāļĢāļ°āđāļ āļāļāđāļāļĄāļđāļĨāđāļĄāđāđāļŦāļĄāļēāļ°āļŠāļĄ (Type Mismatches) āļĨāļāļĄāļ·āļāđāļāđāđāļāļāļļāļāļŠāļĄāļāļąāļāļīāļāļāļ Field āļāđāļēāļ Design View āđāļāđāļ āļāļēāļĢāđāļāļĨāļĩāđāļĒāļāļāļēāļāļāđāļāļāļ§āļēāļĄ (VARCHAR) āļāļĩāđāđāļāđāļāļāļąāļ§āđāļĨāļ āđāļŦāđāļāļĨāļēāļĒāđāļāđāļāļāļģāļāļ§āļāđāļāđāļĄ (INT) āđāļāļ·āđāļāļĨāļāļāļāļēāļāļāļēāļĢāļāļąāļāđāļāđāļāđāļĨāļ°āļāļģāđāļŦāđāļāļēāļĢāļāļĢāļ°āļĄāļ§āļĨāļāļĨāļāļģāļŠāļąāđāļ Query āļĢāļ§āļāđāļĢāđāļ§āļāļķāđāļ
2.āļāļēāļĢāđāļāļ·āđāļāļĄāļāđāļāđāļĨāļ°āļāļķāļāļāđāļāļĄāļđāļĨ (Database Connectivity): āļāļąāļāļāļēāļĢāļāļģ Seamless Connection āļĢāļ°āļŦāļ§āđāļēāļāļāļēāļāļāđāļāļĄāļđāļĨ SQL āđāļĨāļ°āđāļāļĢāļ·āđāļāļāļĄāļ·āļāļ§āļīāđāļāļĢāļēāļ°āļŦāđ āđāļāļ·āđāļāđāļŦāđāļĄāļąāđāļāđāļāļ§āđāļēāļāđāļāļĄāļđāļĨāđāļŦāļĨāđāļāđāļēāļŠāļđāđ Pipeline āđāļāđāļāļĒāđāļēāļāļāļđāļāļāđāļāļ 100%
3.āļāļĢāļ°āļāļ§āļāļāļēāļĢ ETL āđāļĨāļ°āļāļēāļĢāļāļģ Data Casting: āđāļāđ Power Query āđāļāđāļāđāļāļĢāļ·āđāļāļāļĄāļ·āļāļŦāļĨāļąāļāđāļāļāļēāļĢāļāļģāļāļ§āļēāļĄāļŠāļ°āļāļēāļāļāđāļāļĄāļđāļĨ āļāļģāđāļāļīāļāļāļēāļĢ Data Casting āļŦāļĢāļ·āļāļāļēāļĢāđāļāļĨāļāļāļĢāļ°āđāļ āļāļāđāļāļĄāļđāļĨāđāļāļāļąāđāļāļāļāļāļŠāļļāļāļāđāļēāļĒ āđāļāđāļ āļāļēāļĢāļāļąāļāļāļēāļĢāļĢāļđāļāđāļāļāļ§āļąāļ/āđāļ§āļĨāļē (Date/Time) āđāļĨāļ°āļāļ§āļēāļĄāļĨāļ°āđāļāļĩāļĒāļāļāļāļāļāļļāļāļāļĻāļāļīāļĒāļĄ (Decimal Precision) āđāļāļ·āđāļāļāđāļāļāļāļąāļāļāļēāļĢāđāļāļīāļ âData Lossâ āļŦāļĢāļ·āļāļāđāļāļĄāļđāļĨāđāļāļĩāđāļĒāļāļĢāļ°āļŦāļ§āđāļēāļāļĒāđāļēāļĒāļāļēāļāļāļēāļāļāđāļāļĄāļđāļĨāļĄāļēāļĒāļąāļāļĢāļēāļĒāļāļēāļ
āļāļ·āļāđāļāđāļāļāļāļāļāļēāļĢāļāļģ ETL (Extract, Transform, Load) āđāļāļ·āđāļāđāļŦāđāđāļāđ Data Quality
āļāļąāļāļĐāļ°āļāļēāļĢāļāļĢāļ§āļāļŠāļāļāļāđāļāļāļēāļ (Extraction & Profiling): āļĢāļđāđāļ§āļīāļāļĩāđāļāđāļēāļāļķāļāļāđāļāļĄāļđāļĨāļāļīāļāļāļēāļ SQL Database āđāļĨāļ°āļāļĢāļ§āļāļŠāļāļāļāļāļīāļāļāļāļāļāđāļāļĄāļđāļĨāļāļąāđāļāđāļāđāļĢāļ°āļāļąāļ Schema āđāļāļ·āđāļāļāđāļāļāļāļąāļāļāđāļāļāļīāļāļāļĨāļēāļāđāļāļāļēāļĢāļāļķāļāļāđāļāļĄāļđāļĨ
āļāļ§āļēāļĄāđāļāđāļēāđāļāđāļĢāļ·āđāļāļāļāļĢāļīāļāļāļāļāļāļāđāļāļĄāļđāļĨ (Data Context): āđāļāđāđāļĢāļĩāļĒāļāļĢāļđāđāļ§āđāļēāđāļĄāđāđāļāđāļāļąāļ§āđāļĨāļāļāļļāļāļāļąāļ§āļāļ§āļĢāļĄāļĩ Data Type āđāļāđāļāļāļąāļ§āđāļĨāļāđāļŠāļĄāļāđāļ āđāļāđāļ EnrollmentID āđāļĄāđāļŦāļāđāļēāļāļēāļāļ°āđāļāđāļāļāļąāļ§āđāļĨāļ āđāļāđāļĄāļąāļāļāļ·āļ âāļĢāļŦāļąāļŠāļāļĢāļ°āļāļģāļāļąāļ§â āļāļĩāđāđāļĢāļēāļāļ°āđāļĄāđāļāļģāļĄāļēāļāļ§āļ āļĨāļ āļāļđāļ āļŦāļēāļĢ āļāļąāļ āļāļēāļĢāđāļāļĨāļāļāļĢāļ°āđāļ āļāļāđāļāļĄāļđāļĨāđāļāđāļ Text āļāļ°āļāđāļ§āļĒāļāđāļāļāļāļąāļāđāļĄāđāđāļŦāđāđāļāļĢāđāļāļĢāļĄāļ§āļīāđāļāļĢāļēāļ°āļŦāđāļāđāļāļĄāļđāļĨāļāļģāđāļāļāļģāļāļ§āļāļāļēāļāļāļāļīāļāļĻāļēāļŠāļāļĢāđāđāļāļāļāļīāļāļ§āļąāļāļāļļāļāļĢāļ°āļŠāļāļāđ
āļāļąāļāļĐāļ°āļāļēāļĢāļāļģ Data Cleaning āđāļāļ·āđāļāļāļāđāļ (Transformation): āļŠāļēāļĄāļēāļĢāļāđāļāđāļāļēāļāđāļāļĢāļ·āđāļāļāļĄāļ·āļāđāļāļĢāļĩāļĒāļĄāļāđāļāļĄāļđāļĨāļāļĒāđāļēāļ Power Query Editor āđāļāđ āļāļķāđāļāļāļąāļāļĐāļ°āļāļēāļĢāļāļąāļāđāļāļĢāļĩāļĒāļĄāļāđāļāļĄāļđāļĨāļāļīāļāđāļŦāđāļāļĢāđāļāļĄ āļāļđāļāļāđāļāļ āđāļĨāļ°āļāļĨāļĩāļāļāļĩāđāļŠāļļāļāļāđāļāļāļāļģāđāļāļ§āļīāđāļāļĢāļēāļ°āļŦāđāļāđāļ āđāļāđāļāļāļąāļāļĐāļ°āļāļĩāđāđāļāđāļāļĢāļīāļāđāļāļāļēāļĢāļāļģāļāļēāļāļŠāļēāļĒ Data Analytics āđāļāđāļāļāļĢāļ°āļāļģāļāļļāļāļ§āļąāļ