PAN Number Validation using SQL

Analysis of a PAN dataset to surface common data quality issues and validate records against defined format rules. Covers null handling, duplicate detection, whitespace and casing inconsistencies, followed by rule-based classification and summary generation.

Files to Refer

pan_validation.sql Main script covering:
- data quality checks (nulls, duplicates, spacing, casing)
- regex-based format validation
- custom functions for sequence and repetition checks
- classification into Valid / Invalid PAN
- summary query (processed, valid, invalid, incomplete)
PAN Validation Analysis.pdf Contains the full context of the Dataset, project motivation, and full set of validation rules.
PAN Number Validation Dataset.xlsx Source dataset.

Running the Script

Environment: PostgreSQL

Create / connect to a database
Load data into pan_numbers_dataset
Run pan_validation.sql

Outputs:

vw_valid_invalid_pan → PAN classification
Final query → summary counts

Notes

Validation rules are defined in PAN Validation Analysis.pdf
Script is commented where required; follow it top-down
Results are derived directly; no separate cleaned table maintained

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
PAN Number Validation Dataset.xlsx		PAN Number Validation Dataset.xlsx
PAN Validation Analysis.pdf		PAN Validation Analysis.pdf
README.md		README.md
pan_validation.sql		pan_validation.sql

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

PAN Number Validation using SQL

Files to Refer

Running the Script

Notes

About

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

PAN Number Validation using SQL

Files to Refer

Running the Script

Notes

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Contributors

Uh oh!

Languages