
Python Pandas اور SQL ڈیٹا کے تجزیہ، مشین لرننگ، اور ETL پائپ لائنز کی بنیاد بناتے ہیں۔ بڑے ڈیٹا فریموں کو ہینڈل کرنے اور پیچیدہ ڈیٹا بیس سوالات کو چلانے کے لیے کوڈ کی وضاحت کو قربان کیے بغیر کارکردگی کی ضرورت ہوتی ہے۔
پانڈوں میں ایس کیو ایل کے سوالات کو سرایت کرنا ورک فلو فلٹرنگ، ایگریگیشن، اور جوائن کو تیز کرتا ہے جبکہ پائتھون کی لچک اور نتیجہ کی مستقل مزاجی کو برقرار رکھتا ہے۔
یہ گائیڈ pandasql سیٹ اپ اور پانڈوں کے مقامی ایس کیو ایل طریقوں کا احاطہ کرتا ہے، حقیقی دنیا کے ڈیٹا فریم کے استفسار کی مثالیں پیش کرتا ہے، بہتر بنانے کے بہترین طریقوں کا خاکہ پیش کرتا ہے۔ تجزیاتی ورک فلو اور رپورٹنگ.
ازگر پانڈوں اور ایس کیو ایل کو کیوں جوڑیں؟
پانڈاس ایک Python لائبریری ہے جو ڈیٹا میں ہیرا پھیری اور تجزیہ کے لیے بنائی گئی ہے۔ یہ ٹیبلولر ڈیٹا کو سلائس کرنے، ڈائس کرنے اور تبدیل کرنے کے لیے جانے والا ہے۔ SQL دوسری طرف (Structured Query Language)، رشتہ دار ڈیٹا بیس کے بارے میں پوچھ گچھ کے لیے سونے کا معیار ہے- MySQL، PostgreSQL، SQLite، اور بہت کچھ۔

یہاں یہ ہے کہ ان دونوں کو ملانا گیم چینجر کیوں ہے:
پل: pandasql اور مقامی پانڈاس SQL انٹیگریشن
pandasql ایس کیو ایل کے سوالات کو براہ راست پانڈاس ڈیٹا فریمز پر انجام دینے کے قابل بناتا ہے، اس کی ضرورت کو ختم کرتے ہوئے برآمد ڈیٹاایک علیحدہ ڈیٹا بیس کی فراہمی، یا اضافی APIs کو اپنانا؛ صارفین صرف SQL بیانات لکھتے ہیں، نتیجے میں ڈیٹا فریم حاصل کرتے ہیں، اور بلا تعطل آگے بڑھتے ہیں۔
pandasql انسٹال کرنا
پادری
pip install pandasql
اب آپ ایک پرو کی طرح SQL اور پانڈوں کو ملانے کے لیے تیار ہیں۔
شروع کرنا: بنیادی استعمال
آئیے ایک سادہ سی مثال پر چلتے ہیں۔ فرض کریں کہ آپ کے پاس ڈیٹا فریم ہے:
پادری
import pandas as pd
import pandasql as psql
data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]}
df = pd.DataFrame(data)
query = "SELECT * FROM df"
result = psql.sqldf(query, locals())
print(result)
یہ مکمل ڈیٹا فریم لوٹاتا ہے، بالکل اسی طرح df.head() لیکن SQL نحو کا استعمال کرتے ہوئے. اب آپ فلٹر کر سکتے ہیں، گروپ بنا سکتے ہیں اور اسی طرح شامل ہو سکتے ہیں جیسے آپ ڈیٹا بیس میں کرتے ہیں۔
پانڈوں اور ایس کیو ایل کے ساتھ حقیقی دنیا کے ڈیٹا کا تجزیہ
آئیے ایک عملی ڈیٹاسیٹ کے ساتھ لیول اپ کریں۔ تصور کریں کہ آپ کار سیلز ڈیٹاسیٹ کا تجزیہ کر رہے ہیں جیسے کالم brand, model, year, price, mileage، اور مزید.
ڈیٹا کو لوڈ اور ایکسپلور کرنا
پادری
import pandas as pd
import pandasql as ps
car_data = pd.read_csv("cars_datasets.csv")
print(car_data.head())
print(car_data.info())
print(car_data.isnull().sum())
آپ کو کالم کے نام نظر آئیں گے، ڈیٹا کی اقسام، اور کوئی بھی گمشدہ اقدار - معیاری ڈیٹا کے تجزیہ کے لیے ضروری۔
ڈیٹا فریمز پر ایس کیو ایل کے سوالات چلانا
ٹاپ 10 مہنگی ترین کاریں۔
پادری
def q(query):
return ps.sqldf(query, {'car_data': car_data})
q("""
SELECT brand, model, year, price
FROM car_data
ORDER BY price DESC
LIMIT 10
""")
برانڈ کے لحاظ سے اوسط قیمت
پادری
q("""
SELECT brand, ROUND(AVG(price), 2) AS avg_price
FROM car_data
GROUP BY brand
ORDER BY avg_price DESC
""")
2015 کے بعد تیار کردہ کاریں
پادری
q("""
SELECT *
FROM car_data
WHERE year > 2015
ORDER BY year DESC
""")
برانڈ کے لحاظ سے کل کاریں
پادری
q("""
SELECT brand, COUNT(*) as total_listed
FROM car_data
GROUP BY brand
ORDER BY total_listed DESC
LIMIT 5
""")
شرط کے لحاظ سے گروپ بندی
پادری
q("""
SELECT condition, ROUND(AVG(price), 2) AS avg_price, COUNT(*) as listings
FROM car_data
GROUP BY condition
ORDER BY avg_price DESC
""")
برانڈ کے لحاظ سے اوسط مائلیج اور قیمت
پادری
q("""
SELECT brand,
ROUND(AVG(mileage), 2) AS avg_mileage,
ROUND(AVG(price), 2) AS avg_price,
COUNT(*) AS total_listings
FROM car_data
GROUP BY brand
ORDER BY avg_price DESC
LIMIT 10
""")
قیمت فی میل
پادری
q("""
SELECT brand,
ROUND(AVG(price/mileage), 4) AS price_per_mile,
COUNT(*) AS total
FROM car_data
WHERE mileage > 0
GROUP BY brand
ORDER BY price_per_mile DESC
LIMIT 10
""")
ریاست کے لحاظ سے ڈیٹا کا تصور کرنا
یہاں تک کہ آپ وجیٹس اور پلاٹلی کو انٹرایکٹو ڈیش بورڈز کے لیے استعمال کر سکتے ہیں:
پادری
import plotly.express as px
import ipywidgets as widgets
state_dropdown = widgets.Dropdown(
options=car_data['state'].unique().tolist(),
value=car_data['state'].unique()[0],
description='Select State:',
layout=widgets.Layout(width='50%')
)
def plot_avg_price_state(state_selected):
query = f"""
SELECT brand, AVG(price) AS avg_price
FROM car_data
WHERE state = '{state_selected}'
GROUP BY brand
ORDER BY avg_price DESC
"""
result = q(query)
fig = px.bar(result, x='brand', y='avg_price', color='brand',
title=f"Average Car Price in {state_selected}")
fig.show()
widgets.interact(plot_avg_price_state, state_selected=state_dropdown)
یہ آپ کے تجزیہ کو انٹرایکٹو اور بصری طور پر دلکش بنا دیتا ہے- ڈیش بورڈز کے لیے بہترین یا پریزنٹیشنز.
pandasql سے آگے: مقامی پانڈاس ایس کیو ایل آپریشنز
جب کہ pandasql تیز SQL طرز کے سوالات کے لیے اکس ہے، پانڈاس اصل ڈیٹا بیس (جیسے SQLite، PostgreSQL، MySQL) کے ساتھ کام کرنے کے لیے براہ راست SQL انضمام کی بھی حمایت کرتا ہے:
مثال: ایس کیو ایل کو پڑھنا اور لکھنا
پادری
import pandas as pd
import sqlite3
# Connect to SQLite database
conn = sqlite3.connect(":memory:")
# Create a table and insert data
conn.execute("CREATE TABLE Students (id INTEGER, Name TEXT, Marks REAL, Age INTEGER)")
conn.execute("INSERT INTO Students VALUES (1, 'Kiran', 80, 16), (2, 'Priya', 60, 14), (3, 'Naveen', 82, 15)")
# Read from SQL
df = pd.read_sql("SELECT * FROM Students", conn)
print(df)
# Write to SQL
df.to_sql("Students_Copy", conn, if_exists="replace", index=False)
یہ نقطہ نظر ETL پائپ لائنز، رپورٹنگ، اور پروڈکشن ڈیٹا ورک فلو کے لیے بہترین ہے۔
اعلی درجے کے استعمال کے معاملات: ETL، مشین لرننگ، اور ڈیش بورڈز

ایس کیو ایل اور پانڈوں کو ملانا صرف استفسار کرنے کے بارے میں نہیں ہے - یہ بہتر ورک فلو بنانے کے بارے میں ہے:
پانڈاسقل بمقابلہ خالص پانڈاس: کب استعمال کریں؟
| نمایاں کریں | pandasql (SQL) | خالص پانڈا۔ |
|---|---|---|
| نحو | SQL (بہت سے واقف) | ازگر (لچکدار، طاقتور) |
| پڑھنے کی صلاحیت | پیچیدہ سوالات کے لیے اعلیٰ | لفظی مل سکتا ہے۔ |
| کارکردگی | بہت بڑے ڈیٹاسیٹس پر سست | تیز تر، ازگر کے لیے موزوں ہے۔ |
| جوائن/گروپنگ | بہت بدیہی | مزید کوڈ، لیکن مزید اختیارات |
| انٹیگریشن | فوری تجزیہ کے لیے بہت اچھا | پروڈکشن ورک فلو کے لیے بہترین |
حدود اور بہترین طرز عمل
فائنل خیالات
Python Pandas اور SQL کا مربوط استعمال ڈیٹا تجزیہ کاروں کے لیے ایک ضروری قابلیت کی نمائندگی کرتا ہے، AI انجینئرز، اور تحقیقی پیشہ ور۔ یہ طریقہ کار متعلقہ ڈیٹا بیس کے استفسار کے ساتھ سیدھ میں لاتا ہے۔ پانڈوں کا طاقتور ڈیٹا فریم آپریشن، کارکردگی اور کوڈ کی وضاحت دونوں کو بڑھانا۔ پانڈاس کے مقامی ایس کیو ایل انٹیگریشن کے ساتھ ساتھ pandasql جیسے ٹولز کا فائدہ اٹھا کر، ٹیمیں ایک مربوط ماحول کے اندر ایکسپلوریٹری ڈیٹا اینالیسس (EDA)، مضبوط ETL ورک فلو، اور مشین لرننگ پائپ لائنوں کو انجام دے سکتی ہیں۔
یاد رکھنے کے اعدادوشمار:
اس دوہرے نقطہ نظر کو اپنانے سے قابل توسیع، برقرار رکھنے کے قابل تجزیاتی عمل اور طویل مدتی کامیابی کے لیے ٹیموں کی پوزیشن یقینی ہوتی ہے۔
اپنے پاس رکھنا چاہتے ہیں۔ AI اور ڈیٹا کی مہارت تیز؟
LLMs، پرامپٹ انجینئرنگ، RAG، اور پر مزید سبق دریافت کریں۔ AI ایجنٹ ورک فلو کی طرف سے مزید گائیڈز اور ہینڈ آن مثالوں کے لیے دیکھتے رہیں AI MOJO

