AI-ready · Developer-ready · Research-ready

سنڌي ٻوليءَ جو ھڪ کُليل ۽ آجو ڊيٽاسيٽ

سنڌي ٻوليءَ جو ھڪ آجو ۽ اجريل ڊيٽاسيٽ — جنھن ۾ سنڌي ٻوليءَ جون 223,342 لفظي داخلائون، موجود آھن، جيڪي لارج لئنگئيج ماڊلن (AI، NLP، LLMs،) وغيرہ سميت جديد لغت سازي، انٽرنيٽ جي سرچ انجڻين ۽ تعليمي ايپليڪيشنن لاءِ تيار ڪيون ويون آهن.

ڊائون لوڊنگ جو ڳاڻيٽو 1781
دستياب ڪندڙ: سنڌي لئنگئيج ڊاٽ آرگ · تيار ڪندڙ Amar Fayaz Buriro (امر فياض ٻرڙو)
{
  "dataset": "Sindhi Open Lexicon",
  "entries": 223342,
  "formats": ["CSV", "JSONL", "SQLite"],
  "publisher": "SindhiLanguage.org",
  "prepared_by": "Amar Fayaz Buriro"
}
223,342 ڊيٽا سيٽ جون ڪُل داخلائُون
88,947 ٺيٺ سنڌي ٻول
29,514 ديوان پرمانند ميوارام جي لغت
3 CSV · JSONL · SQLite

ھي ڊيٽاسيٽ ڇو اھم آھي؟

سنڌي ٻوليءَ لاءِ ھي ڊيٽاسيٽ مشيني ذھانت جي ھن دور ۾ سڀ کان اهم ضرورت آھي جيڪو صاف، ترتيب ڏنل، ڀلي نموني سان سينگاريل ۽ مختلف پليٽ فارمن ۾ ڪتب آڻڻ جوڳو آهي. هي ڊيٽاسيٽ ڊولپرن، محققن، يونيورسٽين، مشيني ذھانت تي آڌاريل نون ڪاروباري فرمن ۽ انساني ٻولين جي مشيني ماڊلن لاءِ هڪ بنيادي ۽ مستند ڊيٽاسيٽ طور ڪم ڪري سگهي ٿو.

✓ مشينن لاءِ ٻوليءَ جي وسيع ماڊلن لاءِ مناسب
✓ لغتن ۽ ھجي جي درستگين لاءِ استعمال لائق
✓ مختلف جڳھن تي استعمال ڪرڻ لاءِ آجو ۽ محفوظ
✓ UTF-8 سنڌي متن ۽ ڳولا لائق ترتيب ڏنل

Download Dataset

Full master package contains data, metadata, README and license files

Dataset Preview

Example structure for developers and AI researchers

Word Grammar / POS Definition Source
ڀلوadjectiveسُٺو، سيبتو، اعلیٰجامع سنڌي لغات
ڪاتيnounscissors / cutting toolميوارام جي لغت
Archivetermآرڪائيو / محفوظ دستاويزOfficial Terms
Commercedomainواپار سان لاڳاپيل اصطلاحTrade & Commerce

JSONL Example

{"word":"ڪاتي","part_of_speech":"noun","definition":
"knife,scissors","source_dictionary":"Mewaram_Dict"}

Required Attribution

SindhiLanguage.org
Prepared and curated by Amar Fayaz Buriro (امر فياض ٻرڙو)

Source Composition

Major source dictionaries and terminology collections included in the master dataset

جامع سنڌي لغات80,588
Official Terms37,599
Sindhi Dictionary by Mewaram (1910)29,514
English → Sindhi21,726
Devanagari/Sindhi → English16,519
Hindi → Sindhi15,300

Dataset Distribution Repositories

SindhiLanguage.org master dataset is also distributed through internationally recognized open-data and research repositories

Citation & Acknowledgment

Any public use, redistribution, derivative dataset, application, API, model card, research paper, or AI/LLM training note using this dataset must acknowledge

Sindhi Open Lexicon Master Dataset
Published by SindhiLanguage.org — https://sindhilanguage.org/
Prepared and curated by Amar Fayaz Buriro (امر فياض ٻرڙو)

License & Responsible Use

This dataset is released for research, education, AI/NLP development, software development, and non-malicious public-interest use with mandatory attribution