سب سے پہلے ڈاؤن لوڈ، اتارنا ازگر کے لئے ویب سکریپر API اور شروع کرنے کے لئے اندر موجود مثال ہینڈلر کو دیکھیں۔
سکریپڈ ڈیٹا پر کارروائی کرنے کا آسان ترین طریقہ یہ ہے کہ JSON یا XML آبجیکٹ کے بطور اعداد و شمار تک رسائی حاصل کی جاسکے ، کیونکہ اس سے اعداد و شمار آسانی سے جوڑ توڑ اور باز پرس ہوجاتے ہیں۔ JSON کو مندرجہ ذیل عمومی شکل میں ڈیٹاسیٹ نام کے ساتھ شئے بنا کر رکھا جائے گا ، جس میں ہر ایک کالم کے نام کے ساتھ ایک اور وصف شامل ہے۔
{ "Dataset_Name": [ { "Column_One": "https://grabz.it/", "Column_Two": "Found" }, { " Column_One": "http://dfadsdsa.com/" , "Column_Two" : "Missing" }] }
سب سے پہلے یہ یاد رکھنا ضروری ہے کہ ہینڈلر کو تمام سکریپڈ ڈیٹا بھیجا جائے گا ، جس میں ایسا ڈیٹا شامل ہوسکتا ہے جو JSON یا XML اشیاء میں تبدیل نہیں ہوسکتا ہے۔ لہذا عمل کرنے سے پہلے آپ جو قسم کا ڈیٹا وصول کررہے ہیں اس کی جانچ پڑتال ضروری ہے۔
scrapeResult = ScrapeResult.ScrapeResult() if scrapeResult.getExtension() == 'json': json = scrapeResult.toJSON() for json["Dataset_Name"] in obj: if obj["Column_Two"] == "Found": #do something else: #do something else else: #probably a binary file etc save it scrapeResult.save("results/"+scrapeResult.getFilename())
مندرجہ بالا مثال سے پتہ چلتا ہے کہ ڈیٹاسیٹ کے سارے نتائج کو کیسے لوپ کیا جائے Dataset_Name
اور قدر کی بنیاد پر مخصوص اقدامات کریں Column_Two
وصف. نیز اگر ہینڈلر کے ذریعہ موصول ہونے والی فائل JSON فائل نہیں ہے تو یہ ٹھیک ہے saveنتائج کی ڈائرکٹری سے ڈی۔ جبکہ سکریپ ریسلٹ کلاس یہ یقینی بنانے کی کوشش کرتی ہے کہ تمام پوسٹ فائلیں گربزٹ کے سرورز سے نکلیں ، فائلوں کی توسیع کی جانچ پڑتال بھی ان سے پہلے کی جانی چاہئے۔ saved.
سکریپ ریسلٹ کلاس کے تمام طریقے ذیل میں درج ہیں جو کھرچنے کے نتائج پر کارروائی کرنے کے لئے استعمال ہوسکتے ہیں۔
اپنے ازگر ہینڈلر کو ڈیبگ کرنے کا بہترین طریقہ یہ ہے کہ نتائج کو کھرچنے کے لئے ڈاؤن لوڈ کرنا ویب سکریپس صفحہ، save جس فائل سے آپ کو پریشانی کا سامنا کرنا پڑتا ہے وہ قابل رسائی مقام تک پہنچ جاتی ہے اور پھر اس فائل کا راستہ اس سکریپ ریسلٹ کلاس کے کنسٹرکٹر کے پاس کردیتی ہے۔ جیسا کہ ذیل میں دکھایا گیا ہے ، ہر بار نیا کھرچنا کئے بغیر آپ کو اپنے ہینڈلر کو ڈیبگ کرنے کی اجازت دیتا ہے۔
scrapeResult = ScrapeResult.ScrapeResult("data.json"); #the rest of your handler code remains the same
ازگر کے لئے گربزٹ کے ویب سکریپر API کے ذریعہ ، آپ ضرورت کے مطابق کسی کھرچ کو دور سے شروع ، روک سکتے ہیں ، اہل یا غیر فعال کرسکتے ہیں۔ یہ مندرجہ ذیل مثال میں دکھایا گیا ہے کہ کھرچنی کی شناخت کے ساتھ ساتھ نئی کھرچنی حیثیت کو بھی SetScrapeStatus
طریقہ.
client = GrabzItScrapeClient.GrabzItScrapeClient("Sign in to view your Application Key", "Sign in to view your Application Secret") //Get all of our scrapes myScrapes = client.GetScrapes() if (len(myScrapes) == 0) { raise Exception('You have not created any scrapes yet! Create one here: https://grabz.it/scraper/scrape/') } //Start the first scrape client.SetScrapeStatus(myScrapes[0].ID, "Start") if (len(myScrapes[0].Results) > 0) { //re-send first scrape result if it exists client.SendResult(myScrapes[0].ID, myScrapes[0].Results[0].ID); }
گربزٹ اسکرائپ کلینٹ کلاس کے تمام طریقے اور خصوصیات درج ہیں جن کا استعمال ریاستی کھرچوں پر قابو پانے کے لئے کیا جاسکتا ہے۔