Back to Question Center
0

Semalt: 3 toimingut PHP veebilehe kraapimiseks

1 answers:

Veebi kraapimine, mida nimetatakse ka veebiandmete kaevandamiseks või veebi koristamiseks, on veebisaidi või blogi andmete väljavõtmise protsess. Seejärel kasutatakse seda teavet meta-siltide, meta kirjelduste, märksõnade ja linkide määramiseks saidile, parandades selle üldist jõudlust otsingumootori tulemustes.

Andmete kraapimiseks kasutatakse kahte peamist tehnikat:

  • Dokumentide analüüs - See hõlmab XML- või HTML-dokumendi, mis teisendatakse DOM-i (dokumendiobjekti mudel ) faile. PHP annab meile suurepärase DOM-i laienduse.
  • Regulaaravaldised - see on viis, kuidas veebidokumentide andmeid krigistada regulaaravaldiste kujul.

Kolmanda osapoole veebisaiti puudutavate andmete kustutamine on seotud selle autoriõigustega, kuna teil pole luba neid andmeid kasutada. Kuid PHP-ga saate andmeid lihtsalt kopeerida ilma autoriõiguste või madala kvaliteediga seotud probleemideta. PHP programmeerijaks võib vaja olla kodeerimise eesmärgil erinevate veebisaitide andmeid. Siin on selgitatud, kuidas saada andmeid teistest saitidest tõhusalt, kuid enne seda peaksite meeles pidama, et lõpus saate kas failid index.php või scrape.js.

Sammud 1: Veebisaidi URL-i sisestamiseks vorm (Veebilehe URL):

Kõigepealt peaksite luua indeks.php-vormi, klõpsates nupul Esita ja sisestades andmete hõõrumise URL-i veebisaidi URL-i.



Sisestage veebisaidi URL, et kraapida andmeid

(44 )



Steps2: PHP-funktsioon luua veebisaidi andmed:

Teine samm on luua PHP skriptid skrape.php-failis, kuna see aitab saada andmeid ja kasutada URL-i teegi. See võimaldab teil ka ilma probleemideta ühendada ja suhelda erinevate serverite ja protokollidega..

funktsioon scrapeSiteData ($ website_url) {

kui (! Function_exists ('curl_init')) {

die ("cURL ei ole installitud. ');

}

$ curl = curl_init

;

curl_setopt ($ curl, CURLOPT_URL, $ website_url);

curl_setopt ($ curl, CURLOPT_RETURNTRANSFER, true);

$ väljund = curl_exec ($ curl);

curl_close ($ curl);

tagastab $ output;

}

Siin näeme, kas PHP CURL on korralikult installitud või mitte. Funktsioonide piirkonnas tuleb kasutada kolme peamist CURL-i ja curl_init

aitab seansse initsialiseerida, curl_exec

käivitab selle ja curl_close

aitab ühendust sulgeda. Muutujaid, nagu CURLOPT_URL, kasutatakse veebisaidi URL-ide määramiseks, mis meil on vaja kraapida. Teine CURLOPT_RETURNTRANSFER aitab salvestada varjatud lehti muutuva vormi asemel vaikimisi kujul, mis lõpuks näitab kogu veebilehte.

sammud3: Veebisaidi konkreetsete andmete kraapimine:

On aeg käsutada PHP-faili funktsioone ja kraapida oma veebilehe konkreetset osa. Kui te ei soovi, et kõik andmed pärinevad kindlast URL-ist, peate muutma muutujaid CURLOPT_RETURNTRANSFER ja tõstma esile need sektsioonid, mida soovite kraapida.

kui (isset ($ _ POST ['submit']))) {

$ html = scrapeWebsiteData ($ _ POST ['website_url']);

$ start_point = strpos ($ html, 'Latest Posts');

$ end_point = strpos ($ html, '', $ start_point);

$ pikkus = $ end_point- $ start_point;

$ html = substr ($ html, $ start_point, $ length);

echo $ html;

}

Soovitame teil enne põhikogemust PHP-i ja regulaaravaldiste väljatöötamist enne mõnda nimetatud koodi kasutamist või konkreetse blogi või veebisaidi isiklikuks otstarbeks kraapida Source .

December 8, 2017