Семалт: Како користити Питхон за гребање веб странице?

Подаци играју кључну улогу у истрагама, зар не? То може довести до новог начина гледања на ствари и развијања других увида. Најнесретније је што подаци које тражите обично нису лако доступни. Можете га пронаћи на Интернету, али можда није у формату који можете преузети. У таквом случају можете користити технику скенирања на мрежи за програмирање и прикупљање потребних података.

Постоји неколико приступа стругања и програмских језика који могу бити од помоћи у овом процесу. Овај чланак ће вас упутити о томе како користити питхон језик за сцрап сајта. Добићете пуно увида у рад веб страница. Такође ћете разумети како програмери структуирају податке на било ком веб месту.

Најбоља почетна тачка је преузимање и инсталирање Анацонда Питхон Дистрибутион на ваш рачунар. Можете и да преузмете неколико туторијала о основама овог програмског језика. Најбоље место за полазак могла би бити Цодецадеми, посебно ако немате појма о овом пољу.

Овај водич ће користити тренутну страницу за попис затвореника у држави Полк. Водићемо вас о томе како користити Питхон скрипту за вађење листе затвореника и добијање неких података попут града пребивалишта и расе за сваког затвореника. Читава скрипта кроз коју ћемо вас водити чува се и отвара у ГитХуб-у. Ово је једна од популарних интернет платформи која омогућава дељење рачунарских кодова. Кодови имају дугу листу коментара који би вам могли бити од велике помоћи.

Приликом скенирања било које странице, први алат који треба потражити је веб претраживач. Већина прегледача ће корисницима дати ХТМЛ алате за преглед који помажу у подизању издубљивања лежишта мотора и разумијевању структуре страница. Начин приступа сваком алату варира од једног прегледача до другог. Међутим, основа је „извор странице за приказ, а можете је добити десним кликом директно на страницу.

Док прегледавате ХТМЛ извор странице, препоручљиво је да детаљно наведете детаље веза до затвореника у редовима табеле. Следећи корак је писање скрипте коју ћемо користити да бисмо извукли ове информације. Два Питхон пакета која ћемо користити у тешком поступку дизања су Беаутифул Соуп анд Рекуестс. Обавезно их инсталирајте пре него што почнете да покрећете код.

Скрипта за веб гребање урадиће три ствари. Они укључују учитавање страница са списком и издвајање веза до страница са детаљима, учитавање сваке странице детаља и вађење података и штампање извучених података у зависности од тога како се филтрира, попут града пребивалишта и расе. Након што то схватите, следећи корак је започети поступак кодирања помоћу Беаутифул Соуп анд Рекуестс.

Прво, логично учитајте страницу с пописом затвореника помоћу УРЛ-а рекуест.гет, а затим употријебите прекрасну супу како бисте је исправили. Након тога, издвајамо везу до страница с детаљима петљајући кроз сваки ред. Након рашчламбе детаља о затворенику, следећи корак је извлачење у пол, старост, расу, време резервисања и вредности имена. Сваки затвореник ће добити свој речник, а сви речници ће се додати у списак затвореника. Коначно, пређите преко трке и градских вредности пре него што коначно испишете своју листу.

mass gmail