Pagina 1 van 2 12 Laatste

Discussie: Scraping?

  1. #1

    Lid sinds
    1/02/14
    Locatie
    Gent
    Berichten
    50
    iTrader
    0
    Mentioned
    0 Post(s)
    Reputation
    0/3

    Scraping?

    Ik heb even een vrij complexe casus waar ik zelf weinig raad mee weet - misschien kan
    iemand hier helpen!

    Ik zou graag een website/dienst uitbouwen die gebruik maakt van informatie van op een andere site, en die die informatie consolideert om daar dan op basis van verschillende parameters conclusies uit te trekken zoals hoe lang dingen op de site blijven staan, en waarom dan. Nu, ik ben zelf jurist en heb wel een basis IP, dus ik zie de potentiële problemen er wel van, maar wil wel even aftoetsen. Het zou voor commercieel gebruik zijn, is wel relevante info.

    Het is eventjes vaag uitgelegd, waarvoor mijn excuses, maar ik wil ook niet teveel prijsgeven

  2. #2
    Mauw's schermafbeelding
    Lid sinds
    8/01/14
    Locatie
    Elewijt
    Berichten
    213
    iTrader
    0
    Mentioned
    1 Post(s)
    Reputation
    0/5
    Wel ik heb in het verleden ooit zoiets gebouwd voor immo te verzamelen op 1 site (dus immoweb, immovlan, zimmo, era etc etc ..) afschuimen en hier een database uit bouwen die de dubbels eruit haalt maar veel websites hebben door dat je ze aan het scrapen bent en blokkeren de toegang tot je IP. Er staat op zimmo zelfs dat ze tegen je procederen als je ze scraped heb ik over't laatst ontdekt.

    Langs de andere kant.. informatie staat online dus volgens mij hebben ze geen been om op te staan

  3. #3
    Mauw's schermafbeelding
    Lid sinds
    8/01/14
    Locatie
    Elewijt
    Berichten
    213
    iTrader
    0
    Mentioned
    1 Post(s)
    Reputation
    0/5
    Wel ik heb in het verleden ooit zoiets gebouwd voor immo te verzamelen op 1 site (dus immoweb, immovlan, zimmo, era etc etc ..) afschuimen en hier een database uit bouwen die de dubbels eruit haalt maar veel websites hebben door dat je ze aan het scrapen bent en blokkeren de toegang tot je IP. Er staat op zimmo zelfs dat ze tegen je procederen als je ze scraped heb ik over't laatst ontdekt.

    Langs de andere kant.. informatie staat online dus volgens mij hebben ze geen been om op te staan

  4. #4

    Lid sinds
    19/02/12
    Locatie
    Arendonk
    Berichten
    4.761
    iTrader
    0
    Mentioned
    11 Post(s)
    Reputation
    71/639
    Citaat Oorspronkelijk geplaatst door Mauw Bekijk bericht
    Deze quote is verborgen omdat je deze gebruiker negeert. Weergeven
    Wel ik heb in het verleden ooit zoiets gebouwd voor immo te verzamelen op 1 site (dus immoweb, immovlan, zimmo, era etc etc ..) afschuimen en hier een database uit bouwen die de dubbels eruit haalt maar veel websites hebben door dat je ze aan het scrapen bent en blokkeren de toegang tot je IP. Er staat op zimmo zelfs dat ze tegen je procederen als je ze scraped heb ik over't laatst ontdekt.

    Langs de andere kant.. informatie staat online dus volgens mij hebben ze geen been om op te staan
    Voor privé doeleinden mag alles. Als je die data daarentegen opnieuw publiceert op een publieke site dan kan men u misschien wel iets maken en terecht. De gebruikers van zimmo hebben de rechten van die foto’s overgedragen via de algemene voorwaarden, maar als jij dat steelt en reupload dan heb je dus geen rechten daartoe. My 2cents.

    Was dit trouwens lang geleden dat je dit gedaan had? Ik heb ooit ook sites gescrabed maar dat was puur XML parsing uit de html. Vanaf die sites overschakelden op meer JavaScript was het voor mij onbegonnen werk en kon alle code de vuilbak in. Ik spreek van 10j geleden dan.

    Tegenwoordig is er dan ook nog recaptcha enzo, ik zou denken dat dit bijna niet meer te doen is. maybe.
    Laatst gewijzigd door Five-seveN; 25 juni 2020 om 21:37

  5. #5

    Lid sinds
    1/02/14
    Locatie
    Gent
    Berichten
    50
    iTrader
    0
    Mentioned
    0 Post(s)
    Reputation
    0/3
    Citaat Oorspronkelijk geplaatst door Five-seveN Bekijk bericht
    Deze quote is verborgen omdat je deze gebruiker negeert. Weergeven
    Voor privé doeleinden mag alles. Als je die data daarentegen opnieuw publiceert op een publieke site dan kan men u misschien wel iets maken en terecht. De gebruikers van zimmo hebben de rechten van die foto’s overgedragen via de algemene voorwaarden, maar als jij dat steelt en reupload dan heb je dus geen rechten daartoe. My 2cents.

    Was dit trouwens lang geleden dat je dit gedaan had? Ik heb ooit ook sites gescrabed maar dat was puur XML parsing uit de html. Vanaf die sites overschakelden op meer JavaScript was het voor mij onbegonnen werk en kon alle code de vuilbak in. Ik spreek van 10j geleden dan.

    Tegenwoordig is er dan ook nog recaptcha enzo, ik zou denken dat dit bijna niet meer te doen is. maybe.
    In mijn geval zou die data wel niet opnieuw gepubliceerd worden - wel gebruikt, en het resultaat ervan zou wel gepubliceerd worden, maar de data zou bij mij blijven!

  6. #6

    Lid sinds
    17/11/13
    Locatie
    Prov Antwerpen
    Berichten
    2.844
    iTrader
    0
    Mentioned
    2 Post(s)
    Reputation
    64/135
    Veel succes. Is nu niet exact rocket science om scrapers te blokkeren heden ten dage...

    Tenzij je je requests van verschillende IPs kunt sturen of je requests kunt van verschillende browsers kunt laten komen, zal je snel geblokkeerd worden.



    En zoals gezegd, als je die data voor jezelf verzamelt, kan er niet veel gebeuren. Worst-case blokkeren ze je omdat je er als een bot of DDOSer of scraper uitziet en is het wachten op een IP refresh voor je opnieuw kan beginnen.

  7. #7

    Lid sinds
    19/02/12
    Locatie
    Arendonk
    Berichten
    4.761
    iTrader
    0
    Mentioned
    11 Post(s)
    Reputation
    71/639
    Als je veel last zou krijgen van IP blocks kan je wel via tor gaan denk ik.
    Even getest en immoweb werkt toch al via tor. 9lives ook.

  8. #8
    Mauw's schermafbeelding
    Lid sinds
    8/01/14
    Locatie
    Elewijt
    Berichten
    213
    iTrader
    0
    Mentioned
    1 Post(s)
    Reputation
    0/5
    Citaat Oorspronkelijk geplaatst door Five-seveN Bekijk bericht
    Deze quote is verborgen omdat je deze gebruiker negeert. Weergeven
    Was dit trouwens lang geleden dat je dit gedaan had? Ik heb ooit ook sites gescrabed maar dat was puur XML parsing uit de html. Vanaf die sites overschakelden op meer JavaScript was het voor mij onbegonnen werk en kon alle code de vuilbak in. Ik spreek van 10j geleden dan.
    Rond 2015 was dat. Maar voor mijn toepassing had je niet veel nodig he alles wat in tekst op het scherm komt staat ook ergens in de file die je fetched. Het sop was de kool alleszinds niet waard

  9. #9

    Lid sinds
    4/04/17
    Locatie
    Antwerpen
    Berichten
    214
    iTrader
    0
    Mentioned
    1 Post(s)
    Reputation
    2/9
    Citaat Oorspronkelijk geplaatst door Five-seveN Bekijk bericht
    Deze quote is verborgen omdat je deze gebruiker negeert. Weergeven
    Voor privé doeleinden mag alles. Als je die data daarentegen opnieuw publiceert op een publieke site dan kan men u misschien wel iets maken en terecht. De gebruikers van zimmo hebben de rechten van die foto’s overgedragen via de algemene voorwaarden, maar als jij dat steelt en reupload dan heb je dus geen rechten daartoe. My 2cents.

    Was dit trouwens lang geleden dat je dit gedaan had? Ik heb ooit ook sites gescrabed maar dat was puur XML parsing uit de html. Vanaf die sites overschakelden op meer JavaScript was het voor mij onbegonnen werk en kon alle code de vuilbak in. Ik spreek van 10j geleden dan.

    Tegenwoordig is er dan ook nog recaptcha enzo, ik zou denken dat dit bijna niet meer te doen is. maybe.

    Nochtans redelijk eenvoudig als je een beetje Python kent.

  10. #10
    yaris's schermafbeelding
    Lid sinds
    4/08/02
    Berichten
    2.635
    iTrader
    0
    Mentioned
    0 Post(s)
    Reputation
    0/13
    Citaat Oorspronkelijk geplaatst door Syter Bekijk bericht
    Deze quote is verborgen omdat je deze gebruiker negeert. Weergeven
    Nochtans redelijk eenvoudig als je een beetje Python kent.
    Idd redelijk veel gedaan een tijd geleden maar ik werd toch op ip geblokkeerd na een tijd :-).
    Op mijn werk zitten we in oorlog met andere bedrijven die bij ons komen scrapen en wij ook bij die andere bedrijven . Wel leuk om het de andere partij zo moeilijk mogelijk te maken :-).

  11. #11

    Lid sinds
    19/02/12
    Locatie
    Arendonk
    Berichten
    4.761
    iTrader
    0
    Mentioned
    11 Post(s)
    Reputation
    71/639
    Citaat Oorspronkelijk geplaatst door Syter Bekijk bericht
    Deze quote is verborgen omdat je deze gebruiker negeert. Weergeven
    Nochtans redelijk eenvoudig als je een beetje Python kent.
    Misschien heb je gelijk maar misschien is het toch moeilijker dan je denkt.

    Bijvoorbeeld ik scrapte goksites om te zien wat de bookmakers op wedstrijden hadden gezet.
    Dat begon met een copy-paste van de hele pagina in html, waarna ik dit parste.
    Zeer simpel. Ik downloade zo misschien wel 100GB van unibet per maand.
    Voor andere sites deed ik dit met een Control-A, Control-C op bepaalde pagina's.
    Ik weet ja enorm amateuristisch.

    Nu kan jij me misschien eens zeggen welk "beetje python" de wedstrijden met hun bets hieruit nog kan scrapen?
    https://nl-sports.unibet.be/betting/...rican_football

    Als je een "view source" doet komt er helemaal niks op, geen enkel team, geen enkele notering.
    Zelfs een control-A heeft geen noteringen op het klembord.
    Hoe werkt dat dan?

  12. #12
    zarathustra's schermafbeelding
    Lid sinds
    17/07/02
    Locatie
    Oslo
    Berichten
    18.973
    iTrader
    1 (100%)
    Mentioned
    11 Post(s)
    Reputation
    70/1090
    Citaat Oorspronkelijk geplaatst door Five-seveN Bekijk bericht
    Deze quote is verborgen omdat je deze gebruiker negeert. Weergeven
    Misschien heb je gelijk maar misschien is het toch moeilijker dan je denkt.

    Bijvoorbeeld ik scrapte goksites om te zien wat de bookmakers op wedstrijden hadden gezet.
    Dat begon met een copy-paste van de hele pagina in html, waarna ik dit parste.
    Zeer simpel. Ik downloade zo misschien wel 100GB van unibet per maand.
    Voor andere sites deed ik dit met een Control-A, Control-C op bepaalde pagina's.
    Ik weet ja enorm amateuristisch.

    Nu kan jij me misschien eens zeggen welk "beetje python" de wedstrijden met hun bets hieruit nog kan scrapen?
    https://nl-sports.unibet.be/betting/...rican_football

    Als je een "view source" doet komt er helemaal niks op, geen enkel team, geen enkele notering.
    Zelfs een control-A heeft geen noteringen op het klembord.
    Hoe werkt dat dan?
    Het is nu jaren terug dat ik daar naar gekeken heb, maar je kan in python met (denk ik Selenium) dat gewoon een browser doen spelen en als ik met chrome in de source van die page kijk vind ik toch dingen als:

    <div data-touch-feedback="true" class="sc-AxhCb iXUpHL">Kansas City Chiefs</div>
    <div data-touch-feedback="true" class="sc-AxheI bTLIxK">1.20</div>

    dus als je iets afstemt op die pagina kan je dat er waarschijnlijk wel uithalen, hoe flexibel dat zal zijn en hoe lang het zal werken is iets anders.

    een soort van OCR of image processing is waarschijnlijk simpeler
    *** Also sprach Zarathustra ***

  13. #13

    Lid sinds
    29/12/19
    Locatie
    8870
    Berichten
    177
    iTrader
    4 (100%)
    Mentioned
    3 Post(s)
    Reputation
    0/13
    [IMG][/IMG]

  14. #14

    Lid sinds
    19/02/12
    Locatie
    Arendonk
    Berichten
    4.761
    iTrader
    0
    Mentioned
    11 Post(s)
    Reputation
    71/639
    Citaat Oorspronkelijk geplaatst door zarathustra Bekijk bericht
    Deze quote is verborgen omdat je deze gebruiker negeert. Weergeven
    Het is nu jaren terug dat ik daar naar gekeken heb, maar je kan in python met (denk ik Selenium) dat gewoon een browser doen spelen en als ik met chrome in de source van die page kijk vind ik toch dingen als:

    <div data-touch-feedback="true" class="sc-AxhCb iXUpHL">Kansas City Chiefs</div>
    <div data-touch-feedback="true" class="sc-AxheI bTLIxK">1.20</div>

    dus als je iets afstemt op die pagina kan je dat er waarschijnlijk wel uithalen, hoe flexibel dat zal zijn en hoe lang het zal werken is iets anders.

    een soort van OCR of image processing is waarschijnlijk simpeler
    Vreemd dat vond ik zelf niet. En vind ik ook niet als ik chrome view page/frame source druk.
    view-source:https://nl-sports.unibet.be/betting/...rican_football
    image processing nog simpeler?

  15. #15
    zarathustra's schermafbeelding
    Lid sinds
    17/07/02
    Locatie
    Oslo
    Berichten
    18.973
    iTrader
    1 (100%)
    Mentioned
    11 Post(s)
    Reputation
    70/1090
    Citaat Oorspronkelijk geplaatst door Five-seveN Bekijk bericht
    Deze quote is verborgen omdat je deze gebruiker negeert. Weergeven
    Vreemd dat vond ik zelf niet. En vind ik ook niet als ik chrome view page/frame source druk.
    view-source:https://nl-sports.unibet.be/betting/...rican_football
    image processing nog simpeler?
    rightclick op zo een groen ding en doe inspect
    *** Also sprach Zarathustra ***

Regels voor berichten

  • Je mag geen nieuwe discussies starten
  • Je mag niet reageren op berichten
  • Je mag geen bijlagen versturen
  • Je mag niet je berichten bewerken
  •  

Inloggen

Inloggen