1. #1
    Bauhaus's schermafbeelding
    Lid sinds
    25/04/04
    Berichten
    636
    iTrader
    0
    Reputation
    0/7

    Question C# - Ophalen IMDB data

    Ik ben bezig met het programmeren van een filmdatabase waarbij data van IMDB opgehaald wordt.
    Voor de titel gebruik ik de regex (?<=(<title>)).*(?=\\().
    Bij buitenlandse films heb je echter een originele en een translated title, bv. de film "Mou gaan dou" aka "Infernal Affairs".
    Wanneer ik de regex test in regexbuddy krijg ik de translated titel Infernal Affairs maar in visual studio de originele titel Mou gaan dou !

    Iemand enig idee wat het probleem is ?
    When Tallulah Bankhead was on a TWA flight, the stewardess said "Would you like some of our TWA coffee Miss Bankhead?" Tallulah looked her up and down lasciviously and said "No darling, but I'd love some of your TWA tea".

  2. #2
    Bauhaus's schermafbeelding
    Lid sinds
    25/04/04
    Berichten
    636
    iTrader
    0
    Reputation
    0/7
    Niemand enig idee ?

    dit staat in de paginabron: <title>Infernal Affairs (2002) - IMDb</title>

    Hoe komt hij dan aan Mou gaan dou ??
    When Tallulah Bankhead was on a TWA flight, the stewardess said "Would you like some of our TWA coffee Miss Bankhead?" Tallulah looked her up and down lasciviously and said "No darling, but I'd love some of your TWA tea".

  3. #3
    paradijsappel's schermafbeelding
    Lid sinds
    18/06/15
    Locatie
    Paradijs
    Berichten
    3.356
    iTrader
    0
    Reputation
    1/293
    Heb je dat getest op een lokale html kopie van die pagina of vul je de url gewoon ergens in je code in waardoor je de html-pagina die gescanned wordt eigenlijk niet ziet?
    1 leden vonden dit bericht nuttig.   Met citaat reageren Met citaat reageren

  4. #4

    Lid sinds
    25/09/13
    Locatie
    Prov Antwerpen
    Berichten
    105
    iTrader
    3 (100%)
    Reputation
    1/1
    Dit komt omdat de title-tag at runtime door javascript gemanipuleerd wordt.

    Ik vermoed dat je met HttpClient o.i.d. de response content ophaalt om daarop de regex los te laten.
    Als je als tussenstap deze response eens naar een txt bestandje wegschrijft zal je zien dat in de title-tag ook effectief "Mou gaan dou [...]" bevat.

    Ik heb een paar steekproeven gedaan en het lijkt er op dat je de o.b.v "og:title" wel de juiste titel moet kunnen vinden:
    Code:
    <meta property='og:title' content="Infernal Affairs (2002) - IMDb" />
    Succes.
    1 leden vonden dit bericht nuttig.   Met citaat reageren Met citaat reageren

  5. #5
    Bauhaus's schermafbeelding
    Lid sinds
    25/04/04
    Berichten
    636
    iTrader
    0
    Reputation
    0/7
    Bedankt voor de replies.
    Heb het inderdaad gevonden door de stream naar een txt te schrijven.
    Raar dat 'em die titel verandert at runtime, alle andere tags (genre, jaar, writer,...) werken wel.
    When Tallulah Bankhead was on a TWA flight, the stewardess said "Would you like some of our TWA coffee Miss Bankhead?" Tallulah looked her up and down lasciviously and said "No darling, but I'd love some of your TWA tea".

  6. #6
    Tyfius's schermafbeelding
    Lid sinds
    1/09/02
    Locatie
    Steenokkerzeel
    Berichten
    7.483
    iTrader
    0
    Reputation
    5/29
    Je kan altijd eens kijken naar de OMDb API (OMDb API - The Open Movie Database) om die data op te halen, dan moet je zelf geen parser schrijven voor IMDb, zij hebben dat voor jou al gedaan en je kan dan gewoon hun API gebruiken.

    Als alternatief heb je ook nog TMDb (https://www.themoviedb.org), zij hebben een eigen film database, maar bieden daar ook een API voor aan waar je film gegevens mee kan ophalen.

  7. #7
    Bauhaus's schermafbeelding
    Lid sinds
    25/04/04
    Berichten
    636
    iTrader
    0
    Reputation
    0/7
    Ja, die OMDb ben ik ook al tegen gekomen, maar om de gegevens op te halen moet je toch ook de pagina scrapen ?
    When Tallulah Bankhead was on a TWA flight, the stewardess said "Would you like some of our TWA coffee Miss Bankhead?" Tallulah looked her up and down lasciviously and said "No darling, but I'd love some of your TWA tea".

  8. #8
    Tyfius's schermafbeelding
    Lid sinds
    1/09/02
    Locatie
    Steenokkerzeel
    Berichten
    7.483
    iTrader
    0
    Reputation
    5/29
    Citaat Oorspronkelijk geplaatst door Bauhaus Bekijk bericht
    Deze quote is verborgen omdat je deze gebruiker negeert. Weergeven
    Ja, die OMDb ben ik ook al tegen gekomen, maar om de gegevens op te halen moet je toch ook de pagina scrapen ?
    Neen. Je moet de OMDb API aanroepen. Je kan op hun website eens een sample proberen. Zij hebben dat scrapen van IMDb al voor jou gedaan en bieden het resultaat daarvan aan via een eenvoudige API.

    Een query voor "Fight Club" (http://www.omdbapi.com/?t=Fight+Club) levert je dan een JSON op met de nodige info:
    Code:
    {
       "Title":"Fight Club",
       "Year":"1999",
       "Rated":"R",
       "Released":"15 Oct 1999",
       "Runtime":"139 min",
       "Genre":"Drama",
       "Director":"David Fincher",
       "Writer":"Chuck Palahniuk (novel), Jim Uhls (screenplay)",
       "Actors":"Edward Norton, Brad Pitt, Meat Loaf, Zach Grenier",
       "Plot":"An insomniac office worker and a devil-may-care soapmaker form an underground fight club that evolves into something much, much more.",
       "Language":"English",
       "Country":"USA, Germany",
       "Awards":"Nominated for 1 Oscar. Another 10 wins & 34 nominations.",
       "Poster":"https://m.media-amazon.com/images/M/MV5BMmEzNTkxYjQtZTc0MC00YTVjLTg5ZTEtZWMwOWVlYzY0NWIwXkEyXkFqcGdeQXVyNzkwMjQ5NzM@._V1_SX300.jpg",
       "Ratings":[
          {
             "Source":"Internet Movie Database",
             "Value":"8.8/10"
          },
          {
             "Source":"Rotten Tomatoes",
             "Value":"79%"
          },
          {
             "Source":"Metacritic",
             "Value":"66/100"
          }
       ],
       "Metascore":"66",
       "imdbRating":"8.8",
       "imdbVotes":"1,699,612",
       "imdbID":"tt0137523",
       "Type":"movie",
       "DVD":"06 Jun 2000",
       "BoxOffice":"N/A",
       "Production":"20th Century Fox",
       "Website":"http://www.foxmovies.com/fightclub/",
       "Response":"True"
    }

  9. #9
    Bauhaus's schermafbeelding
    Lid sinds
    25/04/04
    Berichten
    636
    iTrader
    0
    Reputation
    0/7
    Ok, thanks. Zal eens zien hoe dit te gebruiken met c#.
    When Tallulah Bankhead was on a TWA flight, the stewardess said "Would you like some of our TWA coffee Miss Bankhead?" Tallulah looked her up and down lasciviously and said "No darling, but I'd love some of your TWA tea".

Regels voor berichten

  • Je mag geen nieuwe discussies starten
  • Je mag niet reageren op berichten
  • Je mag geen bijlagen versturen
  • Je mag niet je berichten bewerken
  •  

Inloggen

Inloggen