Booli, del 2 – hur fungerar en bostadsmashup?

Tidigare i veckan så skrev jag om bostadssökmotorn Booli, vad de gör och hur de planerar att tjäna pengar på sin mashup. Nu är det dags att gå djupare in på hur deras system fungerar och vilka APIer de använder. Artiklarna om Booli bygger på ett samtal med Boolis marknadschef Anders Kyhlstedt.

Hur indexeras bostadsinformationen?

Informationen om bostäder indexeras direkt från mäklarnas sajter genomm att använda sk “web scraping”. Detta betyder att mäklarna inte behöver göra något för att Booli ska hämta information om deras objekt, förutom att lägga ut dessa bostadsobjekt på sin egen webbsajt. Där skrapar Booli denna data dels genom att använda 3e parts teknologi dels genom program de har utvecklat själva. Genom att använda web scraping så använder Booli ett av de mest spridda dataformaten som finns, och man kan tom argumentera att det är ett av de mest spridda APIerna som finns, nämligen HTML (mycket mer om web scraping i kommande artiklar här på mashup.se).

Att göra insamlad data användbar

Att indexera all data är bara en del av lösningen, sedan måste all data rensas och göras användbar. Ett problem är att placera en bostad korrekt, det är inte alltid mäklarnas beskrivningar är geografiskt korrekta. Bara för att en bostad beskrivs som att det ligger i Djursholm så behöver det inte vara helt korrekt, den kanske bara ligger närheten men att använda “Djursholm” i annonsen gör att man får fler personer till visningen.

Ett annat, liknande problem, är att det som folk söker efter inte alltid motsvarar väldefinierade geografiska områden. Hur definierar man “innerstaden, göteborg” eller “södermalm” via en algorithm. Här har Booli lagt ner en hel del jobb för att placera bostäder korrekt på en karta samt att låte användare söka efter det de verkligen är intresserade av utan att behöva definiera län och kommun (a la Hemnet).

Detta är ofta problemet med web scraping och att samla in data från många olika källor. Att hämta själva datan är en liten, men viktig del, men att sedan rensa upp den, passa in data från olika källor till samma datamodell etc är väldigt komplicerat och en ofta underskattad del av problemet. Om man inte gör ett bra jobb där så är den insamlade datan inte alls så värdefull och användbar som den annars kunde vara.

APIer

Men Booli använder även fler andra APIer, och fler kommer det nog att bli…

  • Google Maps API används för att visa bostäder på en karta samt för att räkna ut restiden mellan olika platser, tex mellan en arbetsplats och bostad
  • Via ett API som BR-Guiden har utvecklat för Booli så får Booli tillgång till information om Bostadsrättsföreningars ekonomi som Boolis användare sedan kan ta del av
  • EasyLoans API används för boendekostnadskalkyler och bolånekalkyler genom att EasyLoan har tillgång till räntor etc från ett stort antal banker
  • I den senaste releasen så använder Booli även Lantmäteriets API för att få försäljningsdata av alla bostäder i Sverige. Det är genom denna data som Booli kan räkna ut skillnaden mellan utropspris (som de hittar via sin indexering av mäklarnassidor) och slutpris (via Lantmäteriet).

Just nu så tittar Booli på visualiseringsbibliotek och APIer för att kunna visualisera statistik i snygga grafer och heatmaps, så det är något vi kan förvänta oss se snart.

Även om Booli har haft funderingar på ett eget API så finns det inga konkreta planer än. Det är ett stort jobb att tillhandahålla ett API och just nu måste de koncentrera sig på grundfunktionalitet. Men de har faktiskt ett enkelt sätt att komma åt den data de har i sina system (om man inte vill använda web scraping) och det är via RSS. Alla sökningar har sitt eget unika RSS feed så det går bra att hämta information om tex alla villor till salu i Skåne om det är något som man är intresserad att använda i sin egen mashup.

Konkurrenter

Booli vill inte riktigt gå med på att Hemnet, BoVision och de stora mäklarnas egna sajter är konkurrenter, men eftersom man försöker komma åt samma konsumenter så är det svårt att se att de inte skulle vara konkurrenter i alla fall på något plan. Dessutom så har det danska företaget Boligan kommit till Sverige. Boligan indexerar också mäklarnas sajter och har varit rätt framgångsrika i Danmark redan.

Anders Kyhlstedt tror också att Schibsted kommer att försöka sig på marknaden inom 1-2 år, kanske via Svenska Dagbladet. Svårigheten för Schibsted och andra mediahus är att de för närvarande tjänar mycket pengar på mäklarnas bostadsannonser och att det kommer att vara svårt att fortsätta göra det samtidigt som att man expanderar till att indexera mäklarnas information i en vertikal sökmotor.

Det Booli nu har är skapat på ett drygt år, så de har inte så stort försprång mot nya aktörer som kan dyka upp på marknaden. Även små nystartade företag kan bygga liknande system. Att skrapa mäklarsajter är inte så svårt och att smart använda Google Maps och andra APIer är inte heller så svårt. Det ska bli mycket intressant att se hur marknaden förändras, hur Booli utvecklas och vilka nya initiativ som kommer att tas under de närmsta åren.

Ett stort tack till Anders Kyhlstedt på Booli för intervjun!