neděle 3. dubna 2011

Co si vrabci štěbetají...

V posledních pár dnech má pracovní náplň spočívala v posílání tuny emailů a příležitostné četbě jejich obsahu. Na Javu jsem nesáhl už tak týden. A tak ve mně zase hlodala myšlenka se pustit do nějakého osobního projektu. A ten je tu a krycí jméno má ... Štěbetání (sledujte @stebetani na twitteru ;) ).

Oč jde? Ve finále by to měl být archiv a vyhledávač v českém Twitteru. Tedy něco, co už dávno existuje (např. http://klaboseni.cz). Když už to existuje, tak proč se do toho pouštím? Because I can :) Pak je tu spousta racionálnějších důvodů, ale o těch až jindy.

Teď chci psát o Štěbetání, protože mi zrovna během psaní tohoto blogpostu běží první build. A co už umí? Umí sledovat twitter (v tuhle chvíli jen cca 1% světové komunikace, s tím se bude muset pohnout), ukládat a indexovat příspěvky, o kterých si myslí, že jsou česky. To je za dva večery práce docela hezký postup.

A přesto, že zatím umí jen tyhle dvě věci, už narážím na první problémy (hurá, jinak by to byla nuda). Jednak problém je v tom 1% všech příspěvků. To není moho, ale je to vše co v základu (úroveň Spritzer) Twitter Streaming API poskytuje. Dá se zažádat od Gardenhose, který bude vracet kolem 10%, což je taky moc málo. 100% se dá získat s oprávněním Firehose, ale Twitter zřejmě tento druh oprávnění moc nerozdává. Vypadá to, že budu muset přes tento omezený přístup alespoň získávat české účty a ty pak sledovat separátně, byť s nějakým zákonitým zpožděním... Tohle každopádně nemá smysl řešit, dokud se nevyřeší problém druhý.

A jako druhý problém se ukazuje samotná detekce češtiny. Zkouším knihovnu language-detection, která je sice rychlá, ale zatím má hodně false-positive výstupů :-/ Koukněte sami, co všechno vyhodnotila při úplně prvním běhu jako češtinu (každý tweet je uvozen autorem):
  • @SarahGuarda - voo come ;9 UAHUAH ja volto
  • @joystam - @paolodenh Ja op tv:p
  • @CarinyAlves - Photo: soakupthelove: http://tumblr.com/xbn1yz12zw
  • @takahashianna - あ!透明さん!FBでお友達です笑 ( #kou17no_ust live at http://ustre.am/mt2l)
  • @dormify - No meat, no problem! http://usat.ly/hF8GdO
  • @MaiteOrsini - @Loredanaconce sky
  • @Chasteel - orkut novo fico moool podree
  • @Lydia_Sewell - @SpotspotsLover thankyou very much! X
  • @georgialou_ - @AwwDelena no problem:)
  • @eltiochave - @Chrichmond jajaj soy tu fan!
  • @_holopainen_ - @romanokoopa Quero só ver
  • @naayazevedo_ - @jackymenezes 9153 0440
  • @minitrollcz - Varu. Kdo nezazil pulnocni projekci v Termalu, nacpaneho k prasknuti mile opilym publikem, ktere bourlive odnenovalo kazdou povedenou scenu
  • @Vicki_theBOSS - .....oh ok!
  • @lucaspf94 - @GabrielDrint chegou o novo pc já?
  • @lucaspf94 - @GabrielDrint chegou o novo pc já?
V podstatě je mezi 15 příspěvky pouze jeden česky, to není dobré. Podobně neradostný pohled nabízí i aktuální databáze - z 60 příspěvků, které se během psaní tohoto postu přidaly jich jsou pouhé tři česky. Budu to muset holt ještě poladit :)

Jsem zvědav, jak si Štěbetání povede přes noc a čím mě překvapí ráno, hádám, že přes noc moc českých tweetů nevznikne...

Update: Přes noc si štěbetání natáhlo kolem 1600 tweetů, přičemž se zkoršilo skóre správně rozpoznaných. Nejspíš proto, že většina českých autorů spí a tak moc českých tweeetů nepřibývá. Uvidíme jaký bude poměr ve špičce.

Žádné komentáře:

Okomentovat