winfreed.py: factor out a generic download_file() function

[winfreed.git] / winfreed.py
diff --git a/winfreed.py b/winfreed.py

index a53bda8..99eabb7 100755 (executable)
--- a/winfreed.py
+++ b/winfreed.py
@@ -33,6 +33,7 @@ LANGCODE = 'en-US'
  PKG_DIR = 'pkgs'
  CHUNK_SIZE = 8192
  
  PKG_DIR = 'pkgs'
  CHUNK_SIZE = 8192
  
+
  def get_pkg(json_file):
      with open(json_file, mode='r') as f:
          pkg = json.load(f)
  def get_pkg(json_file):
      with open(json_file, mode='r') as f:
          pkg = json.load(f)
@@ -44,6 +45,7 @@ def get_pkg(json_file):
  
      return None
  
  
      return None
  
+
  def process_all(path, cb):
      listing = glob.glob(os.path.join(path, '*.json'))
      for json_file in listing:
  def process_all(path, cb):
      listing = glob.glob(os.path.join(path, '*.json'))
      for json_file in listing:
@@ -53,39 +55,41 @@ def process_all(path, cb):
              continue
          cb(pkg)
  
              continue
          cb(pkg)
  
+
  def show(pkg):
      print 'Package:  ', pkg['package_name']
      print 'Program:  ', pkg['name']
      print 'Homepage: ', pkg['homepage']
      print
  
  def show(pkg):
      print 'Package:  ', pkg['package_name']
      print 'Program:  ', pkg['name']
      print 'Homepage: ', pkg['homepage']
      print
  
-def download(pkg):
-    # the "%s" in URLs are meant to be replaced with LANGCODE
-    try:
-        url = pkg['URL'] % LANGCODE
-    except:
-        url = pkg['URL']
-        pass
  
  
+def download_file(url, dest_dir):
      response = urllib2.urlopen(url)
      response = urllib2.urlopen(url)
+    url = response.geturl()
  
      filename = ""
  
      filename = ""
-    if 'Content-Disposition' in  response.info():
-        # Use the filename the server tells us if any,
-        # re pattern from http://stackoverflow.com/questions/8035900
-        content_disposition = response.info().getheader('Content-Disposition').strip()
-        filename = re.findall("filename=(\S+)", content_disposition)[0]
-    
-    if filename == "":
-        filename = urllib2.unquote(os.path.basename(response.geturl()))
+
+    # From http://paste.pound-python.org/show/9545/
+    # TODO: use a proper module to parse HTTP headers
+    if response.info().has_key('Content-Disposition') and len(response.info()['Content-Disposition'].split('filename=')) > 1:
+        # If the response has Content-Disposition, we take file name from it
+        filename = response.info()['Content-Disposition'].split('filename=')[1].decode('utf-8')
+        if filename[0] == '"' or filename[0] == "'":
+            filename = urllib2.unquote(filename.split('"')[1])
+    else:
+        filename =  urllib2.unquote(url.split('/')[-1].decode('utf_8'))
  
      if filename == "":
  
      if filename == "":
-        sys.stderr.write("Debug (%s): filename: %s url: %s\n" %(pkg['package_name'], filename, response.geturl()))
+        sys.stderr.write("Debug (%s): filename: %s url: %s\n" % (pkg['package_name'], filename, url))
          return
  
          return
  
-    destfile = os.path.join(OUTPUT_DIR, filename)
+    # TODO: Add some integrity verification of downloaded files (md5, sha256?)
+
+    destfile = os.path.join(dest_dir, filename)
      if os.path.exists(destfile):
      if os.path.exists(destfile):
-        sys.stderr.write("Warning (%s): %s exists!\n" % (pkg['package_name'], destfile))
+        # TODO: check if the file is a full download from previous run,
+        # if not download again discarding the existing file?
+        sys.stderr.write("Warning: %s exists!\n" % destfile)
          return
  
      outfile = open(destfile, mode='w')
          return
  
      outfile = open(destfile, mode='w')
@@ -93,7 +97,8 @@ def download(pkg):
      total_size = response.info().getheader('Content-Length').strip()
      total_size = int(total_size)
  
      total_size = response.info().getheader('Content-Length').strip()
      total_size = int(total_size)
  
-    widgets = [pkg['name'], ' ', Percentage(), ' ', Bar(marker='=', left='[', right=']'),
+    #widgets = [pkg['name'], ' ', Percentage(), ' ', Bar(marker='=', left='[', right=']'),
+    widgets = [filename, ' ', Percentage(), ' ', Bar(marker='=', left='[', right=']'),
                 ' ', ETA(), ' ', FileTransferSpeed()]
      pbar = ProgressBar(widgets=widgets, maxval=total_size).start()
  
                 ' ', ETA(), ' ', FileTransferSpeed()]
      pbar = ProgressBar(widgets=widgets, maxval=total_size).start()
  
@@ -108,15 +113,31 @@ def download(pkg):
          pbar.update(bytes_so_far)
      pbar.finish()
  
          pbar.update(bytes_so_far)
      pbar.finish()
  
+    outfile.close()
+
+
+def download(pkg):
+    # the "%s" in URLs are meant to be replaced with LANGCODE
+    try:
+        pkg_url = pkg['URL'] % LANGCODE
+    except:
+        pkg_url = pkg['URL']
+        pass
+
+    download_file(pkg_url, OUTPUT_DIR)
+
+
  def show_all():
      process_all(PKG_DIR, show)
  
  def show_all():
      process_all(PKG_DIR, show)
  
+
  def download_all():
      if os.path.exists(OUTPUT_DIR) == False:
          os.mkdir(OUTPUT_DIR, 0755)
  
      process_all(PKG_DIR, download)
  
  def download_all():
      if os.path.exists(OUTPUT_DIR) == False:
          os.mkdir(OUTPUT_DIR, 0755)
  
      process_all(PKG_DIR, download)
  
+
  def usage():
      usage = "winfreed - download a selection of Free Software for MS Windows.\n\n"
      usage += "usage: %s <COMMAND>\n\n" % sys.argv[0]
  def usage():
      usage = "winfreed - download a selection of Free Software for MS Windows.\n\n"
      usage += "usage: %s <COMMAND>\n\n" % sys.argv[0]
@@ -138,5 +159,5 @@ if __name__ == "__main__":
      else:
          usage()
          sys.exit(1)
      else:
          usage()
          sys.exit(1)
-    
+
      sys.exit(0)
      sys.exit(0)