Sript - Automatisch auslesen Tel.Nr/Email-Adr. aus Webseite/Impressum

Hallo Mitglieder,

ich bräuchte Euro Hilfe. Ich habe eine sehr lange Tabelle mit Adressen und auch den Urls von Firmen eines bestimmten Fachbereichs. (ca. 1800)

1) Situation:
----------------
- Diese Adressen wurden von meinem Vorgänger erworben (zum Zweck einer Mailing-Aktion)
- so weit so gut.
- Problem: Die Adressen enthalten keine Telefonnummern (und auch keine Email-Adressen)

2) Ziel:
----------
Wir möchten nun eine Mailing-Aktion (Post) machen und dannach alle Adressaten per
Telefon nachverfolgen. Darüber hinaus bei einem Teil davon eine Produkt(Einkaufsanfrage) starten, die wir gerne per Email machen würden.

3) Benötigt:
---------------
a) die zugehörige Telefonnummer
b) Die zu Webadresse/Postadresse zugehörige Email-Adresse

4) Automatische Auslese-Scripte:
- Gibt es Scripe, die Euch bekannt sind, die bei bekanntern URL der Webseite (die URLs liegen uns ja in Tebellenform vor) aus dieser automatisch die Email-Adresse und Telefonnummer aus dem Impressum auslesen?
- Oder kann uns Jemand so ein script erstellen?

5) Kann man die Telefonauskunftsdaten ( aus einer Telefon CD) irgendwie automatisch mit der gegebenen Tabelle verknüpfen und die Tel.Nr. für unsere Liste extrahieren (da hätten wir ja immer noch keine Email-Adresse)

--> Am besten also wäre das automatische gesteuerte Auslesen


Vielen Dank für Euro Hilfe - Für jeden Rat sind wir dankbar

Grüße
 
Original von farhaven
Hmm, ich rieche automatisiertes reallife spam :)

-----------------

Ich weiß gar nicht was dieser professionelle Fachausdruck genau bedeutet - hört sich auch alle Fälle gefährlich an.
Ich will wirklich nichts verbotenes tun. Muß man Jedem gleich zu Begin was negatives unterstellen?
Ich dachte ich habs ausführlich erklärt. Postadressen zu Werbezwecken kann man kaufen - und darf sie legal verwenden. Anrufen darf man potentielle Kunden auch und wir tun dies auch nicht am Abend und am Wochenende.
Im Gegenteil wir offerieren einen technischen Zusatz der eine Prdouktionshilfe darstellt - aber das ist hier bestimmt nicht das Thema, sonst sag nachher noch einer ich will hier für ein Produkt werben. Danke
 
du bist hier im falschen forum, denn die meisten leute hier lehnen solche vorgehensweisen ab. hat was mit ethik und so'n unsinn zutun, nicht so wichtig.
 
Original von herry6
Postadressen zu Werbezwecken kann man kaufen - und darf sie legal verwenden. Anrufen darf man potentielle Kunden auch und wir tun dies auch nicht am Abend und am Wochenende.
Das allein sind noch keine Kriterien, die daraus ein juristisch sauberes Unterfangen machen. Gekaufte Adressbestände müssen z. B. auf legalem Weg erworben worden sein, indem die Adressaten jeweils einer Weitergabe ihrer Kontaktdaten an Dritte zugestimmt haben. Näheres regelt das Gesetz gegen den unlauteren Wettbewerb, im Speziellen § 7 - Unzumutbare Belästigungen. In Deutschland ist im Gegensatz zu beispielsweise den USA ein Opt-In-Verfahren nötig, d. h. dass der Empfänger seine Einwilligung geben muss und man nicht potenziell jeden anschreiben darf, solange der nicht widerspricht.

Unabhängig von der Rechtslage ist dein Vorhaben aber auch nicht so einfach umzusetzen. Wer sagt denn beispielsweise, dass im Impressum jeder Webseite eine (identifizierbare) Mailadresse steht? Da die ja von Crawlern gegrabbt werden kann, wird sie vielerorts maskiert oder einfach durch ein Kontaktformular ersetzt. Telefonnummern als solche sind noch schwieriger zu identifizieren, da sie keine wohldefinierte Syntax haben. Und letztendlich klingt dein Beitrag ja auch noch danach, als hättet ihr zwar die URLs der jeweiligen Homepages, aber noch nicht mal das konkrete Impressum... sprich der zu programmierende Spider müsste sich auch noch zu einem Impressum durchwühlen ...

Alles in allem ein Unterfangen, dass für hochqualitative Daten zum Scheitern verurteilt ist und sich nur für echte Spammer lohnt, denen es nicht so wichtig ist, ob die Mailadressen, an die sie ihren Müll absetzen, tatsächlich die richtigen sind. ;)
 
Hallo zuerst mal und Danke für die Antwort,

1) Generell kann ich mir in D von völlig seriösen Adresshändlern Adressen kaufen.
Wenn ich z.B. alle Adressen von Bäckern mit mehr als 3 Angestellten haben will, so bekomme ich diese.
Und natürlich darf ich legal an alle diese Adressen Post senden.
Wenn dies nicht so wäre, würden alleine ich jede Woche hundert solche Werbungen bekommen, denen ich bestimmt nie zugestimmt habe und das meist von rnomierten Firmen.

2) Wenn man nur spammen wollte, na dann würde man halt einfach, wenn man die webadresse eh schon hat nur an alle info@name.de, office@name.de, kontakt@name.de, ... eine mail senden und 95% aller erreichen.
--> So einen Unfug wollen wir ja gerade nicht machen.

3) generell muss doch schon jemand dieses allgemeine problem in der großen weiten welt gelöst haben. Natürlich muss man bei jeder seite eine serie von logikabfragen und intelligenten abfragen machen, damit man das impressum findet und dann die Tel-Nr. . Nur, das würde bei Millionen von Adressen eine Rolle spilen. Bei 2000 spielt hier der Zeitfaktor keine Rolle.

4) Mir würde schon sehr hlfen wenn mir jemand sagn könnte in welche richtung oderwo ich suchen soll.

Danke für alle Kommentare auf alle Fälle noch mal.
 
Aber wenn die jenigen die ihr Anmailen wollt Interesse daran hätten das ihr auch die Telefonnummern bekommt hätten sie die doch bestimmt angegeben :)
 
Hallo,

jetzt gebe ich noch ein letztes Mal eine Antwort, denn hier in dem Board scheint Niemand einem Anderen helfen zu wollen sondern nur diskutieren oder fragen zu wollen warum man etwas braucht oder will.

1) Wieso investieren Sie denn Zeit eine Frage zu stellen, wenn Sie keinen Beitrag zur Problemstellung leisten wollen.

2) Möglicherweise haben Sie mit der Thematik Marketing und Vertrieb beruflich nichts zu tun (was nicht schlimm ist), sonst wüßten Sie, wie das funktioniert mit dem Vertrieb von Adressen über Adressagenturen.

- man kauft Adressen für den Postversand.
Von ganz renomierten seriösen Agenturen für viel Geld, die man merhfach verwenden darf.
- man kann Adressen auch für 1x, 2x oder x mal Verwendung kaufen, dann ists hahlt viel billiger.
- Jetzt kommts : Natürlich kann man sich auch die Adressen mit Telefonnummern kaufen. Das ist halt dann teuerer.
- man kann Adressen mit allen möglichen Zusatzdaten kaufen, wie Kaufkraft usw.

- Übrigens alle Adressen von ganz Deutschland mit Telefonnummern und auch einer groben Brachenzuordnung kann man für ca. 20 Euro kaufen.
--> nämlich die Telefonauskunfts CD.

- natürlich kann man auc h wieder ganz legal ein Programm schreiben um die Datensätze abzugleichen.

3) Also von wegen, "die hätten die Telefonnummer angegeben ..."

4) DER EINZIGE GRUND warum spezifische Adressen sehr teuer sind ist, dass sie eine kleine Auswahl darstellen und man deshalb enorme Porto- und Logistikkosten spart, wenn man sie nütezn kann.
--> Man kann eine Information natürlich auch ganz legal an 1 Mio Adressen senden weil dann ja die z.B. 2000 wichtigen auch mit dabei sind.

====> Hoffentlich hat es jetzt Jeder verstanden. die Meisten haben das nätürlich längst.
Im Leben ist nur leider so, dass die Wissenden meist eher still sind uns die Unwissenden zu früh ohne genau zu lesen den Mund aufmachen.

---> Meine Bitte:

Wenn Sie entwas zur konstruktiven Problemlösung beitragen wollen, dann tun Sie es immer wieder gern, wenn nicht, dann schweigen Sie dezent und verwirren nicht die engagierten Teilnehmer.

DANKE
 
Fassen wir mal zusammen:

Du willst umsonst einen Crawler.

jetzt gebe ich noch ein letztes Mal eine Antwort, denn hier in dem Board scheint Niemand einem Anderen helfen zu wollen sondern nur diskutieren oder fragen zu wollen warum man etwas braucht oder will.
Wirfst der Community vor, sie will nicht helfen nur diskutieren. Es gibt hier nur eine Hand voll Mitglieder die umsonst etwas für andere tun - aber dafür erwarten sie u.a. Respekt.

Wenn Sie entwas zur konstruktiven Problemlösung beitragen wollen, dann tun Sie es immer wieder gern, wenn nicht, dann schweigen Sie dezent und verwirren nicht die engagierten Teilnehmer.
Jetzt wirds frech. Für wen hällst du dich? So wirst du nie Hilfe bekommen. Wenn du andere rummkommandieren willst, gehst du am besten zur nächsten Software Schmiede und lässt dir so ein Tool basteln. Das kostet dann aber.


Um nochmals deutlich zu werden: Für deine Aufgabe gibt es keine standard Lösung. Damit muss man sich auseinandersetzten und eben auch Lösungen diskutieren. Diese Lösungen können nunmal auch non-IT Vorschläge sein.
 
Original von herry6
- Übrigens alle Adressen von ganz Deutschland mit Telefonnummern und auch einer groben Brachenzuordnung kann man für ca. 20 Euro kaufen.
--> nämlich die Telefonauskunfts CD.
Dann solltest du da mal drüber nachdenken! Denn wie bereits erwähnt wird es für diesen Zweck keine "Fertige" Lösung geben und wie ich deine Kenntnisse einschätze werden 20 euro das Gehalt das du in der Zeit bekommen hättest weit unterschreiten.
Kannst du an "Programmierkenntnissen" irgendwas anbieten?

Der Grund warum du hier auf wenig Mitgefühl stößt, ist nicht das du offensichtlich illegales beabsichtigst (dann würde dein Thread hier schon längst nicht mehr stehen), sondern das es moralisch "verwerflich" ist. ;)

Btw, wenn du so wenig dankbare Beiträge schreibst, wird dir hier bestimmt keiner mehr vernünftige Antworten geben. "Wie es in den Wald rein ruft [...]"
 
Hallo Herry6,

LX hat dir die Schwierigkeiten deiner Methode bereits erklärt. Ich möchte hier noch
ergänzen, dass du mit einem automatischen Skript am Ende keine für solch eine
Aktion qualifizierten Daten bekommen wirst. Im Impressum steht in der Regel
nur die info@.....tld und die Telefonnummer vom Pförtner und dies in den
unterschiedlichsten Formaten immer öfter nur noch als Grafik.
Du kannst also davon ausgehen ein Grossteil der URL´s werden kein Ergebnis
zurückliefern, da ist es mit Sicherheit effektiver die 1800 Seiten abzusurfen und
zu schauen, ob man nicht gleich Name und Kontaktdaten des zuständigen
Mitarbeiters in Erfahrung bringt oder abzuwarten was die Postaktion an Rücklauf
produziert.

Gruss
 
Der Aufwand den man betreiben müßte um ein solches Programm zu schreiben ist für
1800 Adressen absolut in keinem Verhältnis. Alleine die Zeit die man bräuchte um jede
Mögliche Variante von Seiten Aufbau/Telefonnummer/Bilderkennung etc. zu
Programmieren würde länger dauern als einfach die Seite aufzurufen kurz auf
Impressum/Kontakt zu klicken und die gewünschten Infos zu kopieren.

Wenn man pro Information 2Minuten braucht hat man alle 1800 Adressen innerhalb
von 60Std fertig und abgehakt. Vor allem hat man sogar noch Zusatzinformationen
und oder falsche Adressen entfernt.
Den dieses "legale" Kaufen von Firmen heißt nicht das diese die auch immer mit echten
Daten bekommen haben. Bei vielen Seiten im Internet steht ja auch das die Daten an
3te weitergegeben wird als "Partner" außer man wieder spricht dem.

Aber damit du deine Antwort bekommst:
Schritt eins: Die Daten die du bereits hast muss in irgendeiner weise Vorsortiert sein
oder man muss da schon mit den ersten Filtern etc. anfangen.
Danach geht das Programm auf die Webseite und sucht auf jeder Seite nach z.b.
Telefonnummern in den verschiedensten Formaten (Bsp: 0 12 3 / 01 23 / 0123 usw)
danach kann er nach E-Mails in den verschiedensten Formaten suchen (Bsp:
info (at) blabla (dot) tld / info Grafik(at) blabla Grafik(dot) tld usw)
Dabei kann es dann auch sein das er von jeder Filiale eine Telefonummer und E-Mail
Adresse bekommt. Ergo müßte man dann noch schauen ob er alle einfach speichert
oder einfach die erste nimmt.
Dann gibt es noch die Möglichkeit das die E-Mail/Telefonnummer nur Bilder sind das
heißt man müsste ne Bild/Text Erkennung nutzen...
Desweiteren gibt es dann ja noch so nette Crawler fallen die einen aussperren. Sobald
man was bestimmtes einer Webseite öffnet.

Ganz ehrlich ich glaube nicht das sich wer freiwillig hinsetzt um sowas zu Programmieren
wenn es ihm nichts bringt und so wie es scheint soll es ja was kostenloses sein...
oder nen HowTo wie man es macht.

Also ich verweise auf die 60Std arbeit und das war es.

Damit es Produktiv wird und als Zeichen das wir hier auch freundlich und hilfsbereit sind:

Wenn Web-Adresse Verfügbar/Gültig gehe zu dieser Alternative gehe zum nächsten Datensatz
Suche Telefonnummer und E-Mail Adresse (Schließt Erkennung von Bildern mit ein)
Wenn gefunden schreibe Informationen ansonsten markiere als unvollständig.
Wiederhole bis Ende Datensatz

So müßte der Ablauf des Programmes in etwa aussehen die Algorithmen zu den
einzelnen Schritten überlasse ich den Fachleuten.
Das Prinzip sollte an sich in jeder Programmiersprache so umsetzbar sein!
 
Original von end4win
Hallo Herry6,

LX hat dir die Schwierigkeiten deiner Methode bereits erklärt. Ich möchte hier noch
ergänzen, dass du mit einem automatischen Skript am Ende keine für solch eine
Aktion qualifizierten Daten bekommen wirst. Im Impressum steht in der Regel
nur die info@.....tld und die Telefonnummer vom Pförtner und dies in den
unterschiedlichsten Formaten immer öfter nur noch als Grafik.
Du kannst also davon ausgehen ein Grossteil der URL´s werden kein Ergebnis
zurückliefern, da ist es mit Sicherheit effektiver die 1800 Seiten abzusurfen und
zu schauen, ob man nicht gleich Name und Kontaktdaten des zuständigen
Mitarbeiters in Erfahrung bringt oder abzuwarten was die Postaktion an Rücklauf
produziert.

Gruss

-------------------------------------------------------------------------------------------
Hallo nochmal,

1) natürlich kenne ich alle die Möglichkeiten. Wir können und ich kann, um es in aller Deutlichkeit zu sagen, komplexeste Anfragesysteme entwickeln - auch selbstlernende System zur Datenanalyse wären hier denkbar.

2) Nur, das ist doch der Aufwand niemals wert. Es muss mir hier NIEMAND etwas erklären, wie man es machen kann.

Manche hier würden dem Papst wenn er sich hier einlogen würde, zuerst mal die Grundprinzipien des Katholikentums erklären. Dann würden Sie Ihn noch 3x belehren, wie er zu beten hat.

3) Es gibt Unmengen an fertigen Lösungen oder auch Teilkonzepten überall auf der Internet-Welt. Es gibt ja auch Open Source für alle Bereiche.
Gerade im US Raum wird sich doch etwas finden.
Es können auch Teilkonzepte sein. Wir können alles verbinden, da wir alle möglichen Kenntnisse in Programmiertechniken im Haus haben.

===> Das Sichwort lautet "Erfinde das Rad nicht neu, wenn bereits sehr gute vor Dir erfunden worden sind"

4) Im Übrigen gibt es die Thematik mit Grafien im Impressum und versteckten Email-Adressen hier nicht.
Das ist hier in der Branche einfach nicht üblich und auch unnötig so was zu tun, das haben wir natürlcih überprüft.

5) Wenn sich gar keine Lösung findet mach ichs so wie immer in dem Fall, ich schreibe einen Wettbewerb aus, bei dem 60 Schüler teilnehmen - jeder erhält ca. 30 andere Adressen. Wer am schnellsten die 30 Adressen vervollständigt erhält ein Preisgeld von 60 Euro. Das funktioniert und ist das schnellste. Oder hat da auch wieder einer was einzuwenden oder zu kommentieren?
 
Original von herry6

-----------------

Danke für eine präzise kurze und knappe Antwort. Einfach professionell.

Best Regards


Wenn das nicht ironisch gemeint war, ist er glaub ich der erste Mensch hier, der mit einem Verweis auf Google glücklich ist. :D
 
Original von herry6

5) Wenn sich gar keine Lösung findet mach ichs so wie immer in dem Fall, ich schreibe einen Wettbewerb aus, bei dem 60 Schüler teilnehmen - jeder erhält ca. 30 andere Adressen. Wer am schnellsten die 30 Adressen vervollständigt erhält ein Preisgeld von 60 Euro. Das funktioniert und ist das schnellste. Oder hat da auch wieder einer was einzuwenden oder zu kommentieren?

Vielleicht solltest du einfach Kontakte nach Asien aufbauen... da bekommst für 60? dann
auch noch mehr als deine paar Adressen.
Das fällt für mich schon unter ausnutzen :rolleyes: einer bekommt 60? und der Rest liefert
kostenlose die fehlenden 1770 Adressen die ansonsten aus deinen legalen Quellen
Teuer geworden wären...
 
5) Wenn sich gar keine Lösung findet mach ichs so wie immer in dem Fall, ich schreibe einen Wettbewerb aus, bei dem 60 Schüler teilnehmen - jeder erhält ca. 30 andere Adressen. Wer am schnellsten die 30 Adressen vervollständigt erhält ein Preisgeld von 60 Euro. Das funktioniert und ist das schnellste. Oder hat da auch wieder einer was einzuwenden oder zu kommentieren?

Super idee! Glaub mit dieser Lösung kommst du warscheinlich am schnellsten zum Ziel :D Oder stell dafür doch gleich n Praktikanten ein ;)


Zum Thema "freme Website auslesen" gibts ne schöne open source php classe. Die Du mit einer Suchmaschine deiner Wahl sicher innerhalb von wenigen Minuten gefunden hättest:

PHP Snoppy

Das Hauptproblem ist es allerdings immernoch, zu erkennen welche Website das Impressum ist (ne einfach suche nach dem Wort impressum wird wohl nicht bei jeder homepage funktionieren) und dann die entsprechenden Infos richtig herauszufilter.

Hierfür musst Du mit Regular expressions arbeiten: Erstes Ergebnis einer Suchmaschine

Viel Spaß bei der Umsetzung. :P

Bin auf den Sourcecode deiner Lösung gespannt ;) Falls du einen fertigen Crawler suchst- den wirst du hier nicht finden :P
 
Original von herry6
1) natürlich kenne ich alle die Möglichkeiten. Wir können und ich kann, um es in aller Deutlichkeit zu sagen, komplexeste Anfragesysteme entwickeln ...

2) ...Es muss mir hier NIEMAND etwas erklären, wie man es machen kann.

3) Es gibt Unmengen an fertigen Lösungen oder auch Teilkonzepten überall auf der Internet-Welt.
... dann frage ich mich ernsthaft was du hier mit deinem Posting bezweckst, wo du doch eh alles besser weißt und keine Hilfe benötigst!

Mir scheint es vielmehr eher so, dass du hier jemanden "dummen" suchst, der dir kostenlos und mundgerecht eine fertige Lösung auf dem goldenen Tablett serviert. Da kannst du lange warten!

Es gibt hier viele professionelle Entwickler, die beruflich im Bereich Softwareentwicklung tätig sind. Gerne hilft man sich hier gegenseitig mit Anregungen, Vorschlägen und Scriptbeispielen. Niemand hat es hier jedoch nötig komplexe Anwendungen kostenlos, ohne entsprechende Gegenleistung, in seiner Freizeit für irgendwelche fremde User zu erstellen!


5) Wenn sich gar keine Lösung findet mach ichs so wie immer in dem Fall, ich schreibe einen Wettbewerb aus, bei dem 60 Schüler teilnehmen - jeder erhält ca. 30 andere Adressen. Wer am schnellsten die 30 Adressen vervollständigt erhält ein Preisgeld von 60 Euro. Das funktioniert und ist das schnellste. Oder hat da auch wieder einer was einzuwenden oder zu kommentieren?
Das ist ja wohl mehr als dreist. Das ist das selbe Niveau wie Unternehmen, die um Lohnkosten zu sparen fast ausschließlich aus Praktikanten bestehen, die sämtliche Arbeit erledigen "dürfen" und das Unternehmen überhaupt erst am Leben erhalten, dafür aber möglichst gering oder sogar garnicht entlohnt werden und dann alle paar Monate ausgetauscht werden. Soein Verhalten ist einfach nur asozial.
 
Original von BigDevil
Original von herry6

-----------------

Danke für eine präzise kurze und knappe Antwort. Einfach professionell.

Best Regards


Wenn das nicht ironisch gemeint war, ist er glaub ich der erste Mensch hier, der mit einem Verweis auf Google glücklich ist. :D
 
Zurück
Oben